全部標簽

AI訓(xùn)練模型

最新隨機最多瀏覽

DeepSeek-Prover-V2：DeepSeek最新開源的數(shù)學(xué)定理證明模型，參數(shù)量高達6710億

DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規(guī)模數(shù)學(xué)定理證明模型，參數(shù)量高達 6710 億（671B），相比前代 Prover-V1.5（約 7B）提升近百倍，成為目前開源中最大規(guī)模的數(shù)學(xué)推理模型之一。該模型專為形式化數(shù)學(xué)證明設(shè)計，能夠生成兼容 Lean 4 等主流證明助手的高質(zhì)量證明步驟，支持復(fù)雜邏輯驗證、定理發(fā)現(xiàn)與教學(xué)應(yīng)用。
Xiaomi MiMo：小米推出的首個開源推理模型

MiMo 是小米推出的首個開源大語言模型，參數(shù)規(guī)模為 7B，聚焦于數(shù)學(xué)推理與代碼生成任務(wù)。該模型通過高推理密度的預(yù)訓(xùn)練數(shù)據(jù)（總計 25 萬億 tokens）與強化學(xué)習(xí)后訓(xùn)練（包括獎勵機制優(yōu)化、樣本再采樣策略等），實現(xiàn)了在 AIME、LiveCodeBench 等多個權(quán)威基準上的領(lǐng)先表現(xiàn)。
Qwen3：阿里巴巴最新開源的混合推理大模型

Qwen3 是阿里巴巴推出的新一代大語言模型，支持119種語言，具備強大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換，能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型，旗艦版Qwen3-235B-A22B在多個領(lǐng)域性能達到業(yè)界頂尖，廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。
Step1X-Edit：階躍星辰推出的開源圖像編輯大模型

Step1X-Edit 是一款開源的圖像編輯模型，具備語義精準解析、身份一致性保持和高精度區(qū)域級控制等核心能力，支持多種高頻圖像編輯任務(wù)。
Kimi-Audio：Kimi開源的通用音頻基礎(chǔ)模型，支持語音識別、音頻理解等多種任務(wù)

Kimi-Audio是kimi開源的全新通用音頻基礎(chǔ)模型，支持語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等多種任務(wù)，在十多個音頻基準測試中實現(xiàn)了最先進的 (SOTA) 性能。
SkyReels-V2：昆侖萬維開源的無限時長電影生成模型

SkyReels-V2 是由昆侖萬維開源的一款視頻生成大模型，首創(chuàng)“擴散強迫（Diffusion-forcing）”訓(xùn)練框架，具備生成高保真、連貫、長時長（30s 以上）的影視級視頻的能力。模型融合了多模態(tài)大語言模型（MLLM）、強化學(xué)習(xí)、視頻理解與擴散優(yōu)化等多項技術(shù)，適用于故事生成、圖像到視頻（I2V）、運鏡控制和多元素一致性生成等豐富場景。
InstantCharacter：騰訊混元開源的定制化圖像生成插件，支持角色一致性生成

InstantCharacter 是騰訊混元開源的一個定制化圖像生成插件，能夠通過簡單的文字描述和一張圖片生成各種角色的圖像。它實現(xiàn)了對開源文生圖模型 Flux 的兼容，用戶只需要提供一張圖片和一句話的描述，就可以讓角色以想要的姿勢出現(xiàn)在任何場景中。
Gemini 2.5 Flash：Google 推出的首個完全混合推理模型

Gemini 2.5 Flash 是 Google 推出的首個完全混合推理模型，允許開發(fā)人員靈活控制模型的思考功能，可開啟或關(guān)閉。它還支持設(shè)置思考預(yù)算，幫助開發(fā)者在質(zhì)量、成本和延遲之間找到最佳平衡。即使關(guān)閉思考功能，模型仍能保持 2.0 Flash 的高速度，并進一步提升性能，兼具高效推理和成本效益。目前處于預(yù)覽階段，支持通過 API 在 Google AI Studio 和 Vertex AI …
豆包1.5·深度思考模型：火山引擎推出的AI推理模型

在數(shù)學(xué)、編程、科學(xué)推理等專業(yè)領(lǐng)域及創(chuàng)意寫作等通用任務(wù)中表現(xiàn)突出，在AIME 2024、Codeforces、GPQA等多項權(quán)威基準上達到或接近業(yè)界第一梯隊水平。支持128k上下文窗口，16k輸出。
OpenAI o4-mini：OpenAI最新推出的經(jīng)濟高效的推理模型

o4-mini 是OpenAI 發(fā)布的一款高效推理模型，專為快速、低成本的任務(wù)設(shè)計。它在數(shù)學(xué)、編程和視覺任務(wù)上表現(xiàn)出色，尤其適合高吞吐量場景。o4-mini 能自主使用 ChatGPT 的工具，如搜索、文件分析和代碼執(zhí)行，以快速生成答案。它還支持多模態(tài)輸入，能處理圖像和文本，對話自然且相關(guān)。其性價比高，是處理復(fù)雜問題的理想選擇。
OpenAI o3：OpenAI推出的最新推理模型，支持工具調(diào)用和圖像理解

OpenAI o3 是 OpenAI 發(fā)布的最新推理模型，代表了其在智能推理領(lǐng)域的最高水平。它能夠自主使用 ChatGPT 內(nèi)的所有工具，包括網(wǎng)絡(luò)搜索、文件分析、代碼執(zhí)行和圖像生成。
Seedream 3.0：字節(jié)推出的雙語AI圖像生成模型，支持原生 2K 分辨率

Seedream 3.0 是豆包大模型團隊推出的下一代全場景文生圖模型，支持原生 2K 分辨率圖像生成，并具有顯著提升的文本渲染、圖像美學(xué)、結(jié)構(gòu)優(yōu)化能力。
林龍大模型：中國林科院推出的國內(nèi)首個林草行業(yè)大模型

林龍大模型是中國林科院推出的國內(nèi)首個林草行業(yè)大模型，基于DeepSeek大模型構(gòu)建。它專為林草行業(yè)設(shè)計，融合多模態(tài)數(shù)據(jù)與行業(yè)知識，具備高效處理時空數(shù)據(jù)、低資源適配、高擴展性等優(yōu)勢，可應(yīng)用于樹種識別、病蟲害監(jiān)測、生態(tài)系統(tǒng)評估等八大場景，助力林草行業(yè)智能化轉(zhuǎn)型與高質(zhì)量發(fā)展。
GPT-4.1：OpenAI 推出的新一代語言模型，支持百萬上下文

GPT-4.1 是 OpenAI 推出的新一代語言模型，包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個版本。它在編碼能力、指令遵循和長文本處理等方面有顯著提升，支持高達 100 萬個 token 的上下文窗口。
SYMPLEX：北大推出的功能基因深度挖掘大模型

SYMPLEX 是由北京大學(xué)錢瓏團隊發(fā)布的功能基因深度挖掘大模型平臺，專為生物制造和合成生物元件設(shè)計服務(wù)。平臺結(jié)合大語言模型能力與結(jié)構(gòu)化生物知識，能夠從海量文獻中自動提取與標注功能基因，并提供基因功能推薦、結(jié)構(gòu)分析與知識圖譜生成等功能，推動從序列到應(yīng)用的基因資源發(fā)現(xiàn)。
Skywork-OR1：昆侖萬維開源的數(shù)學(xué)代碼推理系列模型

Skywork-OR1是由昆侖萬維推出的開源高性能推理模型系列，該系列在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能，進一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。同時，Skywork-OR1全面開放、免費使用。
Kimi-VL：月之暗面開源的視覺語言模型

Kimi-VL 是由月之暗面推出的一款開源視覺語言模型（VLM），具備原生分辨率圖像理解、多模態(tài)推理和128K長上下文處理能力。
LHM - 阿里通義開源的單張照片生成可驅(qū)動3D數(shù)字人模型

LHM 是阿里通義開源的單張照片生成可驅(qū)動 3D 數(shù)字人模型，具備高質(zhì)量建模與動作還原能力。用戶僅需上傳一張照片，即可生成具備骨骼結(jié)構(gòu)的 3D 人物，并可綁定跳舞、打籃球等復(fù)雜動作，實現(xiàn)流暢自然的動態(tài)表現(xiàn)。該模型適用于虛擬人制作、游戲角色生成、XR 場景構(gòu)建等應(yīng)用，具備開源可用、可部署、可交互的特點。
MagicColor：香港科技大學(xué)推出的多實例草圖自動上色框架

基于擴散模型的多實例草圖上色工具，支持上傳參考圖，實現(xiàn)多角色一致性自動上色，適用于動畫與插畫創(chuàng)作。
Llama 4：Meta 推出的新一代原生多模態(tài)開源大模型

Llama 4 是 Meta 發(fā)布的最新一代開源大模型，具備原生多模態(tài)能力，可處理文本和圖像的聯(lián)合輸入，支持圖文問答、多圖理解等復(fù)雜任務(wù)。模型采用高效的 MoE（混合專家）架構(gòu)，推理速度更快、成本更低，且上下文窗口長達 1000 萬 tokens，遠超同類模型。
Gen-4：Runway推出的新一代AI視頻生成模型

Runway Gen-4 是由 Runway 推出的第四代視頻生成模型，具備高度一致性、多視角控制、風(fēng)格保持和鏡頭構(gòu)圖能力。該模型支持通過文字描述或圖像參考，生成高質(zhì)量、連續(xù)性強的視頻內(nèi)容。
QVQ-Max：阿里通義推出的視覺推理模型，能分析圖片和視頻內(nèi)容

QVQ-Max 是阿里巴巴通義團隊推出的AI視覺推理模型，能夠分析圖片和視頻內(nèi)容，進行推理和解決問題。它具備細致的觀察能力，能識別圖像中的關(guān)鍵元素，并結(jié)合背景知識進行深度推理。
Qwen2.5-Omni：阿里推出的新一代端到端多模態(tài)模型

Qwen2.5-Omni是阿里巴巴通義團隊推出的一款全模態(tài)大語言模型。它能夠處理多種輸入形式，包括文本、音頻、圖像和視頻，并生成相應(yīng)的輸出。
Mureka O1 - 昆侖萬維推出的AI音樂推理大模型

Mureka O1是昆侖萬維發(fā)布的全球首款音樂推理大模型，基于Mureka V6升級，引入CoT技術(shù)，支持純音樂及10種語言創(chuàng)作，涵蓋多種曲風(fēng)和情感。用戶可通過簡單模式輸入風(fēng)格或高級模式輸入歌詞等創(chuàng)作。它還提供歌曲參考、音色克隆功能，支持API服務(wù)與模型微調(diào)。
Gemini 2.5 Pro：谷歌推出的最新多模態(tài)AI模型，具備高級推理能力

Gemini 2.5 Pro是谷歌推出的一款具備高級推理能力的人工智能模型，支持文本、圖像、音頻和視頻等多種輸入形式，上下文窗口達100萬token。用戶可以通過Google AI Studio和Gemini Advanced免費使用，Vertex AI集成即將推出
Qwen2.5-VL-32B-Instruct：阿里開源的最新多模態(tài)模型，主打視覺語言理解和推理

Qwen2.5-VL-32B-Instruct 是阿里開源的多模態(tài)大模型（32B參數(shù)），支持視覺+語言+數(shù)學(xué)推理，在圖像理解（如地理特征識別、多輪視覺問答）和復(fù)雜數(shù)學(xué)推理（幾何、數(shù)列等）方面表現(xiàn)突出。通過強化學(xué)習(xí)優(yōu)化，其輸出更符合人類偏好，回答更詳細、結(jié)構(gòu)化。
DeepSeek-V3-0324：深度求索推出的新版本DeepSeek V3模型

DeepSeek-V3-0324 是 DeepSeek 團隊發(fā)布的小版本升級模型，參數(shù)約 660B，上下文長度 128K。該版本在推理任務(wù)、前端開發(fā)、中文寫作、中文搜索等方面顯著提升，特別是在數(shù)學(xué)、代碼和百科知識評測中表現(xiàn)優(yōu)異。
減單 - 安徽醫(yī)科大學(xué)等推出的體重管理大模型智能助手

“減單”是由安徽醫(yī)科大學(xué)聯(lián)合中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院和健康科技企業(yè)共同發(fā)布的體重管理大模型智能助手。它基于國內(nèi)外多個AI大模型技術(shù)，結(jié)合超過40萬名肥胖相關(guān)慢性疾病患者的管理數(shù)據(jù)訓(xùn)練而成，旨在借助AI技術(shù)提高減重的個性化干預(yù)質(zhì)量和診療效率。
Step-Video-TI2V：階躍星辰開源的AI圖生視頻模型

Step-Video-TI2V是階躍星辰開源的AI圖生視頻模型，基于30B參數(shù)訓(xùn)練，支持生成102幀、5秒、540P分辨率的視頻。它具備運動幅度和鏡頭運動可控性，適合動畫和短視頻制作，尤其在動漫效果上表現(xiàn)突出。
Stable Virtual Camera：Stability AI等推出的AI模型，2D圖像輕松轉(zhuǎn)3D視頻

Stable Virtual Camera是由Stability AI推出的多視圖擴散模型，能夠?qū)?D圖像轉(zhuǎn)化為具有真實深度和透視效果的3D視頻。該模型支持用戶自定義相機軌跡和多種動態(tài)路徑，可從單個或多達32個輸入圖像生成3D視頻，并支持多種寬高比和長達1000幀的長視頻生成。
Skywork R1V：昆侖萬維開源的多模態(tài)視覺思維鏈推理模型

Skywork R1V 是昆侖萬維開源的多模態(tài)視覺思維鏈推理模型，專注于通過多步邏輯推理解決復(fù)雜的視覺任務(wù)。它結(jié)合了強大的文本推理能力和視覺理解能力，能夠處理視覺邏輯推理、數(shù)學(xué)問題、科學(xué)現(xiàn)象分析等任務(wù)。
文心大模型X1：百度推出的新一代深度思考模型

文心大模型X1是百度發(fā)布的新一代深度思考模型，具備強大的理解、規(guī)劃、反思和進化能力，支持多模態(tài)輸入輸出以及多種工具調(diào)用。它在中文知識問答、文學(xué)創(chuàng)作、復(fù)雜計算等方面表現(xiàn)出色，性能對標DeepSeek-R1，但API調(diào)用價格僅為一半。
文心大模型4.5：百度推出的新一代原生多模態(tài)基礎(chǔ)大模型

文心大模型4.5是百度推出的新一代原生多模態(tài)基礎(chǔ)大模型，通過多個模態(tài)聯(lián)合建模實現(xiàn)協(xié)同優(yōu)化，多模態(tài)理解能力優(yōu)秀；具備更精進的語言能力，理解、生成、邏輯、記憶能力全面提升，去幻覺、邏輯推理、代碼能力顯著提升。
Gemma 3：Google 推出的輕量級高性能開源模型，支持單個GPU運行

Gemma 3 是 Google 推出的輕量級、高性能開源模型，支持多種尺寸（1B、4B、12B 和 27B），專為單 GPU 或 TPU 設(shè)計。它支持 140 多種語言，具備高級文本和視覺推理能力，配備 128k-token 上下文窗口和函數(shù)調(diào)用功能，支持復(fù)雜任務(wù)處理。Gemma 3 提供量化版本，優(yōu)化性能，降低計算需求，并配備安全特性。它無縫集成多種開發(fā)工具，支持靈活部署，助力開發(fā)者快速構(gòu)建高…
SeedFoley - 字節(jié)跳動推出的AI視頻音效生成模型

SeedFoley 是字節(jié)跳動推出的端到端視頻音效生成模型，通過融合時空視頻特征和擴散生成模型，實現(xiàn)音效與視頻的高度同步。它支持可變長度視頻輸入，可在音效準確性、同步性和匹配度上達到領(lǐng)先水平。SeedFoley 已上線即夢應(yīng)用，用戶可一鍵生成專業(yè)級音效，廣泛應(yīng)用于 AI 視頻創(chuàng)作、Vlog、短片和游戲制作等場景，提升視頻的沉浸感和專業(yè)感。
GO-1：智元推出的首個通用具身基座模型

GO-1是什么？ GO-1是智元機器人發(fā)布的通用具身基座大模型，采用ViLLA架構(gòu)，結(jié)合視覺、語言、隱式動作和執(zhí)行能力。它通過學(xué)習(xí)人類視頻和少量樣本泛化新任務(wù)，支持多機器人形態(tài)并持續(xù)進化。GO-1代表了具身智能向通用化、智能化發(fā)展的新階段，預(yù)示著機器人將具備更廣泛的應(yīng)用潛力。 GO-1的主要特點 ViLLA架構(gòu)：GO-1采用Vision-Language-Latent-Action (ViLLA)…
混元圖生視頻模型 - 騰訊開源的AI視頻生成模型

混元圖生視頻模型是騰訊開源的一個圖像轉(zhuǎn)視頻生成框架，能夠?qū)㈧o態(tài)圖像轉(zhuǎn)換為生動的視頻內(nèi)容。用戶只需上傳一張圖片并簡單描述動態(tài)效果，即可生成五秒的短視頻。它結(jié)合了先進的視頻生成技術(shù)和多模態(tài)大語言模型，支持多種角色和場景的生成，包括寫實視頻、動漫角色和 CGI 角色等。
QwQ-32B：阿里云開源的最新AI推理模型，更小尺寸，消費級顯卡即可部署

QwQ-32B 是阿里云開源的320億參數(shù)推理模型，具備強大的數(shù)學(xué)、代碼和通用推理能力，性能比肩全球頂尖開源模型。它支持消費級顯卡部署，降低硬件門檻，同時集成智能體能力，可靈活調(diào)整推理過程。采用Apache 2.0協(xié)議開源，用戶可免費下載、商用和定制化開發(fā)，推動AI技術(shù)的廣泛應(yīng)用。
SpeciesNet - 谷歌開源的AI模型，助力野生動物識別和保護

SpeciesNet是谷歌開源的一款A(yù)I模型，專為識別野生動物而設(shè)計。它通過分析相機陷阱拍攝的照片，能夠?qū)D像分類為超過2000個標簽，涵蓋動物物種、分類群和非動物對象。模型基于6500萬張圖像訓(xùn)練，具備高準確性和廣泛適用性，采用Apache 2.0開源許可，助力生物多樣性研究和保護。
CogView4 - 智譜推出的開源文生圖模型，支持漢字生成

CogView4是北京智譜華章推出的開源文生圖模型，支持中英雙語輸入，擅長生成含漢字圖像。它在DPG-Bench測試中排名第一，性能卓越。具備任意分辨率生成和長提示詞輸入能力，技術(shù)領(lǐng)先，遵循Apache 2.0協(xié)議，適用于廣告、短視頻等創(chuàng)意領(lǐng)域。

{{userData.name}}已認證

AI訓(xùn)練模型