-
DeepSeek-Prover-V2:DeepSeek最新開源的數(shù)學(xué)定理證明模型,參數(shù)量高達6710億
DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規(guī)模數(shù)學(xué)定理證明模型,參數(shù)量高達 6710 億(671B),相比前代 Prover-V1.5(約 7B)提升近百倍,成為目前開源中最大規(guī)模的數(shù)學(xué)推理模型之一。該模型專為形式化數(shù)學(xué)證明設(shè)計,能夠生成兼容 Lean 4 等主流證明助手的高質(zhì)量證明步驟,支持復(fù)雜邏輯驗證、定理發(fā)現(xiàn)與教學(xué)應(yīng)用。 -
Xiaomi MiMo:小米推出的首個開源推理模型
MiMo 是小米推出的首個開源大語言模型,參數(shù)規(guī)模為 7B,聚焦于數(shù)學(xué)推理與代碼生成任務(wù)。該模型通過高推理密度的預(yù)訓(xùn)練數(shù)據(jù)(總計 25 萬億 tokens)與強化學(xué)習(xí)后訓(xùn)練(包括獎勵機制優(yōu)化、樣本再采樣策略等),實現(xiàn)了在 AIME、LiveCodeBench 等多個權(quán)威基準上的領(lǐng)先表現(xiàn)。 -
Qwen3:阿里巴巴最新開源的混合推理大模型
Qwen3 是阿里巴巴推出的新一代大語言模型,支持119種語言,具備強大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換,能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型,旗艦版Qwen3-235B-A22B在多個領(lǐng)域性能達到業(yè)界頂尖,廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。 -
Step1X-Edit:階躍星辰推出的開源圖像編輯大模型
Step1X-Edit 是一款開源的圖像編輯模型,具備語義精準解析、身份一致性保持和高精度區(qū)域級控制等核心能力,支持多種高頻圖像編輯任務(wù)。 -
Kimi-Audio:Kimi開源的通用音頻基礎(chǔ)模型,支持語音識別、音頻理解等多種任務(wù)
Kimi-Audio是kimi開源的全新通用音頻基礎(chǔ)模型,支持語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等多種任務(wù),在十多個音頻基準測試中實現(xiàn)了最先進的 (SOTA) 性能。 -
SkyReels-V2:昆侖萬維開源的無限時長電影生成模型
SkyReels-V2 是由昆侖萬維開源的一款視頻生成大模型,首創(chuàng)“擴散強迫(Diffusion-forcing)”訓(xùn)練框架,具備生成高保真、連貫、長時長(30s 以上)的影視級視頻的能力。模型融合了多模態(tài)大語言模型(MLLM)、強化學(xué)習(xí)、視頻理解與擴散優(yōu)化等多項技術(shù),適用于故事生成、圖像到視頻(I2V)、運鏡控制和多元素一致性生成等豐富場景。 -
InstantCharacter:騰訊混元開源的定制化圖像生成插件,支持角色一致性生成
InstantCharacter 是騰訊混元開源的一個定制化圖像生成插件,能夠通過簡單的文字描述和一張圖片生成各種角色的圖像。它實現(xiàn)了對開源文生圖模型 Flux 的兼容,用戶只需要提供一張圖片和一句話的描述,就可以讓角色以想要的姿勢出現(xiàn)在任何場景中。 -
Gemini 2.5 Flash:Google 推出的首個完全混合推理模型
Gemini 2.5 Flash 是 Google 推出的首個完全混合推理模型,允許開發(fā)人員靈活控制模型的思考功能,可開啟或關(guān)閉。它還支持設(shè)置思考預(yù)算,幫助開發(fā)者在質(zhì)量、成本和延遲之間找到最佳平衡。即使關(guān)閉思考功能,模型仍能保持 2.0 Flash 的高速度,并進一步提升性能,兼具高效推理和成本效益。目前處于預(yù)覽階段,支持通過 API 在 Google AI Studio 和 Vertex AI … -
豆包1.5·深度思考模型:火山引擎推出的AI推理模型
在數(shù)學(xué)、編程、科學(xué)推理等專業(yè)領(lǐng)域及創(chuàng)意寫作等通用任務(wù)中表現(xiàn)突出,在AIME 2024、Codeforces、GPQA等多項權(quán)威基準上達到或接近業(yè)界第一梯隊水平。支持128k上下文窗口,16k輸出。 -
OpenAI o4-mini:OpenAI最新推出的經(jīng)濟高效的推理模型
o4-mini 是OpenAI 發(fā)布的一款高效推理模型,專為快速、低成本的任務(wù)設(shè)計。它在數(shù)學(xué)、編程和視覺任務(wù)上表現(xiàn)出色,尤其適合高吞吐量場景。o4-mini 能自主使用 ChatGPT 的工具,如搜索、文件分析和代碼執(zhí)行,以快速生成答案。它還支持多模態(tài)輸入,能處理圖像和文本,對話自然且相關(guān)。其性價比高,是處理復(fù)雜問題的理想選擇。 -
OpenAI o3:OpenAI推出的最新推理模型,支持工具調(diào)用和圖像理解
OpenAI o3 是 OpenAI 發(fā)布的最新推理模型,代表了其在智能推理領(lǐng)域的最高水平。它能夠自主使用 ChatGPT 內(nèi)的所有工具,包括網(wǎng)絡(luò)搜索、文件分析、代碼執(zhí)行和圖像生成。 -
Seedream 3.0:字節(jié)推出的雙語AI圖像生成模型,支持原生 2K 分辨率
Seedream 3.0 是豆包大模型團隊推出的下一代全場景文生圖模型,支持原生 2K 分辨率圖像生成,并具有顯著提升的文本渲染、圖像美學(xué)、結(jié)構(gòu)優(yōu)化能力。 -
林龍大模型:中國林科院推出的國內(nèi)首個林草行業(yè)大模型
林龍大模型是中國林科院推出的國內(nèi)首個林草行業(yè)大模型,基于DeepSeek大模型構(gòu)建。它專為林草行業(yè)設(shè)計,融合多模態(tài)數(shù)據(jù)與行業(yè)知識,具備高效處理時空數(shù)據(jù)、低資源適配、高擴展性等優(yōu)勢,可應(yīng)用于樹種識別、病蟲害監(jiān)測、生態(tài)系統(tǒng)評估等八大場景,助力林草行業(yè)智能化轉(zhuǎn)型與高質(zhì)量發(fā)展。 -
GPT-4.1:OpenAI 推出的新一代語言模型,支持百萬上下文
GPT-4.1 是 OpenAI 推出的新一代語言模型,包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個版本。它在編碼能力、指令遵循和長文本處理等方面有顯著提升,支持高達 100 萬個 token 的上下文窗口。 -
SYMPLEX:北大推出的功能基因深度挖掘大模型
SYMPLEX 是由北京大學(xué)錢瓏團隊發(fā)布的功能基因深度挖掘大模型平臺,專為生物制造和合成生物元件設(shè)計服務(wù)。平臺結(jié)合大語言模型能力與結(jié)構(gòu)化生物知識,能夠從海量文獻中自動提取與標注功能基因,并提供基因功能推薦、結(jié)構(gòu)分析與知識圖譜生成等功能,推動從序列到應(yīng)用的基因資源發(fā)現(xiàn)。 -
Skywork-OR1:昆侖萬維開源的數(shù)學(xué)代碼推理系列模型
Skywork-OR1是由昆侖萬維推出的開源高性能推理模型系列,該系列在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能,進一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用。 -
-
LHM - 阿里通義開源的單張照片生成可驅(qū)動3D數(shù)字人模型
LHM 是阿里通義開源的單張照片生成可驅(qū)動 3D 數(shù)字人模型,具備高質(zhì)量建模與動作還原能力。用戶僅需上傳一張照片,即可生成具備骨骼結(jié)構(gòu)的 3D 人物,并可綁定跳舞、打籃球等復(fù)雜動作,實現(xiàn)流暢自然的動態(tài)表現(xiàn)。該模型適用于虛擬人制作、游戲角色生成、XR 場景構(gòu)建等應(yīng)用,具備開源可用、可部署、可交互的特點。 -
MagicColor:香港科技大學(xué)推出的多實例草圖自動上色框架
基于擴散模型的多實例草圖上色工具,支持上傳參考圖,實現(xiàn)多角色一致性自動上色,適用于動畫與插畫創(chuàng)作。 -
Llama 4:Meta 推出的新一代原生多模態(tài)開源大模型
Llama 4 是 Meta 發(fā)布的最新一代開源大模型,具備原生多模態(tài)能力,可處理文本和圖像的聯(lián)合輸入,支持圖文問答、多圖理解等復(fù)雜任務(wù)。模型采用高效的 MoE(混合專家)架構(gòu),推理速度更快、成本更低,且上下文窗口長達 1000 萬 tokens,遠超同類模型。 -
Gen-4:Runway推出的新一代AI視頻生成模型
Runway Gen-4 是由 Runway 推出的第四代視頻生成模型,具備高度一致性、多視角控制、風(fēng)格保持和鏡頭構(gòu)圖能力。該模型支持通過文字描述或圖像參考,生成高質(zhì)量、連續(xù)性強的視頻內(nèi)容。 -
QVQ-Max:阿里通義推出的視覺推理模型,能分析圖片和視頻內(nèi)容
QVQ-Max 是阿里巴巴通義團隊推出的AI視覺推理模型,能夠分析圖片和視頻內(nèi)容,進行推理和解決問題。它具備細致的觀察能力,能識別圖像中的關(guān)鍵元素,并結(jié)合背景知識進行深度推理。 -
Qwen2.5-Omni:阿里推出的新一代端到端多模態(tài)模型
Qwen2.5-Omni是阿里巴巴通義團隊推出的一款全模態(tài)大語言模型。它能夠處理多種輸入形式,包括文本、音頻、圖像和視頻,并生成相應(yīng)的輸出。 -
Mureka O1 - 昆侖萬維推出的AI音樂推理大模型
Mureka O1是昆侖萬維發(fā)布的全球首款音樂推理大模型,基于Mureka V6升級,引入CoT技術(shù),支持純音樂及10種語言創(chuàng)作,涵蓋多種曲風(fēng)和情感。用戶可通過簡單模式輸入風(fēng)格或高級模式輸入歌詞等創(chuàng)作。它還提供歌曲參考、音色克隆功能,支持API服務(wù)與模型微調(diào)。 -
Gemini 2.5 Pro:谷歌推出的最新多模態(tài)AI模型,具備高級推理能力
Gemini 2.5 Pro是谷歌推出的一款具備高級推理能力的人工智能模型,支持文本、圖像、音頻和視頻等多種輸入形式,上下文窗口達100萬token。用戶可以通過Google AI Studio和Gemini Advanced免費使用,Vertex AI集成即將推出 -
Qwen2.5-VL-32B-Instruct:阿里開源的最新多模態(tài)模型,主打視覺語言理解和推理
Qwen2.5-VL-32B-Instruct 是阿里開源的多模態(tài)大模型(32B參數(shù)),支持 視覺+語言+數(shù)學(xué)推理,在 圖像理解(如地理特征識別、多輪視覺問答)和 復(fù)雜數(shù)學(xué)推理(幾何、數(shù)列等)方面表現(xiàn)突出。通過強化學(xué)習(xí)優(yōu)化,其輸出更符合人類偏好,回答更詳細、結(jié)構(gòu)化。 -
DeepSeek-V3-0324:深度求索推出的新版本DeepSeek V3模型
DeepSeek-V3-0324 是 DeepSeek 團隊發(fā)布的小版本升級模型,參數(shù)約 660B,上下文長度 128K。該版本在推理任務(wù)、前端開發(fā)、中文寫作、中文搜索等方面顯著提升,特別是在數(shù)學(xué)、代碼和百科知識評測中表現(xiàn)優(yōu)異。 -
減單 - 安徽醫(yī)科大學(xué)等推出的體重管理大模型智能助手
“減單”是由安徽醫(yī)科大學(xué)聯(lián)合中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院和健康科技企業(yè)共同發(fā)布的體重管理大模型智能助手。它基于國內(nèi)外多個AI大模型技術(shù),結(jié)合超過40萬名肥胖相關(guān)慢性疾病患者的管理數(shù)據(jù)訓(xùn)練而成,旨在借助AI技術(shù)提高減重的個性化干預(yù)質(zhì)量和診療效率。 -
Step-Video-TI2V:階躍星辰開源的AI圖生視頻模型
Step-Video-TI2V是階躍星辰開源的AI圖生視頻模型,基于30B參數(shù)訓(xùn)練,支持生成102幀、5秒、540P分辨率的視頻。它具備運動幅度和鏡頭運動可控性,適合動畫和短視頻制作,尤其在動漫效果上表現(xiàn)突出。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D圖像輕松轉(zhuǎn)3D視頻
Stable Virtual Camera是由Stability AI推出的多視圖擴散模型,能夠?qū)?D圖像轉(zhuǎn)化為具有真實深度和透視效果的3D視頻。該模型支持用戶自定義相機軌跡和多種動態(tài)路徑,可從單個或多達32個輸入圖像生成3D視頻,并支持多種寬高比和長達1000幀的長視頻生成。 -
Skywork R1V:昆侖萬維開源的多模態(tài)視覺思維鏈推理模型
Skywork R1V 是昆侖萬維開源的多模態(tài)視覺思維鏈推理模型,專注于通過多步邏輯推理解決復(fù)雜的視覺任務(wù)。它結(jié)合了強大的文本推理能力和視覺理解能力,能夠處理視覺邏輯推理、數(shù)學(xué)問題、科學(xué)現(xiàn)象分析等任務(wù)。 -
文心大模型X1:百度推出的新一代深度思考模型
文心大模型X1是百度發(fā)布的新一代深度思考模型,具備強大的理解、規(guī)劃、反思和進化能力,支持多模態(tài)輸入輸出以及多種工具調(diào)用。它在中文知識問答、文學(xué)創(chuàng)作、復(fù)雜計算等方面表現(xiàn)出色,性能對標DeepSeek-R1,但API調(diào)用價格僅為一半。 -
文心大模型4.5:百度推出的新一代原生多模態(tài)基礎(chǔ)大模型
文心大模型4.5是百度推出的新一代原生多模態(tài)基礎(chǔ)大模型,通過多個模態(tài)聯(lián)合建模實現(xiàn)協(xié)同優(yōu)化,多模態(tài)理解能力優(yōu)秀;具備更精進的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯推理、代碼能力顯著提升。 -
Gemma 3:Google 推出的輕量級高性能開源模型,支持單個GPU運行
Gemma 3 是 Google 推出的輕量級、高性能開源模型,支持多種尺寸(1B、4B、12B 和 27B),專為單 GPU 或 TPU 設(shè)計。它支持 140 多種語言,具備高級文本和視覺推理能力,配備 128k-token 上下文窗口和函數(shù)調(diào)用功能,支持復(fù)雜任務(wù)處理。Gemma 3 提供量化版本,優(yōu)化性能,降低計算需求,并配備安全特性。它無縫集成多種開發(fā)工具,支持靈活部署,助力開發(fā)者快速構(gòu)建高… -
SeedFoley - 字節(jié)跳動推出的AI視頻音效生成模型
SeedFoley 是字節(jié)跳動推出的端到端視頻音效生成模型,通過融合時空視頻特征和擴散生成模型,實現(xiàn)音效與視頻的高度同步。它支持可變長度視頻輸入,可在音效準確性、同步性和匹配度上達到領(lǐng)先水平。SeedFoley 已上線即夢應(yīng)用,用戶可一鍵生成專業(yè)級音效,廣泛應(yīng)用于 AI 視頻創(chuàng)作、Vlog、短片和游戲制作等場景,提升視頻的沉浸感和專業(yè)感。 -
GO-1:智元推出的首個通用具身基座模型
GO-1是什么? GO-1是智元機器人發(fā)布的通用具身基座大模型,采用ViLLA架構(gòu),結(jié)合視覺、語言、隱式動作和執(zhí)行能力。它通過學(xué)習(xí)人類視頻和少量樣本泛化新任務(wù),支持多機器人形態(tài)并持續(xù)進化。GO-1代表了具身智能向通用化、智能化發(fā)展的新階段,預(yù)示著機器人將具備更廣泛的應(yīng)用潛力。 GO-1的主要特點 ViLLA架構(gòu):GO-1采用Vision-Language-Latent-Action (ViLLA)… -
混元圖生視頻模型 - 騰訊開源的AI視頻生成模型
混元圖生視頻模型是騰訊開源的一個圖像轉(zhuǎn)視頻生成框架,能夠?qū)㈧o態(tài)圖像轉(zhuǎn)換為生動的視頻內(nèi)容。用戶只需上傳一張圖片并簡單描述動態(tài)效果,即可生成五秒的短視頻。它結(jié)合了先進的視頻生成技術(shù)和多模態(tài)大語言模型,支持多種角色和場景的生成,包括寫實視頻、動漫角色和 CGI 角色等。 -
QwQ-32B:阿里云開源的最新AI推理模型,更小尺寸,消費級顯卡即可部署
QwQ-32B 是阿里云開源的320億參數(shù)推理模型,具備強大的數(shù)學(xué)、代碼和通用推理能力,性能比肩全球頂尖開源模型。它支持消費級顯卡部署,降低硬件門檻,同時集成智能體能力,可靈活調(diào)整推理過程。采用Apache 2.0協(xié)議開源,用戶可免費下載、商用和定制化開發(fā),推動AI技術(shù)的廣泛應(yīng)用。 -
SpeciesNet - 谷歌開源的AI模型,助力野生動物識別和保護
SpeciesNet是谷歌開源的一款A(yù)I模型,專為識別野生動物而設(shè)計。它通過分析相機陷阱拍攝的照片,能夠?qū)D像分類為超過2000個標簽,涵蓋動物物種、分類群和非動物對象。模型基于6500萬張圖像訓(xùn)練,具備高準確性和廣泛適用性,采用Apache 2.0開源許可,助力生物多樣性研究和保護。 -
CogView4 - 智譜推出的開源文生圖模型,支持漢字生成
CogView4是北京智譜華章推出的開源文生圖模型,支持中英雙語輸入,擅長生成含漢字圖像。它在DPG-Bench測試中排名第一,性能卓越。具備任意分辨率生成和長提示詞輸入能力,技術(shù)領(lǐng)先,遵循Apache 2.0協(xié)議,適用于廣告、短視頻等創(chuàng)意領(lǐng)域。