-
DeepSeek-Prover-V2:DeepSeek最新開源的數(shù)學(xué)定理證明模型,參數(shù)量高達(dá)6710億
DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規(guī)模數(shù)學(xué)定理證明模型,參數(shù)量高達(dá) 6710 億(671B),相比前代 Prover-V1.5(約 7B)提升近百倍,成為目前開源中最大規(guī)模的數(shù)學(xué)推理模型之一。該模型專為形式化數(shù)學(xué)證明設(shè)計,能夠生成兼容 Lean 4 等主流證明助手的高質(zhì)量證明步驟,支持復(fù)雜邏輯驗證、定理發(fā)現(xiàn)與教學(xué)應(yīng)用。 -
Xiaomi MiMo:小米推出的首個開源推理模型
MiMo 是小米推出的首個開源大語言模型,參數(shù)規(guī)模為 7B,聚焦于數(shù)學(xué)推理與代碼生成任務(wù)。該模型通過高推理密度的預(yù)訓(xùn)練數(shù)據(jù)(總計 25 萬億 tokens)與強(qiáng)化學(xué)習(xí)后訓(xùn)練(包括獎勵機(jī)制優(yōu)化、樣本再采樣策略等),實(shí)現(xiàn)了在 AIME、LiveCodeBench 等多個權(quán)威基準(zhǔn)上的領(lǐng)先表現(xiàn)。 -
Qwen3:阿里巴巴最新開源的混合推理大模型
Qwen3 是阿里巴巴推出的新一代大語言模型,支持119種語言,具備強(qiáng)大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換,能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型,旗艦版Qwen3-235B-A22B在多個領(lǐng)域性能達(dá)到業(yè)界頂尖,廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。 -
Step1X-Edit:階躍星辰推出的開源圖像編輯大模型
Step1X-Edit 是一款開源的圖像編輯模型,具備語義精準(zhǔn)解析、身份一致性保持和高精度區(qū)域級控制等核心能力,支持多種高頻圖像編輯任務(wù)。 -
Kimi-Audio:Kimi開源的通用音頻基礎(chǔ)模型,支持語音識別、音頻理解等多種任務(wù)
Kimi-Audio是kimi開源的全新通用音頻基礎(chǔ)模型,支持語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等多種任務(wù),在十多個音頻基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)的 (SOTA) 性能。 -
GPT-4.1:OpenAI 推出的新一代語言模型,支持百萬上下文
GPT-4.1 是 OpenAI 推出的新一代語言模型,包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個版本。它在編碼能力、指令遵循和長文本處理等方面有顯著提升,支持高達(dá) 100 萬個 token 的上下文窗口。 -
訊飛星火認(rèn)知大模型
訊飛星火是科大訊飛發(fā)布的認(rèn)知大模型,以中文為核心的新一代認(rèn)知智能大模型,擁有跨領(lǐng)域的知識和語言理解能力,能夠基于自然對話方式理解與執(zhí)行任務(wù)。從海量數(shù)據(jù)和大規(guī)模知識中持續(xù)進(jìn)化,實(shí)現(xiàn)從提出、規(guī)劃到解決問題的全流程閉環(huán)。 -
SkyReels-V2:昆侖萬維開源的無限時長電影生成模型
SkyReels-V2 是由昆侖萬維開源的一款視頻生成大模型,首創(chuàng)“擴(kuò)散強(qiáng)迫(Diffusion-forcing)”訓(xùn)練框架,具備生成高保真、連貫、長時長(30s 以上)的影視級視頻的能力。模型融合了多模態(tài)大語言模型(MLLM)、強(qiáng)化學(xué)習(xí)、視頻理解與擴(kuò)散優(yōu)化等多項技術(shù),適用于故事生成、圖像到視頻(I2V)、運(yùn)鏡控制和多元素一致性生成等豐富場景。 -
豆包1.5·深度思考模型:火山引擎推出的AI推理模型
在數(shù)學(xué)、編程、科學(xué)推理等專業(yè)領(lǐng)域及創(chuàng)意寫作等通用任務(wù)中表現(xiàn)突出,在AIME 2024、Codeforces、GPQA等多項權(quán)威基準(zhǔn)上達(dá)到或接近業(yè)界第一梯隊水平。支持128k上下文窗口,16k輸出。 -
InstantCharacter:騰訊混元開源的定制化圖像生成插件,支持角色一致性生成
InstantCharacter 是騰訊混元開源的一個定制化圖像生成插件,能夠通過簡單的文字描述和一張圖片生成各種角色的圖像。它實(shí)現(xiàn)了對開源文生圖模型 Flux 的兼容,用戶只需要提供一張圖片和一句話的描述,就可以讓角色以想要的姿勢出現(xiàn)在任何場景中。 -
Gemini 2.5 Flash:Google 推出的首個完全混合推理模型
Gemini 2.5 Flash 是 Google 推出的首個完全混合推理模型,允許開發(fā)人員靈活控制模型的思考功能,可開啟或關(guān)閉。它還支持設(shè)置思考預(yù)算,幫助開發(fā)者在質(zhì)量、成本和延遲之間找到最佳平衡。即使關(guān)閉思考功能,模型仍能保持 2.0 Flash 的高速度,并進(jìn)一步提升性能,兼具高效推理和成本效益。目前處于預(yù)覽階段,支持通過 API 在 Google AI Studio 和 Vertex AI … -
HiDream.ai:AI視頻和圖像生成平臺
HiDream AI是一個提供多種圖像和視頻生成服務(wù)的AIGC創(chuàng)作平臺和社區(qū),由前京東副總裁、加拿大工程院外籍院士梅濤于2023年3月成立。HiDream AI主要包括文生圖、圖生圖、文生視頻、圖生視頻、圖片智能重繪、智能拓圖、智能排版、視頻智能編輯、設(shè)計師展示交流社區(qū)、AI創(chuàng)意創(chuàng)作大賽、AIGC課程及攻略等欄目,幫助您零基礎(chǔ)輕松掌握AIGC一站式能力,喚醒創(chuàng)造力、生命感和價值感,解放生產(chǎn)力,全面… -
OpenAI o3:OpenAI推出的最新推理模型,支持工具調(diào)用和圖像理解
OpenAI o3 是 OpenAI 發(fā)布的最新推理模型,代表了其在智能推理領(lǐng)域的最高水平。它能夠自主使用 ChatGPT 內(nèi)的所有工具,包括網(wǎng)絡(luò)搜索、文件分析、代碼執(zhí)行和圖像生成。 -
OpenAI o4-mini:OpenAI最新推出的經(jīng)濟(jì)高效的推理模型
o4-mini 是OpenAI 發(fā)布的一款高效推理模型,專為快速、低成本的任務(wù)設(shè)計。它在數(shù)學(xué)、編程和視覺任務(wù)上表現(xiàn)出色,尤其適合高吞吐量場景。o4-mini 能自主使用 ChatGPT 的工具,如搜索、文件分析和代碼執(zhí)行,以快速生成答案。它還支持多模態(tài)輸入,能處理圖像和文本,對話自然且相關(guān)。其性價比高,是處理復(fù)雜問題的理想選擇。 -
Seedream 3.0:字節(jié)推出的雙語AI圖像生成模型,支持原生 2K 分辨率
Seedream 3.0 是豆包大模型團(tuán)隊推出的下一代全場景文生圖模型,支持原生 2K 分辨率圖像生成,并具有顯著提升的文本渲染、圖像美學(xué)、結(jié)構(gòu)優(yōu)化能力。 -
Skywork-OR1:昆侖萬維開源的數(shù)學(xué)代碼推理系列模型
Skywork-OR1是由昆侖萬維推出的開源高性能推理模型系列,該系列在同等參數(shù)規(guī)模下實(shí)現(xiàn)了業(yè)界領(lǐng)先的推理性能,進(jìn)一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費(fèi)使用。 -
林龍大模型:中國林科院推出的國內(nèi)首個林草行業(yè)大模型
林龍大模型是中國林科院推出的國內(nèi)首個林草行業(yè)大模型,基于DeepSeek大模型構(gòu)建。它專為林草行業(yè)設(shè)計,融合多模態(tài)數(shù)據(jù)與行業(yè)知識,具備高效處理時空數(shù)據(jù)、低資源適配、高擴(kuò)展性等優(yōu)勢,可應(yīng)用于樹種識別、病蟲害監(jiān)測、生態(tài)系統(tǒng)評估等八大場景,助力林草行業(yè)智能化轉(zhuǎn)型與高質(zhì)量發(fā)展。 -
SYMPLEX:北大推出的功能基因深度挖掘大模型
SYMPLEX 是由北京大學(xué)錢瓏團(tuán)隊發(fā)布的功能基因深度挖掘大模型平臺,專為生物制造和合成生物元件設(shè)計服務(wù)。平臺結(jié)合大語言模型能力與結(jié)構(gòu)化生物知識,能夠從海量文獻(xiàn)中自動提取與標(biāo)注功能基因,并提供基因功能推薦、結(jié)構(gòu)分析與知識圖譜生成等功能,推動從序列到應(yīng)用的基因資源發(fā)現(xiàn)。 -
-
LHM - 阿里通義開源的單張照片生成可驅(qū)動3D數(shù)字人模型
LHM 是阿里通義開源的單張照片生成可驅(qū)動 3D 數(shù)字人模型,具備高質(zhì)量建模與動作還原能力。用戶僅需上傳一張照片,即可生成具備骨骼結(jié)構(gòu)的 3D 人物,并可綁定跳舞、打籃球等復(fù)雜動作,實(shí)現(xiàn)流暢自然的動態(tài)表現(xiàn)。該模型適用于虛擬人制作、游戲角色生成、XR 場景構(gòu)建等應(yīng)用,具備開源可用、可部署、可交互的特點(diǎn)。 -
MagicColor:香港科技大學(xué)推出的多實(shí)例草圖自動上色框架
基于擴(kuò)散模型的多實(shí)例草圖上色工具,支持上傳參考圖,實(shí)現(xiàn)多角色一致性自動上色,適用于動畫與插畫創(chuàng)作。 -
Llama 4:Meta 推出的新一代原生多模態(tài)開源大模型
Llama 4 是 Meta 發(fā)布的最新一代開源大模型,具備原生多模態(tài)能力,可處理文本和圖像的聯(lián)合輸入,支持圖文問答、多圖理解等復(fù)雜任務(wù)。模型采用高效的 MoE(混合專家)架構(gòu),推理速度更快、成本更低,且上下文窗口長達(dá) 1000 萬 tokens,遠(yuǎn)超同類模型。 -
Gen-4:Runway推出的新一代AI視頻生成模型
Runway Gen-4 是由 Runway 推出的第四代視頻生成模型,具備高度一致性、多視角控制、風(fēng)格保持和鏡頭構(gòu)圖能力。該模型支持通過文字描述或圖像參考,生成高質(zhì)量、連續(xù)性強(qiáng)的視頻內(nèi)容。 -
QVQ-Max:阿里通義推出的視覺推理模型,能分析圖片和視頻內(nèi)容
QVQ-Max 是阿里巴巴通義團(tuán)隊推出的AI視覺推理模型,能夠分析圖片和視頻內(nèi)容,進(jìn)行推理和解決問題。它具備細(xì)致的觀察能力,能識別圖像中的關(guān)鍵元素,并結(jié)合背景知識進(jìn)行深度推理。 -
Qwen2.5-Omni:阿里推出的新一代端到端多模態(tài)模型
Qwen2.5-Omni是阿里巴巴通義團(tuán)隊推出的一款全模態(tài)大語言模型。它能夠處理多種輸入形式,包括文本、音頻、圖像和視頻,并生成相應(yīng)的輸出。 -
Mureka O1 - 昆侖萬維推出的AI音樂推理大模型
Mureka O1是昆侖萬維發(fā)布的全球首款音樂推理大模型,基于Mureka V6升級,引入CoT技術(shù),支持純音樂及10種語言創(chuàng)作,涵蓋多種曲風(fēng)和情感。用戶可通過簡單模式輸入風(fēng)格或高級模式輸入歌詞等創(chuàng)作。它還提供歌曲參考、音色克隆功能,支持API服務(wù)與模型微調(diào)。 -
Gemini 2.5 Pro:谷歌推出的最新多模態(tài)AI模型,具備高級推理能力
Gemini 2.5 Pro是谷歌推出的一款具備高級推理能力的人工智能模型,支持文本、圖像、音頻和視頻等多種輸入形式,上下文窗口達(dá)100萬token。用戶可以通過Google AI Studio和Gemini Advanced免費(fèi)使用,Vertex AI集成即將推出 -
DeepSeek-V3-0324:深度求索推出的新版本DeepSeek V3模型
DeepSeek-V3-0324 是 DeepSeek 團(tuán)隊發(fā)布的小版本升級模型,參數(shù)約 660B,上下文長度 128K。該版本在推理任務(wù)、前端開發(fā)、中文寫作、中文搜索等方面顯著提升,特別是在數(shù)學(xué)、代碼和百科知識評測中表現(xiàn)優(yōu)異。 -
Qwen2.5-VL-32B-Instruct:阿里開源的最新多模態(tài)模型,主打視覺語言理解和推理
Qwen2.5-VL-32B-Instruct 是阿里開源的多模態(tài)大模型(32B參數(shù)),支持 視覺+語言+數(shù)學(xué)推理,在 圖像理解(如地理特征識別、多輪視覺問答)和 復(fù)雜數(shù)學(xué)推理(幾何、數(shù)列等)方面表現(xiàn)突出。通過強(qiáng)化學(xué)習(xí)優(yōu)化,其輸出更符合人類偏好,回答更詳細(xì)、結(jié)構(gòu)化。 -
減單 - 安徽醫(yī)科大學(xué)等推出的體重管理大模型智能助手
“減單”是由安徽醫(yī)科大學(xué)聯(lián)合中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院和健康科技企業(yè)共同發(fā)布的體重管理大模型智能助手。它基于國內(nèi)外多個AI大模型技術(shù),結(jié)合超過40萬名肥胖相關(guān)慢性疾病患者的管理數(shù)據(jù)訓(xùn)練而成,旨在借助AI技術(shù)提高減重的個性化干預(yù)質(zhì)量和診療效率。 -
騰訊混元T1:騰訊推出的最新深度思考推理模型
騰訊混元 T1 是騰訊推出的最新深度思考推理模型,具備強(qiáng)大的分析和推理能力,能夠清晰、有依據(jù)地回答復(fù)雜問題。T1 還支持聯(lián)網(wǎng)搜索,結(jié)合實(shí)時信息提供更準(zhǔn)確的答案。 -
Step-Video-TI2V:階躍星辰開源的AI圖生視頻模型
Step-Video-TI2V是階躍星辰開源的AI圖生視頻模型,基于30B參數(shù)訓(xùn)練,支持生成102幀、5秒、540P分辨率的視頻。它具備運(yùn)動幅度和鏡頭運(yùn)動可控性,適合動畫和短視頻制作,尤其在動漫效果上表現(xiàn)突出。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D圖像輕松轉(zhuǎn)3D視頻
Stable Virtual Camera是由Stability AI推出的多視圖擴(kuò)散模型,能夠?qū)?D圖像轉(zhuǎn)化為具有真實(shí)深度和透視效果的3D視頻。該模型支持用戶自定義相機(jī)軌跡和多種動態(tài)路徑,可從單個或多達(dá)32個輸入圖像生成3D視頻,并支持多種寬高比和長達(dá)1000幀的長視頻生成。 -
Skywork R1V:昆侖萬維開源的多模態(tài)視覺思維鏈推理模型
Skywork R1V 是昆侖萬維開源的多模態(tài)視覺思維鏈推理模型,專注于通過多步邏輯推理解決復(fù)雜的視覺任務(wù)。它結(jié)合了強(qiáng)大的文本推理能力和視覺理解能力,能夠處理視覺邏輯推理、數(shù)學(xué)問題、科學(xué)現(xiàn)象分析等任務(wù)。 -
Gemini 2.0:谷歌推出的面向代理時代的多模態(tài)大模型
Gemini 2.0 是 Google 最新推出的多模態(tài)人工智能大模型,支持處理文本、圖像、音頻和視頻等數(shù)據(jù)類型。相比 1.0,2.0 在多模態(tài)方面實(shí)現(xiàn)突破,不僅支持圖像、視頻和音頻輸入,還支持原生圖像和音頻輸出,并可調(diào)用谷歌搜索、代碼及第三方函數(shù),顯著提升模型的靈活性和擴(kuò)展性。 -
文心大模型4.5:百度推出的新一代原生多模態(tài)基礎(chǔ)大模型
文心大模型4.5是百度推出的新一代原生多模態(tài)基礎(chǔ)大模型,通過多個模態(tài)聯(lián)合建模實(shí)現(xiàn)協(xié)同優(yōu)化,多模態(tài)理解能力優(yōu)秀;具備更精進(jìn)的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯推理、代碼能力顯著提升。 -
文心大模型X1:百度推出的新一代深度思考模型
文心大模型X1是百度發(fā)布的新一代深度思考模型,具備強(qiáng)大的理解、規(guī)劃、反思和進(jìn)化能力,支持多模態(tài)輸入輸出以及多種工具調(diào)用。它在中文知識問答、文學(xué)創(chuàng)作、復(fù)雜計算等方面表現(xiàn)出色,性能對標(biāo)DeepSeek-R1,但API調(diào)用價格僅為一半。 -
千帆大模型平臺-百度推出的大模型與AI應(yīng)用開發(fā)服務(wù)平臺
一站式企業(yè)級大模型平臺,提供先進(jìn)的生成式AI生產(chǎn)及應(yīng)用全流程開發(fā)工具鏈 -
Gemma 3:Google 推出的輕量級高性能開源模型,支持單個GPU運(yùn)行
Gemma 3 是 Google 推出的輕量級、高性能開源模型,支持多種尺寸(1B、4B、12B 和 27B),專為單 GPU 或 TPU 設(shè)計。它支持 140 多種語言,具備高級文本和視覺推理能力,配備 128k-token 上下文窗口和函數(shù)調(diào)用功能,支持復(fù)雜任務(wù)處理。Gemma 3 提供量化版本,優(yōu)化性能,降低計算需求,并配備安全特性。它無縫集成多種開發(fā)工具,支持靈活部署,助力開發(fā)者快速構(gòu)建高… -
SeedFoley - 字節(jié)跳動推出的AI視頻音效生成模型
SeedFoley 是字節(jié)跳動推出的端到端視頻音效生成模型,通過融合時空視頻特征和擴(kuò)散生成模型,實(shí)現(xiàn)音效與視頻的高度同步。它支持可變長度視頻輸入,可在音效準(zhǔn)確性、同步性和匹配度上達(dá)到領(lǐng)先水平。SeedFoley 已上線即夢應(yīng)用,用戶可一鍵生成專業(yè)級音效,廣泛應(yīng)用于 AI 視頻創(chuàng)作、Vlog、短片和游戲制作等場景,提升視頻的沉浸感和專業(yè)感。