-
Hunyuan-GameCraft:騰訊混元等開源的高動(dòng)態(tài)交互式游戲視頻生成框架
Hunyuan-GameCraft 是由騰訊混元團(tuán)隊(duì)與華中科技大學(xué)聯(lián)合推出的開源交互式游戲視頻生成框架,基于HunyuanVideo底模,只需輸入一張圖 +?文字描述+動(dòng)作指令(按鍵盤方向鍵)就能生成高動(dòng)態(tài)、分鐘級長視頻... -
Baichuan-M2:百川智能開源的醫(yī)療增強(qiáng)推理大模型
Baichuan-M2-32B 是百川智能推出的醫(yī)療增強(qiáng)推理模型,專為真實(shí)世界的醫(yī)療推理任務(wù)設(shè)計(jì)。該模型基于 Qwen2.5-32B 基座,通過創(chuàng)新的大型驗(yàn)證器系統(tǒng)(Large Verifier System)從真實(shí)世界的醫(yī)療問題出發(fā),進(jìn)行醫(yī)療領(lǐng)域后訓(xùn)練對齊,在保持模型通用能力的同時(shí),實(shí)現(xiàn)了醫(yī)療效果的突破性提升。... -
Matrix-Game 2.0:昆侖萬維開源的交互式AI世界模型
Matrix-Game 2.0 是昆侖萬維發(fā)布的國產(chǎn)開源交互式世界模型,能夠以 25FPS 實(shí)時(shí)生成分鐘級長交互視頻,并在不同風(fēng)格與環(huán)境下保持良好的泛化與物理一致性。它面向游戲開發(fā)、虛擬現(xiàn)實(shí)與影視創(chuàng)作等應(yīng)用,旨在為虛擬世界構(gòu)建提供可落地的生成式基座,推動(dòng)具身智能與空間智能研究。... -
Skywork UniPic 2.0:昆侖萬維開源的統(tǒng)一多模態(tài)生成與編輯模型
UniPic 2.0 是 Skywork 推出的統(tǒng)一多模態(tài)模型,基于 SD3.5-Medium 的 2B DiT,結(jié)合“在線強(qiáng)化學(xué)習(xí)+雙任務(wù)漸進(jìn)強(qiáng)化”,在生成與編輯上優(yōu)于同級開源模型,并擴(kuò)展為理解-生成-編輯一體的統(tǒng)一模型,提供技術(shù)報(bào)告、代碼與權(quán)重。... -
SkyReels-A3:昆侖萬維推出的音頻驅(qū)動(dòng)人像視頻生成模型
SkyReels-A3是昆侖萬維新發(fā)布的音頻驅(qū)動(dòng)任意時(shí)長人像視頻模型,一句話照片+聲音即可讓靜態(tài)人像開口說話、唱歌或帶貨,支持分鐘級長視頻、8種運(yùn)鏡控制,效果超越當(dāng)前開源/閉源方案,零門檻在線可用。... -
GLM-4.5V:智譜開源的多模態(tài)視覺推理大模型
GLM-4.5V 是智譜基于 GLM-4.5-Air 文本基座構(gòu)建的開源視覺-語言模型,面向圖像、視頻、文檔與 GUI 屏幕等全場景的多模態(tài)推理與理解。... -
GPT-OSS:OpenAI開源的大語言模型,支持本地部署與高效推理
GPT-OSS是 OpenAI 發(fā)布的開源權(quán)重大語言模型系列,包含 20B 與 120B 兩個(gè)版本,支持原生 128K tokens 長上下文、MoE 架構(gòu)高效推理、微調(diào)與智能體功能,適合本地部署與企業(yè)級生成式應(yīng)用,采用 Apache 2.0 許可協(xié)議。... -
Qwen-Image:阿里通義千問推出的圖像生成基礎(chǔ)模型
Qwen-Image 是通義千問系列的圖像生成基礎(chǔ)模型,具備卓越的文本渲染和圖像編輯能力,支持多種藝術(shù)風(fēng)格與復(fù)雜場景,廣泛應(yīng)用于海報(bào)、PPT及創(chuàng)意設(shè)計(jì),推動(dòng)視覺內(nèi)容創(chuàng)作發(fā)展。... -
Step 3:階躍星辰開源的多模態(tài)推理模型
Step 3 是階躍星辰團(tuán)隊(duì)最新推出并開源的多模態(tài)推理模型,采用 MoE 架構(gòu),總參數(shù)量 321B,激活參數(shù)量 38B,上下文長度64k,擁有強(qiáng)大的視覺感知和復(fù)雜推理能力,可準(zhǔn)確完成跨領(lǐng)域的復(fù)雜知識理解、數(shù)學(xué)與視覺信息的交叉分析,以及日常生活中的各類視覺分析問題。... -
Qwen3-Coder-Flash:阿里通義千問開源的AI編程模型
Qwen3-Coder-Flash 是阿里通義開源的 30B 編程模型,支持超長上下文,函數(shù)調(diào)用優(yōu)化,性能接近主流閉源大模型。... -
Wan2.2 - 阿里通義開源的視頻和圖像生成模型
Wan2.2 是由阿里通義大模型團(tuán)隊(duì)發(fā)布的開源視頻生成模型,專為電影級視覺控制和高質(zhì)量視頻創(chuàng)作設(shè)計(jì)。它通過混合專家(MoE)架構(gòu),實(shí)現(xiàn)了對電影鏡頭語言的深度理解和還原,支持多維度的視覺呈現(xiàn),如光影、色彩和構(gòu)圖。... -
GLM-4.5:智譜AI推出的新一代開源旗艦AI模型
GLM-4.5 是由智譜 AI 推出的開源 SOTA 模型,專為智能體應(yīng)用打造,具備卓越的推理、代碼生成和智能體能力。采用混合專家架構(gòu),提供思考模式和非思考模式,滿足復(fù)雜任務(wù)和即時(shí)響應(yīng)需求。... -
Qwen-MT:阿里通義千問推出的機(jī)器翻譯模型,支持92種語言互譯
Qwen?MT 是阿里云通義千問團(tuán)隊(duì)基于 Qwen3 開發(fā)的機(jī)器翻譯大模型,采用輕量級 MoE 架構(gòu),支持 92 種官方語言及方言互譯。... -
Qwen3-Coder:阿里通義千問推出的代碼模型,具備卓越的代碼生成和 Agent 能力
Qwen3-Coder 是阿里巴巴通義千問團(tuán)隊(duì)發(fā)布的最新代碼模型,具備卓越的代碼生成和 Agent 能力。它擁有多個(gè)尺寸,其中最強(qiáng)大的版本是 Qwen3-Coder-480B-A35B-Instruct,這是一個(gè) 480B 參數(shù)激活 35B 參數(shù)的 MoE 模型,原生支持 256K token 的上下文,并可通過 YaRN 擴(kuò)展到 1M token。... -
Kimi K2:月之暗面開源的萬億參數(shù) MoE 架構(gòu)基礎(chǔ)模型
Kimi?K2 是月之暗面 Moonshot AI 推出的開源大型語言模型,采用 Mixture-of-Experts 架構(gòu),擁有總參數(shù)量達(dá) 1?萬億、32?B 激活參數(shù),支持最長 128K 上下文長度,原生設(shè)計(jì)以實(shí)現(xiàn)“agentic intelligence”(自主任務(wù)執(zhí)行與工具調(diào)用)。... -
AniSora - Bilibili開源的動(dòng)漫視頻生成模型,一鍵生成多種風(fēng)格動(dòng)漫視頻鏡頭
AniSora是 Bilibili 推出的開源動(dòng)漫視頻生成模型,它支持一鍵生成多種動(dòng)漫風(fēng)格的視頻鏡頭,包括番劇片段、國創(chuàng)動(dòng)畫、漫畫改編、VTuber 內(nèi)容、動(dòng)畫 PV、鬼畜(MAD)等。... -
ThinkSound - 阿里通義開源的AI音頻生成模型
ThinkSound 是阿里通義實(shí)驗(yàn)室開源的首個(gè)音頻生成模型,能夠像專業(yè)音效師一樣理解畫面內(nèi)容并進(jìn)行結(jié)構(gòu)化推理,從而生成高保真、與視覺高度同步的空間音頻,適用于影視、短視頻、游戲等多種創(chuàng)作場景。... -
OmniGen2 - 智源研究院推出的開源多模態(tài)生成模型
OmniGen2是智源研究院推出的開源多模態(tài)生成模型,具備文本生成圖像、圖像編輯、上下文圖像生成與視覺理解等核心能力。... -
Ovis-U1:阿里巴巴推出的統(tǒng)一的多模態(tài)理解與生成模型
Ovis-U1 是阿里巴巴國際化團(tuán)隊(duì)推出的統(tǒng)一多模態(tài)理解與生成模型,它擁有三十億參數(shù),融合了圖像理解、文本到圖像生成和圖像編輯功能。... -
百度正式開源文心4.5系列模型
2025年6月30日,百度宣布文心4.5系列模型正式開源。此次開源包括10款不同規(guī)模的模型,其中包括參數(shù)量為47B和3B的混合專家(MoE)模型,以及0.3B的稠密參數(shù)模型。文心4.5的開源文件包括預(yù)訓(xùn)練權(quán)重和推理代碼,已上傳至Hugging Face、GitHub以及飛槳星河社區(qū),供全球開發(fā)者使用。 主要技術(shù)特點(diǎn) 1. 多模態(tài)混合專家模型預(yù)訓(xùn)練 文心4.5通過聯(lián)合訓(xùn)練文本和視覺兩種模態(tài)來提高模型…... -
Qwen VLo - 阿里推出的多模態(tài)統(tǒng)一理解與生成模型
Qwen VLo 是通義千問團(tuán)隊(duì)推出的多模態(tài)統(tǒng)一理解與生成模型,具備強(qiáng)大的圖文雙向交互能力。它不僅能精準(zhǔn)理解圖像內(nèi)容,還能根據(jù)自然語言指令進(jìn)行高質(zhì)量的圖像生成與編輯,支持風(fēng)格遷移、背景更換、物體添加等多種操作... -
FLUX.1 Kontext [dev]:Black Forest Labs開源的圖像編輯模型
FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的開源圖像編輯模型,支持通過自然語言對圖像進(jìn)行局部修改,具備風(fēng)格與角色一致性保持、多輪穩(wěn)定編輯等能力。該模型基于 Flow Transformer 架構(gòu),編輯精度高、響應(yīng)速度快,適合創(chuàng)作者、開發(fā)者和研究人員用于插畫創(chuàng)作、視覺敘事和圖像生成研究。... -
Hailuo 02:MiniMax最新推出的AI視頻生成模型
Hailuo 02 是 MiniMax 稀宇科技最新推出的AI視頻生成模型,支持生成高質(zhì)量1080p視頻,擅長處理復(fù)雜指令和物理表現(xiàn),如體操場景。... -
MiniMax-M1:MiniMax開源的大規(guī)模混合架構(gòu)推理模型
MiniMax-M1 是MiniMax(稀宇科技)推出的全球首個(gè)開源大規(guī)模混合架構(gòu)推理模型,具備卓越的長上下文處理能力和高效的推理性能。其支持高達(dá)100萬上下文輸入和8萬Token輸出,采用閃電注意力機(jī)制,顯著提升算力效率。同時(shí),該模型在軟件工程、長上下文理解等復(fù)雜場景中表現(xiàn)優(yōu)異,性價(jià)比極高,且提供免費(fèi)不限量使用和低價(jià)格API服務(wù)。... -
dots.llm1:小紅書開源的 MoE 架構(gòu)大語言模型
dots.llm1是小紅書開源的 MoE 架構(gòu)大語言模型,擁有 1420 億參數(shù),推理僅激活 140 億,兼顧性能與效率。模型基于 11.2 萬億非合成高質(zhì)量數(shù)據(jù)訓(xùn)練,支持中英文,具備 32K 長上下文處理能力,并開放中間訓(xùn)練 checkpoint,適合問答、內(nèi)容生成、語義理解等多種應(yīng)用場景。... -
Speech 02:MiniMax 推出的新一代語音TTS模型,支持高質(zhì)量多語種語音合成
MiniMax-Speech-02 支持多語言、高擬真語音生成,廣泛應(yīng)用于配音制作、虛擬人、教育、語音定制與無障礙溝通等場景,助力個(gè)性化語音內(nèi)容高效生成與全球化傳播。... -
Wan2.1-VACE:阿里開源的AI視頻生成和編輯模型
通義萬相 Wan2.1-VACE是阿里巴巴開源的AI視頻生成與編輯模型,單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長延展等全系列基礎(chǔ)生成和編輯能力。... -
Step1X-3D:階躍星辰開源的3D大模型,支持生成高保真可控的3D內(nèi)容
Step1X-3D 是由階躍星辰正式發(fā)布并開源的一款3D大模型。該模型是繼圖像、視頻、語音、音樂等模態(tài)后,階躍星辰在多模態(tài)AI方向的最新成果,專注于生成高保真、可控的3D內(nèi)容。... -
Seed1.5-VL:字節(jié)跳動(dòng)推出的視覺-語言多模態(tài)基礎(chǔ)模型
Seed1.5-VL 是字節(jié)跳動(dòng)推出的視覺-語言多模態(tài)基礎(chǔ)模型,結(jié)合圖像編碼器與200億激活參數(shù)的大語言模型,具備出色的圖像、視頻理解與推理能力。在60項(xiàng)基準(zhǔn)測試中獲得38項(xiàng)SOTA,廣泛應(yīng)用于視頻問答、圖表理解、GUI智能體等任務(wù),表現(xiàn)穩(wěn)定、推理強(qiáng)大。... -
Matrix-Game:昆侖萬維開源的交互式世界基礎(chǔ)模型
Matrix-Game是由昆侖萬維開源的交互式世界基礎(chǔ)模型,能夠生成完整可交互的游戲世界,能夠?qū)θ祟愝斎氲牟僮髦噶钸M(jìn)行正確響應(yīng),保留了游戲世界的空間結(jié)構(gòu)與物理特性,畫面也更加精致,超越了以往所有類似開源世界模型。... -
Seed-Coder:字節(jié)跳動(dòng)最新推出的開源代碼模型
Seed-Coder 是字節(jié)跳動(dòng)開源的 8B(80億參數(shù))級代碼大模型,它包括 Base、Instruct 和 Reasoning 三個(gè)版本,具備強(qiáng)大的代碼生成、理解和推理能力。其最大亮點(diǎn)是采用“模型自助式”數(shù)據(jù)管道,利用大模型自動(dòng)篩選和構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù),減少人工規(guī)則依賴。... -
HunyuanCustom:騰訊混元開源的多模態(tài)定制化視頻生成工具
HunyuanCustom是騰訊混元推出的一款多模態(tài)定制化視頻生成工具,它基于混元視頻生成大模型(HunyuanVideo)打造,融合了文本、圖像、音頻、視頻等多模態(tài)輸入,能夠生成高質(zhì)量的定制化視頻。該工具在主體一致性效果上超越了現(xiàn)有的開源方案,具備高度控制力和生成質(zhì)量。... -
ACE-Step:階躍星辰和ACE Studio聯(lián)合發(fā)布的開源音樂基礎(chǔ)模型
ACE-Step 是由階躍星辰與 ACE Studio 聯(lián)合開源的音樂大模型,旨在為音樂愛好者提供高效、靈活且高質(zhì)量的音樂創(chuàng)作工具。該模型參數(shù)量為 3.5B,具備多語言支持、快速生成、強(qiáng)可控性及易于拓展等特點(diǎn),支持多種音樂創(chuàng)作場景,如音頻編輯、人聲合成、伴奏生成等。... -
DeepSeek-Prover-V2:DeepSeek最新開源的數(shù)學(xué)定理證明模型,參數(shù)量高達(dá)6710億
DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規(guī)模數(shù)學(xué)定理證明模型,參數(shù)量高達(dá) 6710 億(671B),相比前代 Prover-V1.5(約 7B)提升近百倍,成為目前開源中最大規(guī)模的數(shù)學(xué)推理模型之一。該模型專為形式化數(shù)學(xué)證明設(shè)計(jì),能夠生成兼容 Lean 4 等主流證明助手的高質(zhì)量證明步驟,支持復(fù)雜邏輯驗(yàn)證、定理發(fā)現(xiàn)與教學(xué)應(yīng)用。... -
Xiaomi MiMo:小米推出的首個(gè)開源推理模型
MiMo 是小米推出的首個(gè)開源大語言模型,參數(shù)規(guī)模為 7B,聚焦于數(shù)學(xué)推理與代碼生成任務(wù)。該模型通過高推理密度的預(yù)訓(xùn)練數(shù)據(jù)(總計(jì) 25 萬億 tokens)與強(qiáng)化學(xué)習(xí)后訓(xùn)練(包括獎(jiǎng)勵(lì)機(jī)制優(yōu)化、樣本再采樣策略等),實(shí)現(xiàn)了在 AIME、LiveCodeBench 等多個(gè)權(quán)威基準(zhǔn)上的領(lǐng)先表現(xiàn)。... -
Qwen3:阿里巴巴最新開源的混合推理大模型
Qwen3 是阿里巴巴推出的新一代大語言模型,支持119種語言,具備強(qiáng)大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換,能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型,旗艦版Qwen3-235B-A22B在多個(gè)領(lǐng)域性能達(dá)到業(yè)界頂尖,廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。... -
Step1X-Edit:階躍星辰推出的開源圖像編輯大模型
Step1X-Edit 是一款開源的圖像編輯模型,具備語義精準(zhǔn)解析、身份一致性保持和高精度區(qū)域級控制等核心能力,支持多種高頻圖像編輯任務(wù)。... -
Kimi-Audio:Kimi開源的通用音頻基礎(chǔ)模型,支持語音識別、音頻理解等多種任務(wù)
Kimi-Audio是kimi開源的全新通用音頻基礎(chǔ)模型,支持語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等多種任務(wù),在十多個(gè)音頻基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)的 (SOTA) 性能。... -
SkyReels-V2:昆侖萬維開源的無限時(shí)長電影生成模型
SkyReels-V2 是由昆侖萬維開源的一款視頻生成大模型,首創(chuàng)“擴(kuò)散強(qiáng)迫(Diffusion-forcing)”訓(xùn)練框架,具備生成高保真、連貫、長時(shí)長(30s 以上)的影視級視頻的能力。模型融合了多模態(tài)大語言模型(MLLM)、強(qiáng)化學(xué)習(xí)、視頻理解與擴(kuò)散優(yōu)化等多項(xiàng)技術(shù),適用于故事生成、圖像到視頻(I2V)、運(yùn)鏡控制和多元素一致性生成等豐富場景。... -
InstantCharacter:騰訊混元開源的定制化圖像生成插件,支持角色一致性生成
InstantCharacter 是騰訊混元開源的一個(gè)定制化圖像生成插件,能夠通過簡單的文字描述和一張圖片生成各種角色的圖像。它實(shí)現(xiàn)了對開源文生圖模型 Flux 的兼容,用戶只需要提供一張圖片和一句話的描述,就可以讓角色以想要的姿勢出現(xiàn)在任何場景中。...