全部標(biāo)簽

AI模型

Hunyuan-GameCraft：騰訊混元等開源的高動(dòng)態(tài)交互式游戲視頻生成框架

Hunyuan-GameCraft 是由騰訊混元團(tuán)隊(duì)與華中科技大學(xué)聯(lián)合推出的開源交互式游戲視頻生成框架，基于HunyuanVideo底模，只需輸入一張圖 +?文字描述+動(dòng)作指令（按鍵盤方向鍵）就能生成高動(dòng)態(tài)、分鐘級長視頻...
Baichuan-M2：百川智能開源的醫(yī)療增強(qiáng)推理大模型

Baichuan-M2-32B 是百川智能推出的醫(yī)療增強(qiáng)推理模型，專為真實(shí)世界的醫(yī)療推理任務(wù)設(shè)計(jì)。該模型基于 Qwen2.5-32B 基座，通過創(chuàng)新的大型驗(yàn)證器系統(tǒng)（Large Verifier System）從真實(shí)世界的醫(yī)療問題出發(fā)，進(jìn)行醫(yī)療領(lǐng)域后訓(xùn)練對齊，在保持模型通用能力的同時(shí)，實(shí)現(xiàn)了醫(yī)療效果的突破性提升。...
Matrix-Game 2.0：昆侖萬維開源的交互式AI世界模型

Matrix-Game 2.0 是昆侖萬維發(fā)布的國產(chǎn)開源交互式世界模型，能夠以 25FPS 實(shí)時(shí)生成分鐘級長交互視頻，并在不同風(fēng)格與環(huán)境下保持良好的泛化與物理一致性。它面向游戲開發(fā)、虛擬現(xiàn)實(shí)與影視創(chuàng)作等應(yīng)用，旨在為虛擬世界構(gòu)建提供可落地的生成式基座，推動(dòng)具身智能與空間智能研究。...
Skywork UniPic 2.0：昆侖萬維開源的統(tǒng)一多模態(tài)生成與編輯模型

UniPic 2.0 是 Skywork 推出的統(tǒng)一多模態(tài)模型，基于 SD3.5-Medium 的 2B DiT，結(jié)合“在線強(qiáng)化學(xué)習(xí)+雙任務(wù)漸進(jìn)強(qiáng)化”，在生成與編輯上優(yōu)于同級開源模型，并擴(kuò)展為理解-生成-編輯一體的統(tǒng)一模型，提供技術(shù)報(bào)告、代碼與權(quán)重。...
SkyReels-A3：昆侖萬維推出的音頻驅(qū)動(dòng)人像視頻生成模型

SkyReels-A3是昆侖萬維新發(fā)布的音頻驅(qū)動(dòng)任意時(shí)長人像視頻模型，一句話照片+聲音即可讓靜態(tài)人像開口說話、唱歌或帶貨，支持分鐘級長視頻、8種運(yùn)鏡控制，效果超越當(dāng)前開源/閉源方案，零門檻在線可用。...
GLM-4.5V：智譜開源的多模態(tài)視覺推理大模型

GLM-4.5V 是智譜基于 GLM-4.5-Air 文本基座構(gòu)建的開源視覺-語言模型，面向圖像、視頻、文檔與 GUI 屏幕等全場景的多模態(tài)推理與理解。...
GPT-OSS：OpenAI開源的大語言模型，支持本地部署與高效推理

GPT-OSS是 OpenAI 發(fā)布的開源權(quán)重大語言模型系列，包含 20B 與 120B 兩個(gè)版本，支持原生 128K tokens 長上下文、MoE 架構(gòu)高效推理、微調(diào)與智能體功能，適合本地部署與企業(yè)級生成式應(yīng)用，采用 Apache 2.0 許可協(xié)議。...
Qwen-Image：阿里通義千問推出的圖像生成基礎(chǔ)模型

Qwen-Image 是通義千問系列的圖像生成基礎(chǔ)模型，具備卓越的文本渲染和圖像編輯能力，支持多種藝術(shù)風(fēng)格與復(fù)雜場景，廣泛應(yīng)用于海報(bào)、PPT及創(chuàng)意設(shè)計(jì)，推動(dòng)視覺內(nèi)容創(chuàng)作發(fā)展。...
Step 3：階躍星辰開源的多模態(tài)推理模型

Step 3 是階躍星辰團(tuán)隊(duì)最新推出并開源的多模態(tài)推理模型，采用 MoE 架構(gòu)，總參數(shù)量 321B，激活參數(shù)量 38B，上下文長度64k，擁有強(qiáng)大的視覺感知和復(fù)雜推理能力，可準(zhǔn)確完成跨領(lǐng)域的復(fù)雜知識理解、數(shù)學(xué)與視覺信息的交叉分析，以及日常生活中的各類視覺分析問題。...
Qwen3-Coder-Flash：阿里通義千問開源的AI編程模型

Qwen3-Coder-Flash 是阿里通義開源的 30B 編程模型，支持超長上下文，函數(shù)調(diào)用優(yōu)化，性能接近主流閉源大模型。...
Wan2.2 - 阿里通義開源的視頻和圖像生成模型

Wan2.2 是由阿里通義大模型團(tuán)隊(duì)發(fā)布的開源視頻生成模型，專為電影級視覺控制和高質(zhì)量視頻創(chuàng)作設(shè)計(jì)。它通過混合專家（MoE）架構(gòu)，實(shí)現(xiàn)了對電影鏡頭語言的深度理解和還原，支持多維度的視覺呈現(xiàn)，如光影、色彩和構(gòu)圖。...
GLM-4.5：智譜AI推出的新一代開源旗艦AI模型

GLM-4.5 是由智譜 AI 推出的開源 SOTA 模型，專為智能體應(yīng)用打造，具備卓越的推理、代碼生成和智能體能力。采用混合專家架構(gòu)，提供思考模式和非思考模式，滿足復(fù)雜任務(wù)和即時(shí)響應(yīng)需求。...
Qwen-MT：阿里通義千問推出的機(jī)器翻譯模型，支持92種語言互譯

Qwen?MT 是阿里云通義千問團(tuán)隊(duì)基于 Qwen3 開發(fā)的機(jī)器翻譯大模型，采用輕量級 MoE 架構(gòu)，支持 92 種官方語言及方言互譯。...
Qwen3-Coder：阿里通義千問推出的代碼模型，具備卓越的代碼生成和 Agent 能力

Qwen3-Coder 是阿里巴巴通義千問團(tuán)隊(duì)發(fā)布的最新代碼模型，具備卓越的代碼生成和 Agent 能力。它擁有多個(gè)尺寸，其中最強(qiáng)大的版本是 Qwen3-Coder-480B-A35B-Instruct，這是一個(gè) 480B 參數(shù)激活 35B 參數(shù)的 MoE 模型，原生支持 256K token 的上下文，并可通過 YaRN 擴(kuò)展到 1M token。...
Kimi K2：月之暗面開源的萬億參數(shù) MoE 架構(gòu)基礎(chǔ)模型

Kimi?K2 是月之暗面 Moonshot AI 推出的開源大型語言模型，采用 Mixture-of-Experts 架構(gòu)，擁有總參數(shù)量達(dá) 1?萬億、32?B 激活參數(shù)，支持最長 128K 上下文長度，原生設(shè)計(jì)以實(shí)現(xiàn)“agentic intelligence”（自主任務(wù)執(zhí)行與工具調(diào)用）。...
AniSora - Bilibili開源的動(dòng)漫視頻生成模型，一鍵生成多種風(fēng)格動(dòng)漫視頻鏡頭

AniSora是 Bilibili 推出的開源動(dòng)漫視頻生成模型，它支持一鍵生成多種動(dòng)漫風(fēng)格的視頻鏡頭，包括番劇片段、國創(chuàng)動(dòng)畫、漫畫改編、VTuber 內(nèi)容、動(dòng)畫 PV、鬼畜（MAD）等。...
ThinkSound - 阿里通義開源的AI音頻生成模型

ThinkSound 是阿里通義實(shí)驗(yàn)室開源的首個(gè)音頻生成模型，能夠像專業(yè)音效師一樣理解畫面內(nèi)容并進(jìn)行結(jié)構(gòu)化推理，從而生成高保真、與視覺高度同步的空間音頻，適用于影視、短視頻、游戲等多種創(chuàng)作場景。...
OmniGen2 - 智源研究院推出的開源多模態(tài)生成模型

OmniGen2是智源研究院推出的開源多模態(tài)生成模型，具備文本生成圖像、圖像編輯、上下文圖像生成與視覺理解等核心能力。...
Ovis-U1：阿里巴巴推出的統(tǒng)一的多模態(tài)理解與生成模型

Ovis-U1 是阿里巴巴國際化團(tuán)隊(duì)推出的統(tǒng)一多模態(tài)理解與生成模型，它擁有三十億參數(shù)，融合了圖像理解、文本到圖像生成和圖像編輯功能。...
百度正式開源文心4.5系列模型

2025年6月30日，百度宣布文心4.5系列模型正式開源。此次開源包括10款不同規(guī)模的模型，其中包括參數(shù)量為47B和3B的混合專家（MoE）模型，以及0.3B的稠密參數(shù)模型。文心4.5的開源文件包括預(yù)訓(xùn)練權(quán)重和推理代碼，已上傳至Hugging Face、GitHub以及飛槳星河社區(qū)，供全球開發(fā)者使用。主要技術(shù)特點(diǎn) 1. 多模態(tài)混合專家模型預(yù)訓(xùn)練文心4.5通過聯(lián)合訓(xùn)練文本和視覺兩種模態(tài)來提高模型…...
Qwen VLo - 阿里推出的多模態(tài)統(tǒng)一理解與生成模型

Qwen VLo 是通義千問團(tuán)隊(duì)推出的多模態(tài)統(tǒng)一理解與生成模型，具備強(qiáng)大的圖文雙向交互能力。它不僅能精準(zhǔn)理解圖像內(nèi)容，還能根據(jù)自然語言指令進(jìn)行高質(zhì)量的圖像生成與編輯，支持風(fēng)格遷移、背景更換、物體添加等多種操作...
FLUX.1 Kontext [dev]：Black Forest Labs開源的圖像編輯模型

FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的開源圖像編輯模型，支持通過自然語言對圖像進(jìn)行局部修改，具備風(fēng)格與角色一致性保持、多輪穩(wěn)定編輯等能力。該模型基于 Flow Transformer 架構(gòu)，編輯精度高、響應(yīng)速度快，適合創(chuàng)作者、開發(fā)者和研究人員用于插畫創(chuàng)作、視覺敘事和圖像生成研究。...
Hailuo 02：MiniMax最新推出的AI視頻生成模型

Hailuo 02 是 MiniMax 稀宇科技最新推出的AI視頻生成模型，支持生成高質(zhì)量1080p視頻，擅長處理復(fù)雜指令和物理表現(xiàn)，如體操場景。...
MiniMax-M1：MiniMax開源的大規(guī)模混合架構(gòu)推理模型

MiniMax-M1 是MiniMax（稀宇科技）推出的全球首個(gè)開源大規(guī)模混合架構(gòu)推理模型，具備卓越的長上下文處理能力和高效的推理性能。其支持高達(dá)100萬上下文輸入和8萬Token輸出，采用閃電注意力機(jī)制，顯著提升算力效率。同時(shí)，該模型在軟件工程、長上下文理解等復(fù)雜場景中表現(xiàn)優(yōu)異，性價(jià)比極高，且提供免費(fèi)不限量使用和低價(jià)格API服務(wù)。...
dots.llm1：小紅書開源的 MoE 架構(gòu)大語言模型

dots.llm1是小紅書開源的 MoE 架構(gòu)大語言模型，擁有 1420 億參數(shù)，推理僅激活 140 億，兼顧性能與效率。模型基于 11.2 萬億非合成高質(zhì)量數(shù)據(jù)訓(xùn)練，支持中英文，具備 32K 長上下文處理能力，并開放中間訓(xùn)練 checkpoint，適合問答、內(nèi)容生成、語義理解等多種應(yīng)用場景。...
Speech 02：MiniMax 推出的新一代語音TTS模型，支持高質(zhì)量多語種語音合成

MiniMax-Speech-02 支持多語言、高擬真語音生成，廣泛應(yīng)用于配音制作、虛擬人、教育、語音定制與無障礙溝通等場景，助力個(gè)性化語音內(nèi)容高效生成與全球化傳播。...
Wan2.1-VACE：阿里開源的AI視頻生成和編輯模型

通義萬相 Wan2.1-VACE是阿里巴巴開源的AI視頻生成與編輯模型，單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長延展等全系列基礎(chǔ)生成和編輯能力。...
Step1X-3D：階躍星辰開源的3D大模型，支持生成高保真可控的3D內(nèi)容

Step1X-3D 是由階躍星辰正式發(fā)布并開源的一款3D大模型。該模型是繼圖像、視頻、語音、音樂等模態(tài)后，階躍星辰在多模態(tài)AI方向的最新成果，專注于生成高保真、可控的3D內(nèi)容。...
Seed1.5-VL：字節(jié)跳動(dòng)推出的視覺-語言多模態(tài)基礎(chǔ)模型

Seed1.5-VL 是字節(jié)跳動(dòng)推出的視覺-語言多模態(tài)基礎(chǔ)模型，結(jié)合圖像編碼器與200億激活參數(shù)的大語言模型，具備出色的圖像、視頻理解與推理能力。在60項(xiàng)基準(zhǔn)測試中獲得38項(xiàng)SOTA，廣泛應(yīng)用于視頻問答、圖表理解、GUI智能體等任務(wù)，表現(xiàn)穩(wěn)定、推理強(qiáng)大。...
Matrix-Game：昆侖萬維開源的交互式世界基礎(chǔ)模型

Matrix-Game是由昆侖萬維開源的交互式世界基礎(chǔ)模型，能夠生成完整可交互的游戲世界，能夠?qū)θ祟愝斎氲牟僮髦噶钸M(jìn)行正確響應(yīng)，保留了游戲世界的空間結(jié)構(gòu)與物理特性，畫面也更加精致，超越了以往所有類似開源世界模型。...
Seed-Coder：字節(jié)跳動(dòng)最新推出的開源代碼模型

Seed-Coder 是字節(jié)跳動(dòng)開源的 8B（80億參數(shù)）級代碼大模型，它包括 Base、Instruct 和 Reasoning 三個(gè)版本，具備強(qiáng)大的代碼生成、理解和推理能力。其最大亮點(diǎn)是采用“模型自助式”數(shù)據(jù)管道，利用大模型自動(dòng)篩選和構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù)，減少人工規(guī)則依賴。...
HunyuanCustom：騰訊混元開源的多模態(tài)定制化視頻生成工具

HunyuanCustom是騰訊混元推出的一款多模態(tài)定制化視頻生成工具，它基于混元視頻生成大模型（HunyuanVideo）打造，融合了文本、圖像、音頻、視頻等多模態(tài)輸入，能夠生成高質(zhì)量的定制化視頻。該工具在主體一致性效果上超越了現(xiàn)有的開源方案，具備高度控制力和生成質(zhì)量。...
ACE-Step：階躍星辰和ACE Studio聯(lián)合發(fā)布的開源音樂基礎(chǔ)模型

ACE-Step 是由階躍星辰與 ACE Studio 聯(lián)合開源的音樂大模型，旨在為音樂愛好者提供高效、靈活且高質(zhì)量的音樂創(chuàng)作工具。該模型參數(shù)量為 3.5B，具備多語言支持、快速生成、強(qiáng)可控性及易于拓展等特點(diǎn)，支持多種音樂創(chuàng)作場景，如音頻編輯、人聲合成、伴奏生成等。...
DeepSeek-Prover-V2：DeepSeek最新開源的數(shù)學(xué)定理證明模型，參數(shù)量高達(dá)6710億

DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規(guī)模數(shù)學(xué)定理證明模型，參數(shù)量高達(dá) 6710 億（671B），相比前代 Prover-V1.5（約 7B）提升近百倍，成為目前開源中最大規(guī)模的數(shù)學(xué)推理模型之一。該模型專為形式化數(shù)學(xué)證明設(shè)計(jì)，能夠生成兼容 Lean 4 等主流證明助手的高質(zhì)量證明步驟，支持復(fù)雜邏輯驗(yàn)證、定理發(fā)現(xiàn)與教學(xué)應(yīng)用。...
Xiaomi MiMo：小米推出的首個(gè)開源推理模型

MiMo 是小米推出的首個(gè)開源大語言模型，參數(shù)規(guī)模為 7B，聚焦于數(shù)學(xué)推理與代碼生成任務(wù)。該模型通過高推理密度的預(yù)訓(xùn)練數(shù)據(jù)（總計(jì) 25 萬億 tokens）與強(qiáng)化學(xué)習(xí)后訓(xùn)練（包括獎(jiǎng)勵(lì)機(jī)制優(yōu)化、樣本再采樣策略等），實(shí)現(xiàn)了在 AIME、LiveCodeBench 等多個(gè)權(quán)威基準(zhǔn)上的領(lǐng)先表現(xiàn)。...
Qwen3：阿里巴巴最新開源的混合推理大模型

Qwen3 是阿里巴巴推出的新一代大語言模型，支持119種語言，具備強(qiáng)大的推理、編碼和智能體能力。它引入了“思考模式”和“快速響應(yīng)模式”雙模式切換，能根據(jù)任務(wù)靈活調(diào)節(jié)推理深度。Qwen3發(fā)布了多種規(guī)模的開源模型，旗艦版Qwen3-235B-A22B在多個(gè)領(lǐng)域性能達(dá)到業(yè)界頂尖，廣泛應(yīng)用于自然語言理解、復(fù)雜推理、代碼生成等場景。...
Step1X-Edit：階躍星辰推出的開源圖像編輯大模型

Step1X-Edit 是一款開源的圖像編輯模型，具備語義精準(zhǔn)解析、身份一致性保持和高精度區(qū)域級控制等核心能力，支持多種高頻圖像編輯任務(wù)。...
Kimi-Audio：Kimi開源的通用音頻基礎(chǔ)模型，支持語音識別、音頻理解等多種任務(wù)

Kimi-Audio是kimi開源的全新通用音頻基礎(chǔ)模型，支持語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等多種任務(wù)，在十多個(gè)音頻基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)的 (SOTA) 性能。...
SkyReels-V2：昆侖萬維開源的無限時(shí)長電影生成模型

SkyReels-V2 是由昆侖萬維開源的一款視頻生成大模型，首創(chuàng)“擴(kuò)散強(qiáng)迫（Diffusion-forcing）”訓(xùn)練框架，具備生成高保真、連貫、長時(shí)長（30s 以上）的影視級視頻的能力。模型融合了多模態(tài)大語言模型（MLLM）、強(qiáng)化學(xué)習(xí)、視頻理解與擴(kuò)散優(yōu)化等多項(xiàng)技術(shù)，適用于故事生成、圖像到視頻（I2V）、運(yùn)鏡控制和多元素一致性生成等豐富場景。...
InstantCharacter：騰訊混元開源的定制化圖像生成插件，支持角色一致性生成

InstantCharacter 是騰訊混元開源的一個(gè)定制化圖像生成插件，能夠通過簡單的文字描述和一張圖片生成各種角色的圖像。它實(shí)現(xiàn)了對開源文生圖模型 Flux 的兼容，用戶只需要提供一張圖片和一句話的描述，就可以讓角色以想要的姿勢出現(xiàn)在任何場景中。...