全部標簽

開源模型

Hunyuan-GameCraft：騰訊混元等開源的高動態交互式游戲視頻生成框架

Hunyuan-GameCraft 是由騰訊混元團隊與華中科技大學聯合推出的開源交互式游戲視頻生成框架，基于HunyuanVideo底模，只需輸入一張圖 +?文字描述+動作指令（按鍵盤方向鍵）就能生成高動態、分鐘級長視頻
AI模型
- 322
- 0
AIHub14小時前
Baichuan-M2：百川智能開源的醫療增強推理大模型

Baichuan-M2-32B 是百川智能推出的醫療增強推理模型，專為真實世界的醫療推理任務設計。該模型基于 Qwen2.5-32B 基座，通過創新的大型驗證器系統（Large Verifier System）從真實世界的醫療問題出發，進行醫療領域后訓練對齊，在保持模型通用能力的同時，實現了醫療效果的突破性提升。
AI模型
- 230
- 0
AIHub8月13日
Matrix-Game 2.0：昆侖萬維開源的交互式AI世界模型

Matrix-Game 2.0 是昆侖萬維發布的國產開源交互式世界模型，能夠以 25FPS 實時生成分鐘級長交互視頻，并在不同風格與環境下保持良好的泛化與物理一致性。它面向游戲開發、虛擬現實與影視創作等應用，旨在為虛擬世界構建提供可落地的生成式基座，推動具身智能與空間智能研究。
AI模型
- 246
- 0
AIHub8月13日
Skywork UniPic 2.0：昆侖萬維開源的統一多模態生成與編輯模型

UniPic 2.0 是 Skywork 推出的統一多模態模型，基于 SD3.5-Medium 的 2B DiT，結合“在線強化學習+雙任務漸進強化”，在生成與編輯上優于同級開源模型，并擴展為理解-生成-編輯一體的統一模型，提供技術報告、代碼與權重。
AI模型
- 386
- 0
AIHub8月13日
GLM-4.5V：智譜開源的多模態視覺推理大模型

GLM-4.5V 是智譜基于 GLM-4.5-Air 文本基座構建的開源視覺-語言模型，面向圖像、視頻、文檔與 GUI 屏幕等全場景的多模態推理與理解。
AI模型
- 793
- 0
AIHub8月12日
GPT-OSS：OpenAI開源的大語言模型，支持本地部署與高效推理

GPT-OSS是 OpenAI 發布的開源權重大語言模型系列，包含 20B 與 120B 兩個版本，支持原生 128K tokens 長上下文、MoE 架構高效推理、微調與智能體功能，適合本地部署與企業級生成式應用，采用 Apache 2.0 許可協議。
AI模型
- 1.5k
- 0
AIHub8月6日
Qwen-Image：阿里通義千問推出的圖像生成基礎模型

Qwen-Image 是通義千問系列的圖像生成基礎模型，具備卓越的文本渲染和圖像編輯能力，支持多種藝術風格與復雜場景，廣泛應用于海報、PPT及創意設計，推動視覺內容創作發展。
AI模型
- 1.7k
- 0
AIHub8月5日
Step 3：階躍星辰開源的多模態推理模型

Step 3 是階躍星辰團隊最新推出并開源的多模態推理模型，采用 MoE 架構，總參數量 321B，激活參數量 38B，上下文長度64k，擁有強大的視覺感知和復雜推理能力，可準確完成跨領域的復雜知識理解、數學與視覺信息的交叉分析，以及日常生活中的各類視覺分析問題。
AI模型
- 2.2k
- 0
AIHub8月1日
Wan2.2 - 阿里通義開源的視頻和圖像生成模型

Wan2.2 是由阿里通義大模型團隊發布的開源視頻生成模型，專為電影級視覺控制和高質量視頻創作設計。它通過混合專家（MoE）架構，實現了對電影鏡頭語言的深度理解和還原，支持多維度的視覺呈現，如光影、色彩和構圖。
AI模型
- 2.6k
- 0
AIHub7月29日
FLUX.1 Kontext [dev]：Black Forest Labs開源的圖像編輯模型

FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的開源圖像編輯模型，支持通過自然語言對圖像進行局部修改，具備風格與角色一致性保持、多輪穩定編輯等能力。該模型基于 Flow Transformer 架構，編輯精度高、響應速度快，適合創作者、開發者和研究人員用于插畫創作、視覺敘事和圖像生成研究。
AI模型
- 3.3k
- 0
AIHub6月27日
MiniMax-M1：MiniMax開源的大規模混合架構推理模型

MiniMax-M1 是MiniMax（稀宇科技）推出的全球首個開源大規模混合架構推理模型，具備卓越的長上下文處理能力和高效的推理性能。其支持高達100萬上下文輸入和8萬Token輸出，采用閃電注意力機制，顯著提升算力效率。同時，該模型在軟件工程、長上下文理解等復雜場景中表現優異，性價比極高，且提供免費不限量使用和低價格API服務。
AI模型
- 1.7k
- 0
AIHub6月17日
dots.llm1：小紅書開源的 MoE 架構大語言模型

dots.llm1是小紅書開源的 MoE 架構大語言模型，擁有 1420 億參數，推理僅激活 140 億，兼顧性能與效率。模型基于 11.2 萬億非合成高質量數據訓練，支持中英文，具備 32K 長上下文處理能力，并開放中間訓練 checkpoint，適合問答、內容生成、語義理解等多種應用場景。
AI模型
- 1.9k
- 0
AIHub6月9日
Step1X-3D：階躍星辰開源的3D大模型，支持生成高保真可控的3D內容

Step1X-3D 是由階躍星辰正式發布并開源的一款3D大模型。該模型是繼圖像、視頻、語音、音樂等模態后，階躍星辰在多模態AI方向的最新成果，專注于生成高保真、可控的3D內容。
AI模型
- 1.5k
- 0
AIHub5月14日
Seed1.5-VL：字節跳動推出的視覺-語言多模態基礎模型

Seed1.5-VL 是字節跳動推出的視覺-語言多模態基礎模型，結合圖像編碼器與200億激活參數的大語言模型，具備出色的圖像、視頻理解與推理能力。在60項基準測試中獲得38項SOTA，廣泛應用于視頻問答、圖表理解、GUI智能體等任務，表現穩定、推理強大。
AI模型
- 1.1k
- 0
AIHub5月14日
Matrix-Game：昆侖萬維開源的交互式世界基礎模型

Matrix-Game是由昆侖萬維開源的交互式世界基礎模型，能夠生成完整可交互的游戲世界，能夠對人類輸入的操作指令進行正確響應，保留了游戲世界的空間結構與物理特性，畫面也更加精致，超越了以往所有類似開源世界模型。
AI模型
- 1.4k
- 0
AIHub5月13日
Seed-Coder：字節跳動最新推出的開源代碼模型

Seed-Coder 是字節跳動開源的 8B（80億參數）級代碼大模型，它包括 Base、Instruct 和 Reasoning 三個版本，具備強大的代碼生成、理解和推理能力。其最大亮點是采用“模型自助式”數據管道，利用大模型自動篩選和構建高質量訓練數據，減少人工規則依賴。
AI模型
- 1.6k
- 0
AIHub5月12日
HunyuanCustom：騰訊混元開源的多模態定制化視頻生成工具

HunyuanCustom是騰訊混元推出的一款多模態定制化視頻生成工具，它基于混元視頻生成大模型（HunyuanVideo）打造，融合了文本、圖像、音頻、視頻等多模態輸入，能夠生成高質量的定制化視頻。該工具在主體一致性效果上超越了現有的開源方案，具備高度控制力和生成質量。
AI模型
- 3.1k
- 0
AIHub5月11日
DeepSeek-Prover-V2：DeepSeek最新開源的數學定理證明模型，參數量高達6710億

DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規模數學定理證明模型，參數量高達 6710 億（671B），相比前代 Prover-V1.5（約 7B）提升近百倍，成為目前開源中最大規模的數學推理模型之一。該模型專為形式化數學證明設計，能夠生成兼容 Lean 4 等主流證明助手的高質量證明步驟，支持復雜邏輯驗證、定理發現與教學應用。
AI模型
- 4.1k
- 0
AIHub4月30日
Xiaomi MiMo：小米推出的首個開源推理模型

MiMo 是小米推出的首個開源大語言模型，參數規模為 7B，聚焦于數學推理與代碼生成任務。該模型通過高推理密度的預訓練數據（總計 25 萬億 tokens）與強化學習后訓練（包括獎勵機制優化、樣本再采樣策略等），實現了在 AIME、LiveCodeBench 等多個權威基準上的領先表現。
AI模型
- 3.5k
- 0
AIHub4月30日
Step1X-Edit：階躍星辰推出的開源圖像編輯大模型

Step1X-Edit 是一款開源的圖像編輯模型，具備語義精準解析、身份一致性保持和高精度區域級控制等核心能力，支持多種高頻圖像編輯任務。
AI模型
- 2k
- 0
AIHub4月27日
Kimi-Audio：Kimi開源的通用音頻基礎模型，支持語音識別、音頻理解等多種任務

Kimi-Audio是kimi開源的全新通用音頻基礎模型，支持語音識別、音頻理解、音頻轉文本、語音對話等多種任務，在十多個音頻基準測試中實現了最先進的 (SOTA) 性能。
AI模型
- 2.6k
- 0
AIHub4月27日
Skywork-OR1：昆侖萬維開源的數學代碼推理系列模型

Skywork-OR1是由昆侖萬維推出的開源高性能推理模型系列，該系列在同等參數規模下實現了業界領先的推理性能，進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時，Skywork-OR1全面開放、免費使用。
AI工具
- 1.2k
- 0
AIHub4月14日
Kimi-VL：月之暗面開源的視覺語言模型

Kimi-VL 是由月之暗面推出的一款開源視覺語言模型（VLM），具備原生分辨率圖像理解、多模態推理和128K長上下文處理能力。
AI工具
- 2.9k
- 0
AIHub4月11日
Skywork R1V：昆侖萬維開源的多模態視覺思維鏈推理模型

Skywork R1V 是昆侖萬維開源的多模態視覺思維鏈推理模型，專注于通過多步邏輯推理解決復雜的視覺任務。它結合了強大的文本推理能力和視覺理解能力，能夠處理視覺邏輯推理、數學問題、科學現象分析等任務。
AI模型
- 1.5k
- 0
AIHub3月18日