-
DeepSeek-Prover-V2:DeepSeek最新開源的數學定理證明模型,參數量高達6710億
DeepSeek-Prover-V2 是由 DeepSeek 最新開源的超大規模數學定理證明模型,參數量高達 6710 億(671B),相比前代 Prover-V1.5(約 7B)提升近百倍,成為目前開源中最大規模的數學推理模型之一。該模型專為形式化數學證明設計,能夠生成兼容 Lean 4 等主流證明助手的高質量證明步驟,支持復雜邏輯驗證、定理發現與教學應用。- 1.4k
- 0
-
Xiaomi MiMo:小米推出的首個開源推理模型
MiMo 是小米推出的首個開源大語言模型,參數規模為 7B,聚焦于數學推理與代碼生成任務。該模型通過高推理密度的預訓練數據(總計 25 萬億 tokens)與強化學習后訓練(包括獎勵機制優化、樣本再采樣策略等),實現了在 AIME、LiveCodeBench 等多個權威基準上的領先表現。- 865
- 0
-
Step1X-Edit:階躍星辰推出的開源圖像編輯大模型
Step1X-Edit 是一款開源的圖像編輯模型,具備語義精準解析、身份一致性保持和高精度區域級控制等核心能力,支持多種高頻圖像編輯任務。- 557
- 0
-
Kimi-Audio:Kimi開源的通用音頻基礎模型,支持語音識別、音頻理解等多種任務
Kimi-Audio是kimi開源的全新通用音頻基礎模型,支持語音識別、音頻理解、音頻轉文本、語音對話等多種任務,在十多個音頻基準測試中實現了最先進的 (SOTA) 性能。- 748
- 0
-
Skywork-OR1:昆侖萬維開源的數學代碼推理系列模型
Skywork-OR1是由昆侖萬維推出的開源高性能推理模型系列,該系列在同等參數規模下實現了業界領先的推理性能,進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用。- 345
- 0
-
-
Skywork R1V:昆侖萬維開源的多模態視覺思維鏈推理模型
Skywork R1V 是昆侖萬維開源的多模態視覺思維鏈推理模型,專注于通過多步邏輯推理解決復雜的視覺任務。它結合了強大的文本推理能力和視覺理解能力,能夠處理視覺邏輯推理、數學問題、科學現象分析等任務。- 923
- 0
-
Gemma 3:Google 推出的輕量級高性能開源模型,支持單個GPU運行
Gemma 3 是 Google 推出的輕量級、高性能開源模型,支持多種尺寸(1B、4B、12B 和 27B),專為單 GPU 或 TPU 設計。它支持 140 多種語言,具備高級文本和視覺推理能力,配備 128k-token 上下文窗口和函數調用功能,支持復雜任務處理。Gemma 3 提供量化版本,優化性能,降低計算需求,并配備安全特性。它無縫集成多種開發工具,支持靈活部署,助力開發者快速構建高…- 4.5k
- 0
-
QwQ-32B:阿里云開源的最新AI推理模型,更小尺寸,消費級顯卡即可部署
QwQ-32B 是阿里云開源的320億參數推理模型,具備強大的數學、代碼和通用推理能力,性能比肩全球頂尖開源模型。它支持消費級顯卡部署,降低硬件門檻,同時集成智能體能力,可靈活調整推理過程。采用Apache 2.0協議開源,用戶可免費下載、商用和定制化開發,推動AI技術的廣泛應用。- 7.6k
- 0
-
SpeciesNet - 谷歌開源的AI模型,助力野生動物識別和保護
SpeciesNet是谷歌開源的一款AI模型,專為識別野生動物而設計。它通過分析相機陷阱拍攝的照片,能夠將圖像分類為超過2000個標簽,涵蓋動物物種、分類群和非動物對象。模型基于6500萬張圖像訓練,具備高準確性和廣泛適用性,采用Apache 2.0開源許可,助力生物多樣性研究和保護。- 818
- 0
-
SkyReels-V1:昆侖萬維開源的AI短劇創作視頻生成模型
SkyReels-V1 是昆侖萬維開源的中國首個面向AI短劇創作的視頻生成模型,專注于影視級人物表演、表情生成和動作模擬。它能夠精細控制人物的口型、表情和肢體動作,提供33種人物微表情和400多種自然動作組合,模擬真實的情感表達。- 4.3k
- 0
-
Qwen2.5-VL:阿里通義千問推出的開源AI視覺語言模型
Qwen2.5-VL是由阿里通義千問推出的一款視覺語言理解模型,結合了圖像、視頻和文本處理能力。它能夠精準識別圖像中的物體、提取視頻關鍵事件,并執行動態推理任務。通過物體定位、結構化數據輸出和多模態理解,Qwen2.5-VL廣泛適用于安全監控、電子商務、文檔解析等領域。- 11.6k
- 0
-
Qwen2.5-1M:阿里推出的開源AI模型,支持100萬Token上下文
Qwen2.5-1M是阿里巴巴Qwen團隊發布的支持100萬Token上下文的開源語言模型系列,包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它們結合了基于vLLM的推理框架和稀疏注意力機制,顯著提升了處理長文本時的速度和效率。該模型在長上下文任務中表現優異,特別是在密鑰檢索等復雜任務中,超越了之前的Qwen2.5-Turbo和GPT-4o-mi…- 3.6k
- 0
-
混元3D 2.0:騰訊混元發布的3D開源模型2.0版本
混元3D 2.0是騰訊混元推出的3D開源大模型2.0版本,旨在通過先進的AI技術,快速生成高質量的3D模型。對比1.0版本,2.0版本也依然同時支持文、圖生3D的能力,并在生成效果上得到顯著提升,在幾何結構上更加精細,紋理色彩更加豐富,支持更精細、更逼真的3D內容創作。- 16.7k
- 0
-
MiniMax-01:MiniMax推出的開源AI模型,400萬超長上下文,性能比肩GPT-4o
MiniMax-01是一個先進的大型語言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。這些模型通過閃電注意力機制和混合專家架構,能夠高效處理長達400萬個token的上下文窗口,在多個標準和內部基準測試中表現出色,特別是在長上下文處理方面顯著優于其他頂級模型。- 19.5k
- 0
-
Sky-T1: NovaSky推出的高性價比推理模型,訓練成本不到450美元
Sky-T1是由UC Berkeley的NovaSky團隊開發的推理模型,其性能與O1-preview模型相當,特別是在推理和編碼基準測試中表現出色。Sky-T1-32B-Preview的訓練成本不到450美元,展示了以低成本和高效的方式復制高級推理能力的可能性。所有代碼和模型權重都是開源的,旨在促進學術和開源社區的參與和進步。- 2k
- 0
-
CogAgent-9B:智譜AI推出的專用于Agent任務的開源基座模型
CogAgent-9B是智譜AI推出的最新開源基座模型,基于 GLM-4V-9B 訓練而成的專用Agent任務模型。該模型僅需屏幕截圖作為輸入(無需HTML等文本表征),便能根據用戶指定的任意任務,結合歷史操作,預測下一步的GUI操作。得益于屏幕截圖和GUI操作的普適性,CogAgent 可廣泛應用于各類基于GUI交互的場景,如個人電腦、手機、車機設備等。- 2.4k
- 0
-
阿里通義發布最強開源多模態推理模型QVQ
2024年12月25日,阿里云通義千問正式發布全球首個開源多模態推理模型 QVQ-72B-Preview。該模型以超強的視覺理解與推理能力引領行業,特別在解決數學、物理和科學等復雜問題上表現尤為出色。目前,開發者可通過 魔搭社區 和 HuggingFace 平臺 直接體驗。- 1.3k
- 0
-
QVQ-72B-Preview:阿里通義推出的開源多模態推理模型
QVQ-72B-Preview 是由阿里通義團隊開發的一款多模態視覺推理模型,基于 Qwen2-VL-72B 微調,擁有 73.4B 參數,專注于復雜的視覺理解和跨學科推理任務。QVQ不但能感知更準確的視覺內容,并據此作出更細致的分析推理,還會質疑自身假設,仔細審視其推理過程的每一步,經過深思熟慮后給出最后結論。- 3.5k
- 0
-
PaliGemma 2:Google 推出的新一代AI視覺語言模型
PaliGemma 2 是 Google 推出的最新一代AI視覺語言模型,它在前代基礎上集成了視覺處理能力,能夠識別、理解并與視覺輸入互動,是一款支持簡單微調的強大 AI 模型。- 3.1k
- 0
-
FLUX.1 Tools:Black Forest Labs 推出的 AI 圖像處理模型套件,實現精準的圖像編輯和生成
Flux.1 Tools 是由 Black Forest Labs 推出的 AI 圖像處理模型全家桶,旨在為FLUX.1基礎文本轉圖像模型添加控制和可操縱性,從而實現對真實圖像和生成圖像的修改和重新創建- 2.1k
- 0
-
Pixtral Large:Mistral AI推出的開源千億參數多模態 AI 模型
Pixtral Large 是由 Mistral AI 推出的 1240 億參數開源多模態模型。它是基于 Mistral Large 2 構建的第二代多模態模型,能夠同時處理 文本 和 圖像 數據,專為復雜推理、文檔分析和視覺理解任務設計。它在保持頂尖文本理解能力的同時,顯著增強了圖像相關任務的表現,適用于研究、教育和商業場景。- 2.7k
- 0
-
騰訊混元3D-1.0:騰訊開源的3D模型,支持文本或圖像生成3D模型
騰訊混元3D-1.0 是由騰訊推出的首個同時支持文生和圖生的3D開源模型,支持從文本或圖像生成3D模型。該模型通過雙階段生成方法快速生成3D資產,僅需約10秒即可完成3D對象的生成。- 5.3k
- 0
-
Hunyuan-Large:騰訊最新開源的MoE大模型,效果業界領先
由騰訊開發的開源業界參數規模最大、效果最好的transformer結構的 MoE 模型,在公開benchmark、多輪對話、高質量文本生成、數學邏輯、代碼創作等多個任務上具有優異效果- 2.4k
- 0