欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

訊飛智文
當(dāng)前位置:首頁(yè)>AI工具>AI訓(xùn)練模型>Xiaomi MiMo:小米推出的首個(gè)開源推理模型

Xiaomi MiMo:小米推出的首個(gè)開源推理模型

Xiaomi MiMo是什么?

MiMo 是小米推出的首個(gè)開源推理大語言模型,參數(shù)規(guī)模為 7B,聚焦于數(shù)學(xué)推理與代碼生成任務(wù)。該模型通過高推理密度的預(yù)訓(xùn)練數(shù)據(jù)(總計(jì) 25 萬億 tokens)與強(qiáng)化學(xué)習(xí)后訓(xùn)練(包括獎(jiǎng)勵(lì)機(jī)制優(yōu)化、樣本再采樣策略等),實(shí)現(xiàn)了在 AIME、LiveCodeBench 等多個(gè)權(quán)威基準(zhǔn)上的領(lǐng)先表現(xiàn)。在同等訓(xùn)練資源下,MiMo 在推理能力上超越了部分 30B 級(jí)別模型,如 Qwen-32B 和 DeepSeek-R1,展示了中型模型在結(jié)構(gòu)優(yōu)化與訓(xùn)練策略驅(qū)動(dòng)下的強(qiáng)大潛力,也標(biāo)志著小米正式進(jìn)軍開源大模型領(lǐng)域。

Xiaomi MiMo:小米推出的首個(gè)開源推理模型

Xiaomi MiMo 的主要特點(diǎn)

  1. 專為推理任務(wù)設(shè)計(jì)
    MiMo 聚焦于數(shù)學(xué)推理與代碼生成兩大“硬邏輯”場(chǎng)景,具備優(yōu)異的邏輯思維能力,適用于高階復(fù)雜任務(wù)。
  2. 中等規(guī)模,高性能
    雖為 7B 參數(shù)模型,但在多個(gè)權(quán)威基準(zhǔn)(如 AIME、LiveCodeBench、MATH500)中表現(xiàn)優(yōu)于部分 30B 模型,如 Qwen-32B 和 DeepSeek-R1,性價(jià)比高。
  3. 創(chuàng)新的數(shù)據(jù)與訓(xùn)練策略
    • 使用三階段 curriculum-style 訓(xùn)練流程,逐步提高訓(xùn)練難度
    • 構(gòu)建并合成高達(dá) 200B tokens 的推理語料,總訓(xùn)練量達(dá) 25T tokens
    • 引入 Multiple Token Prediction(MTP),提高模型生成效率和準(zhǔn)確率
  4. 強(qiáng)化學(xué)習(xí)優(yōu)化(RLHF)先進(jìn)
    • 構(gòu)建 13 萬道可驗(yàn)證數(shù)學(xué)與代碼題
    • 提出 Test Difficulty Driven Reward,解決稀疏獎(jiǎng)勵(lì)問題
    • 引入 Easy Data Re-Sampling 策略,提升 RL 收斂速度與穩(wěn)定性
    • 訓(xùn)練系統(tǒng) Seamless Rollout Engine 提速訓(xùn)練 2.29×、驗(yàn)證 1.96×
  5. 完全開源,透明開放
    提供基礎(chǔ)模型(Base)、監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)(RL)版本,配套完整技術(shù)報(bào)告,支持在 Hugging Face 下載和本地部署。

Xiaomi MiMo 模型版本對(duì)比

模型名稱描述Hugging Face 地址
MiMo-7B-Base預(yù)訓(xùn)練基礎(chǔ)模型,具備原生推理能力?? MiMo-7B-Base
MiMo-7B-SFT基于 Base 模型的監(jiān)督微調(diào)版本?? MiMo-7B-SFT
MiMo-7B-RL-Zero從 Base 模型直接 RL 微調(diào)?? MiMo-7B-RL-Zero
MiMo-7B-RL在 SFT 基礎(chǔ)上進(jìn)行 RL 微調(diào),性能最強(qiáng)?? MiMo-7B-RL

Xiaomi MiMo 的性能評(píng)測(cè)

在數(shù)學(xué)推理(AIME 24-25)和代碼競(jìng)賽(LiveCodeBench v5)上超越在 STEM 領(lǐng)域(科學(xué)、技術(shù)、工程和數(shù)學(xué))表現(xiàn)出色的 OpenAI o1-mini 和 Qwen-32B-Preview。

在相同 RL 訓(xùn)練數(shù)據(jù)情況下,MiMo-7B 的數(shù)學(xué)&代碼領(lǐng)域的強(qiáng)化學(xué)習(xí)潛力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。

Xiaomi MiMo:小米推出的首個(gè)開源推理模型

Xiaomi MiMo 的項(xiàng)目地址

目前,MiMo-7B 已在 Hugging Face 平臺(tái)開源 4 個(gè)模型版本,技術(shù)報(bào)告也同步上線 GitHub,向開發(fā)者與研究者全面開放。

?版權(quán)聲明:如無特殊說明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。否則,我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。 Trae
0 條回復(fù) A文章作者 M管理員
    暫無評(píng)論內(nèi)容
error:
主站蜘蛛池模板: 遵义县| 荆门市| 大埔区| 黄平县| 锡林郭勒盟| 沅陵县| 洪雅县| 平阴县| 佳木斯市| 黄陵县| 舞钢市| 突泉县| 依兰县| 鲁甸县| 绥棱县| 普安县| 玉树县| 巴里| 雷波县| 斗六市| 翁牛特旗| 花垣县| 丹凤县| 宁南县| 富平县| 台中市| 边坝县| 惠水县| 江口县| 潮安县| 宜阳县| 淮北市| 双城市| 长海县| 类乌齐县| 荥经县| 蛟河市| 嵩明县| 普陀区| 册亨县| 万荣县|