2025/4/30 11:30

小米開源首個(gè)推理大模型Xiaomi MiMo：7B參數(shù)就超越OpenAI o1-mini

快科技建嘉

小米官方今天正式宣布，開源首個(gè)為推理（Reasoning）而生的大模型——Xiaomi MiMo。

據(jù)介紹，Xiaomi MiMo在數(shù)學(xué)推理（AIME 24-25）和代碼競(jìng)賽（LiveCodeBench v5）公開測(cè)評(píng)集上，MiMo僅用7B的參數(shù)規(guī)模，超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開源推理模型QwQ-32B-Preview。

官方表示，MiMo 推理能力的提升，由預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)和算法等多層面的創(chuàng)新聯(lián)合驅(qū)動(dòng)。包括：

預(yù)訓(xùn)練：核心是讓模型見(jiàn)過(guò)更多推理模式

數(shù)據(jù)：著重挖掘富推理語(yǔ)料，并合成約200B tokens推理數(shù)據(jù)。

訓(xùn)練：進(jìn)行了三階段訓(xùn)練，逐步提升訓(xùn)練難度，總訓(xùn)練25T tokens。

小米開源首個(gè)推理大模型Xiaomi MiMo：7B參數(shù)就超越OpenAI o1-mini

后訓(xùn)練：核心是高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架

算法：提出 Test Difficulty Driven Reward 來(lái)緩解困難算法問(wèn)題中的獎(jiǎng)勵(lì)稀疏問(wèn)題，并引入 Easy Data Re-Sampling 策略，以穩(wěn)定 RL 訓(xùn)練。

框架：設(shè)計(jì)了Seamless Rollout系統(tǒng)，使得RL訓(xùn)練加速2.29倍，驗(yàn)證加速1.96倍。

小米開源首個(gè)推理大模型Xiaomi MiMo：7B參數(shù)就超越OpenAI o1-mini

所有技術(shù)細(xì)節(jié)已經(jīng)Open，見(jiàn)技術(shù)報(bào)告。

MiMo-7B全系列已開源MiMo-7B 已開源4個(gè)模型至HuggingFace。

小米開源首個(gè)推理大模型Xiaomi MiMo：7B參數(shù)就超越OpenAI o1-mini

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

MIMO

GAIA開源榜第一：中興通訊開源Co-Sight超級(jí)智能體
C114通信網(wǎng) 4-30
大模型創(chuàng)新方興未艾中國(guó)電信攜手合作伙伴共赴
廠商供稿 4-30
金山云出席數(shù)字中國(guó)建設(shè)峰會(huì) 以云為基助力政企數(shù)智化轉(zhuǎn)型
廠商供稿 4-30
奇安信齊向東：大模型應(yīng)用一端連著機(jī)遇，一端連著挑戰(zhàn)
C114通信網(wǎng) 九九4-30