小米官方今天正式宣布,開源首個(gè)為推理(Reasoning)而生的大模型——Xiaomi MiMo。
據(jù)介紹,Xiaomi MiMo在數(shù)學(xué)推理(AIME 24-25)和代碼競(jìng)賽(LiveCodeBench v5)公開測(cè)評(píng)集上,MiMo僅用7B的參數(shù)規(guī)模,超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開源推理模型QwQ-32B-Preview。
官方表示,MiMo 推理能力的提升,由預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)和算法等多層面的創(chuàng)新聯(lián)合驅(qū)動(dòng)。包括:
預(yù)訓(xùn)練:核心是讓模型見(jiàn)過(guò)更多推理模式
數(shù)據(jù):著重挖掘富推理語(yǔ)料,并合成約200B tokens推理數(shù)據(jù)。
訓(xùn)練:進(jìn)行了三階段訓(xùn)練,逐步提升訓(xùn)練難度,總訓(xùn)練25T tokens。
后訓(xùn)練:核心是高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架
算法:提出 Test Difficulty Driven Reward 來(lái)緩解困難算法問(wèn)題中的獎(jiǎng)勵(lì)稀疏問(wèn)題,并引入 Easy Data Re-Sampling 策略,以穩(wěn)定 RL 訓(xùn)練。
框架:設(shè)計(jì)了Seamless Rollout系統(tǒng),使得RL訓(xùn)練加速2.29倍,驗(yàn)證加速1.96倍。
所有技術(shù)細(xì)節(jié)已經(jīng)Open,見(jiàn)技術(shù)報(bào)告。
MiMo-7B全系列已開源MiMo-7B 已開源4個(gè)模型至HuggingFace。