10 月 14 日凌晨,螞蟻集團正式推出萬億參數(shù)思考模型 Ring-1T,并全面開源模型權重、訓練配方。Ring-1T 在 9 月 30 日開源的預覽版 Ring-1T-preview 基礎上,持續(xù)擴展大規(guī)??沈炞C獎勵強化學習(RLVR)訓練,進一步激發(fā)萬億基座的自然語言推理能力,并通過 RLHF 訓練完善模型通用能力,在各項任務榜單上表現(xiàn)更加均衡。
為了持續(xù)激發(fā) Ring-1T 的數(shù)學等復雜推理能力,此次百靈團隊挑戰(zhàn)了難度更高的 IMO2025(國際數(shù)學奧利匹克)賽題,將 Ring-1T 接入多智能體框架 AWorld,使用純自然語言推理進行解題。實驗結(jié)果顯示,Ring-1T 僅用一次解出了第 1、3、4、5 題,相當于 IMO 銀牌水平,成為首個能拿 IMO 國際奧數(shù)獎的開源系統(tǒng)。Ring-1T 在第三次嘗試 IMO 時對第 2 題幾何證明也給出了接近滿分的證明過程,在頂流大模型幾乎全軍覆沒的第六題中將答案收斂到與 Gemini 2.5 Pro 相同的 "4048"(正確答案為 2112)。作為一款思考模型,Ring-1T 也表現(xiàn)出了極佳的通用能力,在 " 人類偏好對齊 " 測試 Arena-Hard V2 中,Ring-1T 以 81.59 的成功率居于開源模型榜首,逼近 GPT-5-Thinking ( High ) 82.91 的成績。在面向嚴謹領域的醫(yī)療問答 HealthBench 測評中,Ring-1T 也以最高分取得開源領域最佳。
(Ring-1T 與業(yè)界代表性思考模型的性能橫評)
萬億參數(shù)思考模型訓練最大難題是訓推精度差異,即訓練階段與推理階段因?qū)崿F(xiàn)細節(jié)差異導致的訓練和推理精度不一致,進而導致訓練崩潰。在 Ring-1T 模型中,螞蟻采用了自研的 " 棒冰(icepop)" 算法來應對這項行業(yè)難題,即用帶掩碼的雙向截斷技術把訓練 - 推理分布差異凍結(jié)在低水位,確保長序列、長周期訓練不崩。此外,應對萬億參數(shù)模型強化學習訓練,螞蟻還自研了高性能強化學習系統(tǒng) ASystem ( 其中包含已開源的高性能強化學習框架 AReaL ) ,特別針對萬億參數(shù)模型的顯存管理和訓推權重交換問題做了精細的優(yōu)化,實現(xiàn)了單機顯存碎片秒級回收、權重零冗余交換,把大規(guī)模 RL 訓練穩(wěn)定跑成日常。
此外,本次發(fā)布的 Ring-1T 模型繼續(xù)采用 Ling 2.0 架構的 1T base 模型做后訓練,Ling 2.0 采用了包括高度稀疏的 MoE 架構,1/32 的專家激活比、FP8 混合精度、MTP 等諸多特性實現(xiàn)高效訓練與推理。在后訓練階段,螞蟻百靈團隊通過 LongCoT-SFT + RLVR + RLHF 多階段訓練,顯著提升了模型的復雜推理能力以及指令跟隨和創(chuàng)意寫作等通用能力。
據(jù)百靈團隊透露,Ring-1T 模型是其在萬億思考模型上的首次嘗試,螞蟻百靈團隊會在后續(xù)的版本中繼續(xù)完善模型性能。目前,用戶可通過 HuggingFace、魔搭社區(qū)下載模型,并通過螞蟻百寶箱等平臺在線體驗。