本文來(lái)源:時(shí)代財(cái)經(jīng)
10 月 14 日,螞蟻集團(tuán)正式推出萬(wàn)億參數(shù)思考模型 Ring-1T,并全面開(kāi)源模型權(quán)重、訓(xùn)練配方。據(jù)悉,Ring-1T 在 " 人類(lèi)偏好對(duì)齊 " 測(cè)試 Arena-Hard V2 中,以 81.59 的成功率居于開(kāi)源模型榜首,逼近 GPT-5-Thinking ( High ) 82.91 的成績(jī)。Ring-1T 在 9 月 30 日開(kāi)源的預(yù)覽版 Ring-1T-preview 基礎(chǔ)上,持續(xù)擴(kuò)展大規(guī)模可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)訓(xùn)練,進(jìn)一步激發(fā)萬(wàn)億基座的自然語(yǔ)言推理能力,并通過(guò) RLHF 訓(xùn)練完善模型通用能力,在各項(xiàng)任務(wù)榜單上表現(xiàn)更加均衡。(時(shí)代財(cái)經(jīng) 張照)