2B 模型在多個(gè)基準(zhǔn)位列 4B 參數(shù)以下開源第一。
抖音 SAIL 團(tuán)隊(duì)與 LV-NUS Lab 聯(lián)合推出的多模態(tài)大模型SAIL-VL2。
SAIL-VL2 以 2B、8B 等中小參數(shù)規(guī)模,在106 個(gè)數(shù)據(jù)集實(shí)現(xiàn)性能突破,尤其在 MMMU、MathVista 等復(fù)雜推理基準(zhǔn)超越同規(guī)模模型,甚至比肩更大參數(shù)的閉源模型。
SAIL-VL2 既具備細(xì)粒度視覺感知能力,又能在復(fù)雜推理任務(wù)中媲美更大規(guī)模模型。同時(shí),團(tuán)隊(duì)通過開源模型與推理代碼,提供可擴(kuò)展的多模態(tài)基礎(chǔ)模型。
SAIL-VL2 突破傳統(tǒng)稠密 LLM 的架構(gòu),引入稀疏混合專家(MoE),并提供多規(guī)格模型配置,滿足不同場(chǎng)景需求:
為攻克視覺 - 語言對(duì)齊這一核心挑戰(zhàn),SAIL-VL2 設(shè)計(jì)了「熱身適應(yīng)→細(xì)粒度對(duì)齊→世界知識(shí)注入」三階段訓(xùn)練:
階段 I(熱身適應(yīng)):凍結(jié) SAIL-ViT 與 LLM,僅訓(xùn)練 Adapter,使用 8M 數(shù)據(jù)激活跨模態(tài)映射能力;
階段 II(細(xì)粒度對(duì)齊):固定 LLM,解鎖 SAIL-ViT 與 Adapter,使用 6.7M Caption 和 COR 數(shù)據(jù),強(qiáng)化跨模態(tài)對(duì)齊深度;
階段 III(世界知識(shí)注入):解鎖所有參數(shù),使用 36.5M 多任務(wù)數(shù)據(jù),提升模型泛化能力。
經(jīng)此流程,SAIL-ViT 與 LLM 特征空間的平均最近鄰距離從 1.42 降至 1.15,Wasserstein 距離從 4.86 降至 3.88,證明視覺 - 語言對(duì)齊效果顯著提升。
MoE 架構(gòu):參數(shù)與計(jì)算的平衡
SAIL-VL2 的 31.1B 大模型采用 Qwen3-MoE 架構(gòu),每次推理僅激活 3B 參數(shù)。為優(yōu)化專家激活不平衡問題,模型引入負(fù)載均衡損失與數(shù)據(jù)校準(zhǔn)策略,最終將專家激活熵提升 20%,保障了各專家功能特化。
SAIL-ViT-AnyRes:任意分辨率的突破
為打破傳統(tǒng) ViT 的固定分辨率瓶頸,SAIL-ViT-AnyRes 借助 "2D RoPE 插值 " 技術(shù),實(shí)現(xiàn)了對(duì)任意分辨率輸入的動(dòng)態(tài)支持(最高 1792 × 1792)。這一突破的價(jià)值在 RefCOCO 視覺定位任務(wù)中得到驗(yàn)證:其平均精度高達(dá) 57.82,遠(yuǎn)超固定分辨率版本的 53.28。
數(shù)據(jù)層面:評(píng)分過濾 + 合成增強(qiáng),構(gòu)建高質(zhì)量多模態(tài)語料庫
SAIL-VL2 設(shè)計(jì)了一套全自動(dòng)數(shù)據(jù) pipeline,從 " 質(zhì)量篩選 " 與 " 類型擴(kuò)展 " 兩大方向提升數(shù)據(jù)價(jià)值:
合成 VQA 數(shù)據(jù):將 80MSAIL-Caption2 通過 LLM 生成 QA 形式,補(bǔ)充 QA 數(shù)據(jù)多樣性;
純文本與多模態(tài)指令數(shù)據(jù):文本語料保留 LLM 語言能力,VQA 數(shù)據(jù)強(qiáng)化指令跟隨能力。
訓(xùn)練層面:漸進(jìn)式框架 + 動(dòng)態(tài)學(xué)習(xí)率,激活模型多維度能力
SAIL-VL2 設(shè)計(jì)三階段視覺預(yù)訓(xùn)練與兩階段多模態(tài)預(yù)訓(xùn)練的漸進(jìn)式流程,從基礎(chǔ)感知逐步過渡到復(fù)雜推理:
數(shù)據(jù)重采樣:數(shù)據(jù)集平衡采樣比例,在語言層面優(yōu)化 n-gram 分布,緩解數(shù)據(jù)偏置,提升訓(xùn)練效率;
動(dòng)態(tài)學(xué)習(xí)率:使用 AdaLRS 算法——基于損失下降斜率動(dòng)態(tài)調(diào)整學(xué)習(xí)率,訓(xùn)練效率大幅提升。
Posttrain:全鏈路優(yōu)化后訓(xùn)練數(shù)據(jù):三大高質(zhì)量數(shù)據(jù)集
SAIL-Video
針對(duì)視頻理解中 " 幀 - 指令錯(cuò)位 " 痛點(diǎn),從 6 個(gè)權(quán)威數(shù)據(jù)集初篩 623 萬條樣本,通過 " 視頻 - 問答對(duì)齊度(-1~10 分)、內(nèi)容豐富度(-1~7 分)、問答難度(-1~3 分)" 雙維度評(píng)估,僅保留均達(dá)標(biāo)的樣本,最終得到 510 萬條高質(zhì)量視頻 - 問答數(shù)據(jù),保障視頻理解訓(xùn)練可靠性。
SAIL-Instruction2(指令微調(diào)數(shù)據(jù))
使用 Mammoth、MMPR 等數(shù)據(jù)集補(bǔ)充長回答與推理樣本,通過 " 質(zhì)量評(píng)估 + 增量評(píng)估 " 雙驗(yàn)證與 " 潛在類別過濾 ",生成 2000 萬條指令樣本。
基于 VisualWebInstruct、MathV360K 等數(shù)據(jù)集,通過 " 質(zhì)量過濾、格式統(tǒng)一、樣本去重 " 清洗,篩選出 " 有挑戰(zhàn)性但可解決 " 的樣本,最終形成 40 萬 LongCoT SFT 樣本、100 萬條 Think-Fusion SFT 樣本及 15 萬條 RL 樣本,為推理訓(xùn)練提供結(jié)構(gòu)化數(shù)據(jù)支撐。
后訓(xùn)練策略:五階段遞進(jìn)強(qiáng)化能力
SAIL-VL2 設(shè)計(jì)了一套遞進(jìn)式的五階段后訓(xùn)練策略,以系統(tǒng)性地提升模型綜合能力:
1、基礎(chǔ) SFT:首先,通過四階段數(shù)據(jù)注入與模型融合技術(shù),為模型構(gòu)建堅(jiān)實(shí)的基礎(chǔ)指令遵循能力。
2、LongCoT SFT:接著,使用 40 萬條 CoT 樣本,訓(xùn)練模型掌握逐步推理(step-by-step)的能力。
3、可驗(yàn)證獎(jiǎng)勵(lì) RL:然后,引入 RL,基于 " 答案正確性 + 格式規(guī)范性 " 雙重獎(jiǎng)勵(lì)優(yōu)化 STEM 樣本,確保推理結(jié)果準(zhǔn)確、規(guī)范。
4、Think-Fusion SFT:隨后,采用混合數(shù)據(jù)與條件損失進(jìn)行訓(xùn)練,讓模型學(xué)會(huì)按需推理,實(shí)現(xiàn)能力的收放自如。
5、混合獎(jiǎng)勵(lì) RL:最后,利用更復(fù)雜的三維獎(jiǎng)勵(lì)信號(hào)進(jìn)行最終優(yōu)化,實(shí)現(xiàn)強(qiáng)大推理能力與簡(jiǎn)潔輸出的平衡。
訓(xùn)練基礎(chǔ)設(shè)施:高效支撐大規(guī)模訓(xùn)練 Stream Packing:雙策略提升訓(xùn)練效率
批處理與在線打包:通過動(dòng)態(tài)拼接樣本減少填充令牌,將 SM 利用率提升近 1 倍,訓(xùn)練速度加快 50%,并提升了 0.7% 的 QA 性能。
視覺打包:通過加入視覺令牌平衡約束,緩解了視覺編碼器的內(nèi)存壓力,使訓(xùn)練效率再提升 48%。
MoE 基礎(chǔ)設(shè)施:突破稀疏架構(gòu)訓(xùn)練瓶頸
計(jì)算優(yōu)化:采用核融合技術(shù)將多個(gè)操作合并執(zhí)行,減少數(shù)據(jù)搬運(yùn)開銷,使 MoE 訓(xùn)練速度提升達(dá) 3 倍。
通信優(yōu)化:設(shè)計(jì)流式數(shù)據(jù)讀取和混合并行機(jī)制,有效降低通信和訓(xùn)練開銷。
性能驗(yàn)證:106 個(gè)數(shù)據(jù)集上的全面領(lǐng)先
SAIL-VL2 在 106 個(gè)多模態(tài)數(shù)據(jù)集上得到驗(yàn)證,從基礎(chǔ)感知到復(fù)雜推理,從圖像理解到視頻分析,均展現(xiàn)出同規(guī)模模型中的頂尖水平。
基礎(chǔ)模型性能:小參數(shù)規(guī)模實(shí)現(xiàn)大突破
在通用多模態(tài)理解基準(zhǔn)中,SAIL-VL2 基礎(chǔ)模型(無思維增強(qiáng))表現(xiàn)突出(如下表所示):
SAIL-VL2-2B OpenCompass 為 70.31,超越 Qwen2.5-VL-3B(65.36)、InternVL3.5-2B(66.64)等模型,位列 4B 參數(shù)以下開源第一;SAIL-VL2-8B 在 OpenCompass 取得開源同量級(jí)模型的最高分?jǐn)?shù):
SAIL-VL2-Thinking 在 OpenCompass 多模態(tài)推理榜單表現(xiàn)卓越:
SAIL-VL2-8B-Thinking 平均得分 54.4,超越所有開源模型,僅次于 GPT-4o-latest(54.8);SAIL-VL2-A3B-Thinking(MoE 架構(gòu))以 3B 激活參數(shù)實(shí)現(xiàn) 53.6 分,超越閉源模型 Gemini-2.0-Flash(50.6),展現(xiàn)出極高的效率性能比。
代碼與模型:https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face 模型庫:https://huggingface.co/BytedanceDouyinContent
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見