李飛飛的實驗室 The World Labs,用一張顯卡就能運行一個世界。他們今天發(fā)布了一項名為 RTFM ( Real-Time Frame Model ) 的新技術(shù),一個全新的實時世界生成模型。
目前,RTFM 已經(jīng)作為研究預覽版正式發(fā)布,并提供了 Demo 可以親自去試試。
意外地發(fā)現(xiàn),這個 Demo 的名字叫做 FRAMEBOY,結(jié)合這個網(wǎng)頁布局,我很快想到了年代久遠的 Game Boy 游戲機。
這樣一個擁有逼真的光影、反射和陰影的世界,并且這一切還在我們眼前實時發(fā)生,在某種程度上,何嘗不是另一種玩游戲。
不止于生成,更在于實時互動
RTFM 的核心能力,就是能實時生成可供用戶交互的視頻。它可以從一張靜態(tài)圖片開始,渲染出一個可以自由探索的 3D 場景。
與許多世界模型不同,RTFM 能夠?qū)W習并渲染出,極其復雜和真實的視覺效果。無論是光滑大理石地面的倒影、物體在陽光下的陰影,還是透過玻璃看到的景象,RTFM 都能準確地模擬。
RTFM 依靠的不是傳統(tǒng)的圖形學編程,而是讓模型通過對海量視頻數(shù)據(jù)的端到端學習,不斷進化出來的。
效率 ( Efficiency ) ,要想把未來拉到眼前,世界模型的計算需求是最大的阻礙。
無論是像 Sora 這樣的 AI 生成視頻,還是 Google 尚未正式公開上線的 Genie 3, 都意味著巨大的計算挑戰(zhàn)。有相關(guān)的研究提到,要實時生成 4K 60fps 的交互視頻流,AI 模型每秒需要處理的 tokens 數(shù)量約等于一本《哈利 · 波特》的文字量。
而如果要在超過一小時的交互中,保持這些生成內(nèi)容的持續(xù)性,需要處理的上下文,將超過 100M 個 token。這對于當下的計算基礎(chǔ)設(shè)施而言,既不現(xiàn)實,也難以負擔。
他們通過對架構(gòu)、模型蒸餾和推理過程的極致優(yōu)化,以及整個系統(tǒng)的重新設(shè)計。RTFM 成功地實現(xiàn)了,僅使用單個 H100 GPU,就可以交互式幀率進行推理,實時生成。
可擴展性 ( Scalability ) ,從視頻模型,能直接到世界模型。
傳統(tǒng)的 3D 引擎,用的是三角網(wǎng)格、高斯點云、體素渲染等顯式結(jié)構(gòu),完全依賴于一些復雜的計算機圖形學知識。每個物體都要建模、上材質(zhì)、打光、烘焙陰影。這和我們之前介紹的混元 3D 世界,所采用的方法類似,它們主打的是實現(xiàn) 3D 全管道的生成。
World Lab 選擇的路和混元不同, RTFM 不會構(gòu)建任何顯式的 3D 模型。它使用了類似 Sora 的「自回歸擴散 Transformer」,直接從視頻幀序列中學習世界規(guī)律。
舉個例子,模型不再需要知道「這是一堵墻」或「那是一盞燈」,它只通過成千上萬段視頻的學習,學會了什么是「空間感」,學會從輸入的 2D 圖像序列中,預測出下一個新的視角畫面。
持久性 ( Persistence ) ,讓世界模型像 nano banana 一樣保持一致。
大部分的視頻生成模型有一個天生缺陷,就是它們沒有記憶。即便現(xiàn)在 Sora 一次性,能生成 25 秒的震撼畫面,但視頻生成結(jié)束后,世界就結(jié)束了,并不能提供持續(xù)的交互。
而如果要記住所有場景,計算負擔勢必又會隨著探索的深入而無限累積。
在生成新畫面時,模型會采用一種「上下文雜耍」 ( context juggling ) 的技術(shù),只調(diào)用新畫面附近位置的幀作為參考,而不是全局內(nèi)容。
目前,RTFM 的 Demo 體驗時間只有 3 分鐘,3 分鐘后,它還是會不記得這個世界。我在那個 Demo 里面拖動左右兩個搖桿,玩了很久,想到了李飛飛之前說,空間智能才應該是 AGI 的下一個方向。
畢竟,即便單個 H100 GPU,售價也大約在 25000 美元以上。但是當算力的價格下降,當算法再快一點;我們或許能看到,真正意義上的世界模型「大更新」,是現(xiàn)實,被完整生成的那一天。