在過(guò)去的十年里,這句話被超過(guò) 800 萬(wàn)用戶呼喚了整整 200 億次。它成為了中國(guó)智能汽車發(fā)展史上的一個(gè)標(biāo)志性符號(hào),象征著語(yǔ)音交互的普及。盡管多屏聯(lián)動(dòng)、語(yǔ)音控制已成為行業(yè)范本,但從 " 能用 " 到 " 好用 " 之間,似乎總隔著一道無(wú)形的墻,語(yǔ)音喚醒既是一個(gè)時(shí)代的符號(hào),也成為了一種局限。
行業(yè)共識(shí)已經(jīng)形成:2024 年,智能座艙的潛在搭載率超過(guò) 73%,其價(jià)值正從單一硬件轉(zhuǎn)向移動(dòng)空間體驗(yàn),從被動(dòng)響應(yīng)轉(zhuǎn)向場(chǎng)景服務(wù),產(chǎn)業(yè)邏輯也從硬件定義變?yōu)檐浖鲗?dǎo)。然而,在新的十字路口,一個(gè)核心問(wèn)題依然懸而未決:當(dāng)我們已經(jīng)把座艙的硬件之 " 形 " 做得足夠好,那作為靈魂的 "AI",其智商與情商究竟該如何注入?
2025 年云棲大會(huì)上,斑馬智行給出了它的答案。其首席產(chǎn)品官蔡明隆重發(fā)布了行業(yè)首個(gè)全模態(tài)端側(cè)大模型解決方案—— AutoOmni。這不僅僅是一款新產(chǎn)品,更代表著一種對(duì)智能座艙未來(lái)走向的深刻判斷:是時(shí)候告別 " 你好,斑馬 " 的時(shí)代了。
破局之道 : 全模態(tài) + 端側(cè)
表面的繁榮之下,智能座艙行業(yè)一直存在一種普遍的焦慮。
" 今天在這個(gè)市面上賣的很多車,其實(shí)配置非常好,非常高,甚至都是超配的。但是軟件體驗(yàn)差強(qiáng)人意," 蔡明在演講中一針見(jiàn)血地指出了行業(yè)怪象," 有算力,但沒(méi)有場(chǎng)景;有屏幕,大屏很好,沒(méi)內(nèi)容;有一些智能設(shè)備其實(shí)也沒(méi)有被真正用上。"
其根源在于,智能車的價(jià)值釋放邏輯與傳統(tǒng)車已截然不同。傳統(tǒng)車上,硬件配置的價(jià)值轉(zhuǎn)化簡(jiǎn)單直接——發(fā)動(dòng)機(jī)排量從 1.5 到 2.0,用戶立刻能感受到 " 車更有勁兒了 ";軸距加大," 腿能伸開(kāi)了 ";真皮座椅則 " 很有檔次 "。這些體驗(yàn)易于感知,也便于市場(chǎng)宣傳,最終能形成差異化的價(jià)格。
但到了智能車時(shí)代,硬件配置變成了算力平臺(tái)、芯片、內(nèi)存帶寬和傳感器。" 每一個(gè)都沒(méi)有辦法單獨(dú)的去來(lái)形成任何的用戶體驗(yàn)的閉環(huán),他們交織在一起,成為一個(gè)復(fù)雜的智能化系統(tǒng)。這就讓這些硬件配置的價(jià)值釋放變得非常的困難。" 蔡明總結(jié)道。車企們陷入了 " 參數(shù)內(nèi)卷 ",瘋狂堆砌硬件,卻無(wú)法讓用戶真切地感受到這些配置帶來(lái)的體驗(yàn)升級(jí)。
AutoOmni 的命名本身就蘊(yùn)含著它的技術(shù)野心。蔡明在發(fā)布會(huì)上解讀道:"Auto 當(dāng)然是指專屬于車行業(yè);Omni(全模態(tài))是指相較于大語(yǔ)言模型,可以感知獲取語(yǔ)言以外的廣泛全面的輸入信息,包括聲音、圖片和影像能力,這感知能力超強(qiáng)。"
這一切的核心目的,是為了讓 AI 真正獲得 " 人 " 一樣的感知能力。
蔡明將人工智能的核心能力穩(wěn)定地歸納為三個(gè)維度:感知、思考和記憶。他認(rèn)為,當(dāng)前主流智艙方案更多依賴云端大模型,解決了 " 思考 " 能力,但嚴(yán)重缺乏 " 感知 "(無(wú)法直接處理車內(nèi)視覺(jué)等信號(hào))和 " 記憶 "(無(wú)法實(shí)現(xiàn)全時(shí)空記錄)。端側(cè)全模態(tài)方案正是為了補(bǔ)上這兩個(gè)關(guān)鍵維度,使 AI 三要素趨于均衡發(fā)展。
全模態(tài)能力到底有多重要?蔡明在會(huì)后的訪談中,闡述了一個(gè)更為根本的觀點(diǎn):缺乏全模態(tài)功能的端側(cè)模型,即使放在車端其實(shí)沒(méi)有太大用處。
" 大家都認(rèn)為自然語(yǔ)言交流是趨勢(shì),但是其實(shí)自然語(yǔ)言交流不僅僅是語(yǔ)言。語(yǔ)言本質(zhì)是對(duì)人說(shuō)的,而人的感知能力不只是接受語(yǔ)言。人和人交流的時(shí)候,語(yǔ)言本身只占到一個(gè)很小的比例。心理學(xué)家艾伯特 · 麥拉賓(Albert Mehrabian)在 20 世紀(jì) 70 年代的研究中表明 : 人們對(duì)一個(gè)人的印象,約 7% 來(lái)自談話的語(yǔ)言和內(nèi)容,38% 來(lái)自說(shuō)話的語(yǔ)調(diào)、語(yǔ)速和聲音,55% 來(lái)自外型、表情、姿勢(shì)等肢體語(yǔ)言。"
這意味著一個(gè)人跟 AI 交流,如果不是經(jīng)過(guò)特別的訓(xùn)練,AI 大概率是無(wú)法 100% 聽(tīng)懂的,因?yàn)?AI 缺乏能力去了解這個(gè)段對(duì)話發(fā)生的場(chǎng)景。
" 假如我說(shuō)‘我很餓了,找一個(gè)孩子愛(ài)吃的餐廳,然后把座椅調(diào)舒適’。這句話背后有無(wú)數(shù)語(yǔ)言無(wú)法傳遞的信息:車上有幾個(gè)孩子?以哪個(gè)孩子的口味為主?孩子的口味是什么?調(diào)座椅是調(diào)誰(shuí)的?是車主本人,還是另一位沒(méi)有發(fā)出指令的家人?" 蔡明補(bǔ)充到 " 很多時(shí)候事實(shí)的真相離這種片段的信息非常遠(yuǎn),這個(gè)東西怎么能補(bǔ)全?只有全模態(tài)能力的端側(cè)模型輔助下的自然語(yǔ)言交互,才是完整的自然語(yǔ)言交互。"
正是基于對(duì)行業(yè)痛點(diǎn)的深刻洞察,斑馬智行選擇了將 " 全模態(tài) " 與 " 端側(cè) " 作為其技術(shù)破局的核心支點(diǎn)。蔡明在訪談中指出,當(dāng)前正是一個(gè)質(zhì)變節(jié)點(diǎn),因?yàn)樵贫硕嗄B(tài)大模型的能力已被驗(yàn)證且發(fā)展迅速,當(dāng)前任務(wù)是如何將其能力在端側(cè)以更小的參數(shù)規(guī)模保持在下限之上。
而 AutoOmni" 全模態(tài) + 端側(cè) " 的解決方案也同時(shí)給國(guó)際主流和國(guó)產(chǎn)車載芯片的產(chǎn)業(yè)發(fā)展開(kāi)辟了新的視野。因?yàn)樗瓿闪艘粋€(gè)底層的范式轉(zhuǎn)換,從 " 芯片能力定義功能上限 " 轉(zhuǎn)變?yōu)?" 用戶體驗(yàn)需求定義芯片規(guī)格 "。" 全模態(tài) " 和 " 端側(cè) " 的落地要求,將技術(shù)競(jìng)爭(zhēng)從單純的算力指標(biāo),轉(zhuǎn)向?qū)Φ凸某掷m(xù)計(jì)算、多模態(tài)數(shù)據(jù)處理等特定場(chǎng)景能力的深度優(yōu)化,為全球的車載芯片產(chǎn)業(yè)指明了一條新的發(fā)展路徑。
專注提升能力,讓功能和場(chǎng)景涌現(xiàn)
AutoOmni 究竟能為智能座艙帶來(lái)哪些新的體驗(yàn)?蔡明在演講中系統(tǒng)地闡述了其帶來(lái)的三大能力躍遷。
首先,是全模態(tài)的感知(長(zhǎng)聆聽(tīng)和長(zhǎng)睜眼),讓智艙 " 能聽(tīng)會(huì)看 "。其次,是這種感知疊加了端模型 Always-On 的特性,就可以做到全時(shí)空的記錄,讓智艙擁有 " 記憶 "。最后,是思考與感知讓 AI 聰明,感知與記憶又讓 AI 敏銳,思考和記憶讓 AI 有學(xué)習(xí)成長(zhǎng)的能力,最終實(shí)現(xiàn)類人的 AI 助理。
為了具象化這些能力如何轉(zhuǎn)化為用戶體驗(yàn),蔡明用一個(gè)坐標(biāo)軸分析了用戶場(chǎng)景:橫軸是意圖和需求,縱軸是意圖的執(zhí)行和需求的滿足,由此得到四個(gè)象限——需求明確且及時(shí)滿足的及時(shí)性場(chǎng)景、條件性場(chǎng)景(if … then …)、規(guī)劃迭代性場(chǎng)景(有持續(xù)時(shí)間的復(fù)雜任務(wù))以及閑聊型場(chǎng)景。再根據(jù)其發(fā)起方分為用戶發(fā)起和 AI 發(fā)起,構(gòu)成了八個(gè)場(chǎng)景板塊。
基于此,AutoOmni 的作用主要體現(xiàn)在三個(gè)方面:
其一,是對(duì)存量場(chǎng)景的增強(qiáng)。 同樣是調(diào)空調(diào),因?yàn)?AI" 有了眼睛 ",知道后排有女兒在睡覺(jué),因此只會(huì)操作前排。同樣是聽(tīng)音樂(lè),因?yàn)榭吹搅烁瘪{駛坐著女朋友,就可以播放兩個(gè)人都喜歡的音樂(lè)。同樣是聊天,也因?yàn)橹雷摾锏慕巧铜h(huán)境,可以把所有人以及外面正在下雨下雪的因素都納入聊天內(nèi)容中。
其二,是打開(kāi)了規(guī)劃迭代型場(chǎng)景。 蔡明以策劃一場(chǎng)多人出游為例,反駁了 "AI 制定行程規(guī)劃早已實(shí)現(xiàn) " 的觀點(diǎn)。他認(rèn)為,一個(gè)一兩個(gè)月后發(fā)生的重要事情,不可能通過(guò)幾分鐘的幾輪對(duì)話完成,它必然是一個(gè)長(zhǎng)周期的、不斷優(yōu)化調(diào)整的過(guò)程。AI 真正的工作流程是:先提供初步規(guī)劃,然后在任務(wù)完成前,多次精準(zhǔn)找到用戶的空閑時(shí)間主動(dòng)發(fā)起互動(dòng),每一次都提供有價(jià)值的幫助和資訊,同時(shí)獲得用戶不斷更新的外界條件變化,不斷優(yōu)化迭代。" 智能車相較于其他的智能設(shè)備,在處理這一類的事情上,是有先天的不可替代的時(shí)空優(yōu)勢(shì)," 蔡明強(qiáng)調(diào)," 因?yàn)槿顺T谲嚴(yán)?,又?jīng)常有空閑的時(shí)間,且人和 AI 又有相對(duì)獨(dú)立的相處的一個(gè)時(shí)空。"
其三,是實(shí)現(xiàn) AI 發(fā)起的場(chǎng)景。 這是主動(dòng)智能的真正體現(xiàn)。例如,車開(kāi)著開(kāi)著進(jìn)入霧區(qū),就應(yīng)該直接打開(kāi)霧燈并告訴用戶,同時(shí)咨詢是否有其他服務(wù)需求;老人一上車應(yīng)該自動(dòng)調(diào)整座位;看到女兒入睡,應(yīng)該自動(dòng)調(diào)整空調(diào)風(fēng)量和方向,播放助眠音樂(lè);發(fā)現(xiàn)用戶每個(gè)工作日九點(diǎn)都會(huì)開(kāi)車到園區(qū)門(mén)口搖下車窗,AI 就可以自動(dòng)設(shè)定一個(gè)周期性的任務(wù)(如提前調(diào)出支付界面),并在刮風(fēng)下雨時(shí)自動(dòng)暫停那一天的執(zhí)行;在假期前主動(dòng)詢問(wèn)出游計(jì)劃,或在感知到用戶疲憊、煩躁時(shí),主動(dòng)提供數(shù)字娛樂(lè)或本地生活服務(wù)。
當(dāng)別的智艙解決方案還在討論功能時(shí),蔡明的思路卻完全不同。" 我不太想討論具體功能和場(chǎng)景,之前很多的功能都是由產(chǎn)品經(jīng)理定義出來(lái)的,而我認(rèn)為很多功能和場(chǎng)景沒(méi)有出現(xiàn)的本質(zhì)原因是模型的能力還不夠,沒(méi)法形成服務(wù)閉環(huán)。我們更多做的是‘能力’,能力提升了,功能和場(chǎng)景自行生長(zhǎng)和涌現(xiàn)。大家總是在問(wèn)功能,但 AI 時(shí)代我們更應(yīng)關(guān)注的是能力。"
背后的硬仗:工程化落地與生態(tài)共建
將強(qiáng)大的模型順暢地在部署在端側(cè)芯片上,是一場(chǎng)艱難的工程硬仗。蔡明在演講中特別感謝了高通的工程團(tuán)隊(duì)," 幾個(gè)月來(lái),我們共同投入了五十多名系統(tǒng)級(jí)算法專家,通過(guò)了 15000 小時(shí)的研發(fā),15 個(gè)版本的迭代,解決了芯片適配一千多個(gè)技術(shù)問(wèn)題。然后將這個(gè)推理效率提升了三倍多。" 他透露,為了給客戶提供最好的產(chǎn)品效果,團(tuán)隊(duì)至今仍在持續(xù)優(yōu)化中。這也凸顯了斑馬智行十年深耕汽車行業(yè)所積累的優(yōu)秀工程化能力、久經(jīng)考驗(yàn)的穩(wěn)定性以及快速上車的保障力。
除了工程能力,戰(zhàn)略合作同樣是關(guān)鍵基石。蔡明宣布了兩個(gè) " 獨(dú)家綁定 ":斑馬的 AutoOmni 基于阿里通義千問(wèn)大模型深度定制且獨(dú)家綁定;在行業(yè)內(nèi)率先完成高通 8797 的適配,也是與高通的獨(dú)家綁定。" 我覺(jué)得這里應(yīng)該有個(gè)掌聲," 他自信地說(shuō)道。這種深度的綁定關(guān)系,構(gòu)成了斑馬在初期顯著的技術(shù)壁壘和領(lǐng)先優(yōu)勢(shì)。
然而,斑馬的野心并止于技術(shù)供應(yīng)商。蔡明清晰地闡述了斑馬的三層定位:第一是做好開(kāi)放的操作系統(tǒng);第二是成為領(lǐng)先的 AI 全棧技術(shù)服務(wù)商;第三,則是成為最好的車載平臺(tái)服務(wù)提供商及聯(lián)合運(yùn)營(yíng)商。 這第三層定位,指向了一個(gè)更宏大的生態(tài)夢(mèng)想。
他從商業(yè)邏輯上分析,認(rèn)為大模型投入巨大,任何車廠都沒(méi)有道理獨(dú)自承擔(dān)," 這不符合基本的商業(yè)邏輯 "。今天的新勢(shì)力巨頭,如理想,也絕不會(huì)把自己的座艙系統(tǒng)開(kāi)放給任何競(jìng)爭(zhēng)對(duì)手。因此,他認(rèn)為行業(yè)必然會(huì)出現(xiàn)專業(yè)供應(yīng)商,就像傳統(tǒng)汽車行業(yè)的發(fā)動(dòng)機(jī)供應(yīng)商一樣,而斑馬立志成為 " 智能座艙 AI 的整體解決方案 " 提供者。而此次斑馬也為車廠提供了交鑰匙和 AIbox 兩種部署方式,既可以滿足一部分對(duì)智能座艙非常樂(lè)觀積極的車廠,也可以滿足另一部分對(duì)智能座艙的態(tài)度相對(duì)保守的傳統(tǒng)車廠。
在生態(tài)構(gòu)建上,即使斑馬可以獨(dú)家拿到阿里生態(tài)的所有 API 接口,但更加困難的事情還是在是拿到 API 接口之后。蔡明稱之為 " 兩座山 "。一是 " 從 APP 到 Agent",因?yàn)榻换ツJ綇挠|摸變?yōu)樽匀徽Z(yǔ)言 +AI,會(huì)導(dǎo)致大量服務(wù)邏輯和框架需要重構(gòu)。二是 " 從手機(jī)到車 ",服務(wù)推薦邏輯因場(chǎng)景不同需徹底改變,例如導(dǎo)航在手機(jī)上基于原點(diǎn)距離,在車上則需考慮沿途、路況;音樂(lè)在手機(jī)上基于個(gè)人喜好,在車上則需考慮多人共同喜好、環(huán)境情緒等。" 這件事,CBSP(內(nèi)容提供商)是沒(méi)有任何的道理做的,然后他跟現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)相比,他投入太多,收益太小,所以這件事只能由斑馬來(lái)做。" 蔡明說(shuō)到。
未來(lái)的漣漪:重塑行業(yè)與體驗(yàn)
AutoOmni 的發(fā)布,其意義遠(yuǎn)超一款新產(chǎn)品上市,它更像一顆投入湖面的石子,必將激起層層漣漪。
對(duì)于用戶體驗(yàn)而言,這意味著智能座艙交互范式的根本轉(zhuǎn)變。從需要用戶主動(dòng)思考、并精確發(fā)出指令的 " 被動(dòng)響應(yīng) ",轉(zhuǎn)向 AI 能夠察言觀色、心領(lǐng)神會(huì)、甚至先一步行動(dòng)的 " 主動(dòng)智能 "。其最終目標(biāo)是徹底終結(jié) " 喚醒詞時(shí)代 "。
對(duì)于車企而言,斑馬提供的 " 交鑰匙 " 方案和生態(tài)聯(lián)盟,提供了一個(gè)高性價(jià)比的選擇,使其能以更低的成本和更快的速度,獲得行業(yè)頂尖的 AI 座艙能力,從而更專注于車輛本身的制造與用戶體驗(yàn)的宏觀定義,無(wú)需在 AI 底層技術(shù)和大模型研發(fā)上進(jìn)行巨額投入。
而對(duì)于整個(gè)行業(yè)而言,斑馬的舉動(dòng)正在推動(dòng)一種新分工格局的形成。智能座艙的競(jìng)爭(zhēng),將從過(guò)去單打獨(dú)斗的 " 垂直整合 " 模式,逐漸轉(zhuǎn)向以平臺(tái)型公司為核心、整合多方優(yōu)勢(shì)的 " 生態(tài)競(jìng)爭(zhēng) " 模式。這種模式更符合技術(shù)發(fā)展的復(fù)雜度,也可能催生出更繁榮的應(yīng)用生態(tài)和創(chuàng)新速度。
這不僅僅是技術(shù)的迭代,更是交互范式的革命。它打破了智能座艙行業(yè)長(zhǎng)期以來(lái)的 " 內(nèi)卷 " 困局,為整個(gè)產(chǎn)業(yè)指明了通向 " 主動(dòng)智能 " 的道路。當(dāng)智能座艙跨過(guò)這個(gè)臨界點(diǎn),我們迎來(lái)的將不再是一個(gè)更聽(tīng)話的車,而是一個(gè)更懂你的伙伴,一個(gè)真正意義上的移動(dòng)智慧空間。人機(jī)共生的新紀(jì)元,正由此開(kāi)啟。