文 | 超聚焦
大模型正在從 " 比拼智商 ",變成一門 " 進(jìn)廠打螺絲 " 的生意。
據(jù)財(cái)聯(lián)社報(bào)道,OpenRouter 最新周度數(shù)據(jù)顯示,平臺(tái)前十模型總 token 量約 8.7 萬億,中國模型獨(dú)占 5.3 萬億,占比 61%。
而當(dāng)周 token 調(diào)用量前三模型均為國產(chǎn)大模型,分別為 Minimax M2.5、Kimi K2.5、GLM-5,調(diào)用量環(huán)比上周分別變動(dòng)增加 197%、下降 20%、增加 158%。

要知道,作為全球最大的大模型 API 聚合平臺(tái),OpenRouter 匯聚了全球開發(fā)者的真實(shí)調(diào)用需求,它的榜單堪稱目前 AI 行業(yè)最硬核的 " 算力消耗晴雨表 "。
看到國產(chǎn)大模型如此瘋狂地 " 屠榜 ",很多人的第一反應(yīng)肯定是:難道在絕對(duì)能力上,國內(nèi)大模型已經(jīng)趕上GPT、Claude 和 Gemini 了嗎?
答案顯然是否定的。如果真要死磕極度復(fù)雜的邏輯推理或硬核的代碼工程,硅谷這幾家閉源巨頭依然是當(dāng)下絕對(duì)的技術(shù)天花板。
那么,既然絕對(duì)智力并沒有趕上北美頂尖模型,那為什么偏偏是國內(nèi)大模型跑滿了全網(wǎng)的調(diào)用量?對(duì)未來的 AI 競(jìng)爭(zhēng)格局又意味著什么?
01大模型不是煉金術(shù)而是流水線
國內(nèi)大模型企業(yè),正在用義烏做小商品的邏輯,降維狙擊硅谷的賽博魔法。之所以中國大模型能夠在 Openrouter 上 " 屠榜 ",唯 " 便宜 " 爾。
過去,大模型的定價(jià)權(quán)在海外巨頭手中。以 GPT-4o 或 Claude 3.5 Opus 為例,能力強(qiáng),但價(jià)格也高。處理百萬 Token 的數(shù)據(jù),通常需要花費(fèi)幾美元甚至十幾美元。
在 AI 爆發(fā)的嘗鮮期,這個(gè)價(jià)格大家咬咬牙也就接受了??梢坏┻~入 Agent 時(shí)代,情況徹底變了。
最近在科技圈鬧得沸沸揚(yáng)揚(yáng)的 "OpenClaw 封禁事件 ",就是這場(chǎng)算力成本危機(jī)的最直觀切面。
作為一款爆火的開源 AI 智能體,OpenClaw 能像 " 數(shù)字打工人 " 一樣接管電腦、全自動(dòng)處理文件甚至寫代碼。為了省錢,許多極客和開發(fā)者想出了一個(gè) " 絕妙 " 的方案:他們利用代碼接口,讓 OpenClaw 去 " 白嫖 " 谷歌和 Anthropic 每月 20 美元的個(gè)人包月訂閱服務(wù)(如 Claude Pro),而不是老老實(shí)實(shí)去調(diào)用官方按量付費(fèi)的昂貴 API。
結(jié)果可想而知,當(dāng) AI 從 " 你問我答的聊天框 " 變成 " 自動(dòng)規(guī)劃、反復(fù)執(zhí)行的數(shù)字打工人 " 時(shí),它在后臺(tái)每一次的搜索、試錯(cuò)、糾錯(cuò)和循環(huán),都在瘋狂燃燒 Token。這種 Agent 級(jí)別的恐怖吞吐量,直接把原本號(hào)稱 " 不限量 " 的包月服務(wù)給刷爆了。
面對(duì)被 " 薅禿 " 的算力資源,谷歌和 Anthropic 也坐不住了。他們不僅緊急下場(chǎng),嚴(yán)禁第三方工具接入訂閱制通道,谷歌甚至對(duì)部分高頻調(diào)用的賬號(hào)祭出了 " 永久封禁 " 的終極殺招。
巨頭們這番 " 掀桌子 " 操作的核心邏輯其實(shí)只有一個(gè):算力成本實(shí)在扛不住了。
在 Agent 時(shí)代,如果繼續(xù)放任大家用 20 美元的包月訂閱跑自動(dòng)化任務(wù),CSP 巨頭也一定會(huì)破產(chǎn);但如果逼著開發(fā)者去走官方 API,按照每百萬 Token 十幾美元的價(jià)格計(jì)費(fèi),那么最先進(jìn)的高價(jià)大模型就不再是先進(jìn)生產(chǎn)力,而是成了一個(gè)吞噬利潤的無底洞,直接把無數(shù) AI 應(yīng)用和開發(fā)者的商業(yè)模式逼到了死角。
正是在大多數(shù)行業(yè)都陷入 " 用不起算力 " 的死局時(shí),他們回頭一看,發(fā)現(xiàn)大洋對(duì)岸的中國大模型企業(yè),已經(jīng)把價(jià)格卷到了一個(gè)令人發(fā)指的地步。
目前,像 DeepSeek、GLM、Kimi 或者是 MiniMax 等國產(chǎn)優(yōu)秀大模型,其 API 的調(diào)用價(jià)格已經(jīng)被硬生生打到了每百萬 Token 只需要兩到三美元。
而有些廠商為了搶占開發(fā)者生態(tài),更是對(duì)百萬級(jí)上下文或特定規(guī)模的模型實(shí)行長(zhǎng)期的免費(fèi)開放。這已經(jīng)不是 " 打個(gè)八折 " 的促銷,而是數(shù)量級(jí)的成本斷層。
很多人可能會(huì)問:便宜固然好,但如果模型不夠聰明,便宜又有什么用?但事實(shí)卻是,絕大多數(shù)人高估了真實(shí)場(chǎng)景對(duì) " 極限智商 " 的需求,卻低估了 " 長(zhǎng)尾任務(wù) " 對(duì)算力吞吐量的恐怖消耗。
在真實(shí)的商業(yè)世界和極客開發(fā)圈里,90% 的 AI 任務(wù)根本不需要用到 " 愛因斯坦級(jí)別 " 的智商。
想象一下我們?nèi)粘J褂?AI 的場(chǎng)景:把一本十萬字的英文網(wǎng)絡(luò)小說翻譯成中文;丟給 AI 幾十個(gè) PDF 財(cái)報(bào)讓它提取出所有的利潤數(shù)據(jù);寫一段幾百行的前端基礎(chǔ)代碼;又或者是目前 OpenRouter 上消耗量極大的 " 角色扮演 " ——玩家和 AI 扮演的虛擬角色進(jìn)行幾千輪的閑聊。
這些任務(wù)有一個(gè)共同特點(diǎn):邏輯深度一般,但文本吞吐量巨大。對(duì)于這類 " 藍(lán)領(lǐng)型 " 的認(rèn)知工作,排名前列的中國模型已經(jīng)不僅是 " 及格 ",而是做得非常出色。
這就好比你要給公司幾萬份快遞單號(hào)錄入表格,你完全沒有必要去花重金聘請(qǐng)一位諾貝爾獎(jiǎng)得主(頂尖閉源模型),你只需要雇傭一批勤奮、踏實(shí)且工資極低的實(shí)習(xí)生(高性價(jià)比模型)就能完美解決。
更何況頂尖閉源模型與高性價(jià)比模型之間的差距,在蒸餾技術(shù)的存在下,兩者的差距最多只有半個(gè)身位。
因此,全球的開發(fā)者們極其理智地選擇了 " 智能路由 " 策略:把海量的、繁瑣的、容錯(cuò)率高的基礎(chǔ)任務(wù)和長(zhǎng)文本閱讀,全部路由給便宜的中國模型;只有到了需要做最終的復(fù)雜邏輯判斷,或者碰到了極難的算法題時(shí),才會(huì)精打細(xì)算地調(diào)用GPT或 Claude。
這,才是國內(nèi)大模型能跑滿全網(wǎng)調(diào)用量的原因。
02算力爭(zhēng)霸戰(zhàn),變壓器才是底牌
便宜的大模型,從來都不是天上掉下來的餡餅。
很多人誤以為,國內(nèi)大模型的白菜價(jià)是靠著國內(nèi)廠商 " 燒錢補(bǔ)貼 " 砸出來的。但這其實(shí)低估了中國工程師在技術(shù)落地上的恐怖壓榨力。
當(dāng)硅谷還在迷信 " 大力出奇跡 "、瘋狂堆疊萬億參數(shù)時(shí),國內(nèi)大模型企業(yè)早就在 " 摳門 " 這門藝術(shù)上做到了登峰造極。
在這個(gè)賽道上,中國廠商展現(xiàn)出了極其恐怖的制造業(yè)基因和工程化壓榨能力。
眾所周知,受制于相關(guān)禁令,國內(nèi)大模型企業(yè)往往無法像硅谷巨頭那樣,輕松買入數(shù)以十萬計(jì)的最頂尖 GPU。在 " 算力貧窮 " 的逼迫下,國內(nèi)工程師們別無選擇,只能硬生生地在工程優(yōu)化的泥沼里進(jìn)行極限微操。
為了降低單次推理的算力消耗,他們把 MoE 玩到了極致。
一個(gè)擁有上千億參數(shù)的龐大模型,在回答一個(gè)簡(jiǎn)單的日常問題時(shí),系統(tǒng)會(huì)精準(zhǔn)地只激活其中幾十億參數(shù)的 " 專家網(wǎng)絡(luò) ",讓剩下的大部分網(wǎng)絡(luò)保持休眠。這就好比一個(gè)巨大的工廠,不再是為了生產(chǎn)一顆螺絲釘而讓所有車間燈火通明,而是精準(zhǔn)控制產(chǎn)線,極大地節(jié)省了算力和電力消耗。
為了應(yīng)對(duì)百萬級(jí)超長(zhǎng)上下文帶來的顯存問題,中國工程師們?cè)诘讓涌蚣苌纤揽?,?duì) KV Cache 進(jìn)行像素級(jí)的壓縮和優(yōu)化,把龐大的數(shù)據(jù)極其嚴(yán)密地打包塞進(jìn)有限的顯存里,硬是在相對(duì)劣勢(shì)的硬件上,跑出了比肩甚至超越世界前列的超長(zhǎng)文本處理能力。
這種對(duì)底層算力近乎變態(tài)的壓榨,加上國內(nèi)極其成熟的硬件適配工程,硬生生把大模型推理的物理成本砍掉了幾個(gè)數(shù)量級(jí)。
相比之下,大洋彼岸的北美巨頭們就算想打價(jià)格戰(zhàn),也是心有余而力不足,因?yàn)樗麄円呀?jīng)被沉重的物理基建徹底鎖死了。
在這個(gè)問題上,馬斯克早在 2023 年就給出了預(yù)言:" 我的預(yù)測(cè)是,我們將從……今天的硅極度短缺變成……兩年內(nèi)的電力短缺。這大致就是事情的趨勢(shì)。"
而現(xiàn)實(shí)也確實(shí)如此,北美老舊的電網(wǎng)系統(tǒng)和漫長(zhǎng)的環(huán)評(píng)審批,根本無法支撐新建超大型數(shù)據(jù)中心的用電狂飆。昂貴的工業(yè)電價(jià)、奇高的人力運(yùn)維成本,甚至有錢都買不到的高壓變壓器,最終全都化作了高昂的沉沒成本,均攤到了每一次的 API 調(diào)用里。
換句話說,北美頂尖大模型的 " 貴 ",有一大半是替落后的基礎(chǔ)設(shè)施和高昂的本地要素買了單。
于是,當(dāng)高昂的物理成本遇上全球?qū)λ懔Φ臒o限需求,一個(gè)屬于中國 AI 的全新定位誕生了。
過去四十載,我們吃透了人口紅利和完善的供應(yīng)鏈,成為了向全球輸出實(shí)體商品的 " 世界工廠 ";而今天,隨著大模型進(jìn)入應(yīng)用落地的深水區(qū),告別人口紅利的中國,正在依托著世界頂級(jí)的特高壓電網(wǎng)、極其穩(wěn)定的低價(jià)工業(yè)電力,以及首屈一指的工程落地能力,轉(zhuǎn)型為新時(shí)代的 " 世界 Token 工廠 "。
至此,未來的全球 AI 大分工已經(jīng)非常清晰:那些海量的文檔精讀、初級(jí)代碼生成、高并發(fā)的長(zhǎng)文本翻譯和虛擬人閑聊,統(tǒng)統(tǒng)會(huì)作為 " 賽博代工訂單 ",順著海底光纜,源源不斷地路由給國內(nèi)大模型集群。
電能一旦在 AI 芯片中被轉(zhuǎn)化為 Token,它就徹底脫離了物理形態(tài)的束縛。它不像需要漫長(zhǎng)的港口裝卸和遠(yuǎn)洋貨輪運(yùn)輸?shù)漠a(chǎn)品,而是以光速通過海底光纜,在毫秒之間傳輸?shù)绞澜绲拿恳粋€(gè)角落。
因此,與其說是全世界的極客跑來 " 薅 " 國內(nèi)大模型的羊毛,不如說是中國正在以絕對(duì)的成本與基建優(yōu)勢(shì),悄然接管 AI 應(yīng)用時(shí)代的底層命脈。
當(dāng)硅谷巨頭們還在為摘取 AGI 的終極王冠不計(jì)代價(jià)地?zé)X、深陷物理基建的泥沼時(shí),國內(nèi)大模型企業(yè)已經(jīng)化身為新時(shí)代的 " 基建狂魔 ",用這源源不斷、跨越山海的廉價(jià) Token,穩(wěn)穩(wěn)當(dāng)當(dāng)?shù)刈銎鹆巳蛑悄芨锩畈豢苫蛉钡?" 水電煤 " 生意。