你有沒有過類似這樣的經(jīng)歷:在谷歌圖片搜索「沒有條紋的襯衫」,然后屏幕上鋪滿了各式各樣的 …… 條紋襯衫。
熟練使用關(guān)鍵詞搜索的人可能對這個場景已經(jīng)習以為常,但這恰恰暴露了我們每天使用的搜索引擎的問題——其最底層的運作邏輯:核心機制是匹配關(guān)鍵詞,它們識別并抓取網(wǎng)頁中的「襯衫」和「條紋」這兩個詞,但通常會忽略「沒有」這個否定詞所承載的復雜邏輯。它們匹配字符,但不理解意圖。
這就引出了一個核心問題:我們已經(jīng)進入了能夠與人工智能進行復雜對話的時代,為什么最基礎(chǔ)的信息獲取工具——搜索引擎,其核心邏輯似乎仍停留在關(guān)鍵詞匹配的階段?
極客公園最近體驗了一款叫做 Websets 的 AI 搜索工具。與谷歌搜索不同,Websets 試圖理解人類的復雜意圖。它并非為日常查詢設(shè)計,而是專門處理傳統(tǒng)搜索引擎難以完成的復雜任務,例如尋找具備特定復合經(jīng)驗的專業(yè)人士,或篩選符合多重標準的公司實體。
欄目作者召集
極客公園的新欄目「AI 上新」,將帶大家體驗最新的 AI 應用和硬件,讓你成為 AI 時代「最靚的仔」!
現(xiàn)在,我們也向所有喜歡嘗鮮和體驗 AI 的同學發(fā)出召集,只要你發(fā)現(xiàn)并體驗了新的 AI 應用或者功能,按照格式(參考案例:這款 AI 調(diào)研神器,讓我一鍵產(chǎn)生 1000 個「種子用戶」|AI 上新)向欄目投稿,在極客公園公眾號發(fā)布,不僅能獲得相應稿費,且會為你「報銷」AI 應用的訂閱費用。
同時,優(yōu)秀作者還有機會進入極客公園 AI 體驗群,獲得最新 AI 應用和工具的內(nèi)測資格,參加極客公園專屬相關(guān) AI 活動,和 AI 應用創(chuàng)始人一對一溝通。
AGI 太久,只爭朝夕,讓一部分人先 AI 起來吧!投稿、進群請掃描下方二維碼添加極客小助手微信
01
魔鏡魔鏡,誰是世界上最漂亮的女人?
我覺得魔鏡就是最完美的搜索引擎。
在童話《白雪公主》中,王后問魔鏡:「魔鏡魔鏡,誰是世界上最漂亮的女人?」魔鏡給出了一個明確的回答。這面魔鏡,可以視為理想搜索引擎的終極形態(tài):
它能理解復雜、主觀、且包含絕對性條件的查詢,并給出精準、唯一的答案。
假如我們認真評估回答「誰是世界上最漂亮的女人」這個問題的可行性,就會發(fā)現(xiàn)其難度極高。
首先,它需要構(gòu)建一個「美」的通用標準。這本身就是一個非常主觀的問題——世界上并不存在唯一的美的標準。其次,它需要一個覆蓋全球所有女性、并包含各項可量化特征的實時數(shù)據(jù)庫。
這兩個條件在現(xiàn)實中都無法實現(xiàn)。
不過,我們倒是可以借這個極端問題來觀察:不同搜索引擎,是如何應對那些模糊、帶有強烈主觀色彩的提問的。
當我向谷歌提出「誰是世界上最漂亮的女人」時,它返回了海量的鏈接。排在前面的,是各類文章、榜單和視頻,內(nèi)容涵蓋了「2024 年全球最美女性」、「全球最美女星榜單」以及一部 Netflix 的同名電影。
谷歌沒有直接回答問題,而是提供了與「漂亮」和「女人」這兩個關(guān)鍵詞高度相關(guān)、且在網(wǎng)絡上擁有高點擊率和高權(quán)重的鏈接。這是關(guān)鍵詞搜索的核心邏輯:不直接解答,而是提供最受歡迎的相關(guān)信息索引。
Websets 的應對方式則不同。由于它被設(shè)計為處理結(jié)構(gòu)化查詢,面對這樣一個開放式問題,它會試圖將其轉(zhuǎn)化為一個可執(zhí)行的、基于數(shù)據(jù)的檢索任務。
這項操作失敗了,因為正如上文所說,要回答「誰是世界上最漂亮的女人」的兩個條件在現(xiàn)實中都無法實現(xiàn)。
Websets 告訴我:
無法根據(jù)查詢內(nèi)容構(gòu)建搜索:「誰是世界上最漂亮的女人?」。請嘗試重新組織您的查詢語句,或手動選擇實體類型并在下方添加搜索條件。
這并不是一次失敗的搜索,而是一次失敗的提問。系統(tǒng)并沒有嘗試去尋找答案然后失敗了,而是在搜索開始之前,就判定你的問題無法被轉(zhuǎn)化為一個可執(zhí)行的數(shù)據(jù)查詢?nèi)蝿铡?/p>
實際上,你可以把 Websets 當成一個數(shù)據(jù)工程師,它的工作不是「理解」你的哲學問題,而是把你這句話翻譯成一行精確的數(shù)據(jù)庫查詢代碼,然后去一個巨大的、裝滿了「人」、「公司」等實體的數(shù)據(jù)庫里進行篩選。
這個對比揭示了新舊兩種搜索引擎的核心差別:
谷歌把「定義和判斷」的責任留給了用戶。它給你海量信息,讓你自己去定義誰最漂亮。它善于處理事實類查詢(「法國的首都是哪里?」),但面對需要深度理解和多重條件過濾的任務時,就會退化為提供一堆相關(guān)度不高的鏈接。
Websets 把「定義和判斷」的責任前置給了用戶。它要求你必須先把「漂亮」的定義想清楚,并轉(zhuǎn)化為一組機器能懂的、客觀的篩選指令,然后它才能為你執(zhí)行。
這種差別,來源于 Websets 運作的底層邏輯與傳統(tǒng)搜索不同。它不依賴于關(guān)鍵詞索引,而是采用一種被稱為「嵌入」(Embeddings)的技術(shù)。
可以這樣理解:
首先,它使用一個深度學習模型,讀取并理解一個網(wǎng)頁的全部內(nèi)容,包括其核心論點、上下文和語境,然后將這些復雜的「含義」壓縮成一個由數(shù)百個數(shù)字組成的獨特列表。這可以被稱為該網(wǎng)頁的「語義指紋」。
當用戶輸入一個查詢時,即便是長句或復雜問題,系統(tǒng)也會用同樣的模型將其轉(zhuǎn)換為一個代表用戶真實意圖的「語義指紋」。
搜索的過程,就變成了在數(shù)十億個網(wǎng)頁的「語義指紋」庫中,通過計算,找出與用戶查詢的「語義指紋」最相似的那些。
這個方法在技術(shù)上原生支持對復雜邏輯的理解,因為它處理的是整體含義而非孤立的詞匯,所以它能分辨「有條紋」和「沒有條紋」這兩個「指紋」之間存在的巨大差異。
02
重生之我在西貝當賈總
為了更具體地展示 Websets 對復雜語義的理解能力,我們設(shè)定一個高壓商業(yè)場景:
假設(shè)你是某餐飲連鎖品牌的 CEO,公司因「預制菜」問題陷入了一場全國性的公關(guān)風暴。你需要立即找到具備特定經(jīng)驗的專業(yè)人士來應對危機。
你向 Websets 發(fā)出指令:
「尋找在大型餐飲連鎖集團擔任過品牌公關(guān)總監(jiān)或以上職位(條件 1)、且有處理創(chuàng)始人個人言論引發(fā)的公關(guān)危機經(jīng)驗的消費品牌公關(guān)專家(條件 2)?!?/p>
Websets 返回了一份結(jié)構(gòu)化的電子表格,按照條件一和條件二在 LinkedIn 上篩選出符合條件的候選人,并按照滿足程度排列優(yōu)先級。
對于條件一,系統(tǒng)準確地從公開信息中找到了在德州公路扒房(Texas Roadhouse)、麥當勞(McDonald's)、棒約翰(Papa John's)等大型餐飲連鎖集團中,擔任「高級公關(guān)總監(jiān)」、「企業(yè)傳播副總裁」等符合條件的高管。這部分任務,它完成得相當精確。
條件二就頗有一些難度,因為「處理創(chuàng)始人個人言論引發(fā)的公關(guān)危機經(jīng)驗」是一個相對難驗證的事情。系統(tǒng)并沒有給出簡單的「是」或「否」。相反,它在右側(cè)生成了額外的驗證列,并給出了「Match」(匹配)或「Unclear」(不明確)的標注。
事實也是如此,同時滿足兩個條件的只有 Travis Dorster。他在德州公路扒房擔任傳播與公共事務高級總監(jiān)。在新冠疫情期間,他處理過創(chuàng)始人因為新冠后遺癥自殺的而引發(fā)的公共事件。
這個過程揭示了 Websets 的核心價值。Websets 在此場景下扮演的,并非信息入口的角色,而是決策支持工具。它沒有提供一份需要用戶自行研究的「閱讀清單」,而是直接交付了一份經(jīng)過初步分析和驗證的「候選人短名單」。它將原本需要數(shù)天人工篩選的工作,壓縮進了幾分鐘的機器執(zhí)行時間里。
但是,這個結(jié)果也顯示了 Websets 的局限性。列表中的信息來源 URL 全部指向領(lǐng)英(LinkedIn),存在數(shù)據(jù)源的偏向性。如果一位頂尖專家沒有詳盡的、公開的領(lǐng)英檔案,或者其關(guān)鍵經(jīng)驗體現(xiàn)在非文本的采訪視頻中,系統(tǒng)就可能無法發(fā)現(xiàn)他。
更重要的是,這種對特定數(shù)據(jù)源的依賴,也使其在處理中國市場相關(guān)查詢時效果大打折扣。中國的候選人更多使用脈脈等本土化的職業(yè)社交平臺,或者根本不使用。因此,用同樣的指令去尋找一位符合條件的中國專家,其結(jié)果的可靠性和全面性將遠低于這個案例所展示的水平。
但這并非其算法的失敗,而是其數(shù)據(jù)基礎(chǔ)的局限。
03
另一種搜索路徑
截至目前,Websets 的公司主體 Exa 聲稱其索引了「數(shù)十億」級別的網(wǎng)頁。這個數(shù)字本身雖然可觀,但與谷歌宣稱的「萬億」級別索引相比,仍有幾個數(shù)量級的差距。
這意味著 Websets 的搜索結(jié)果可能是「更精確」的,卻不一定是「最全面」的。它或許在一個經(jīng)過篩選的高質(zhì)量信息池中找到了最優(yōu)解,但用戶無法確定在更廣闊的、未被索引的互聯(lián)網(wǎng)中是否存在更好或更重要的信息。
這是一個與成本高度相關(guān)的「缺陷」。語義計算是資源密集型任務,將海量網(wǎng)頁和復雜查詢轉(zhuǎn)化為「語義指紋」并進行大規(guī)模比對,需要龐大的算力支持,其背后是高昂的硬件投入與運營開銷。
2021 年,Exa 獲得了 500 萬美元(約合 3560 萬元人民幣)的種子輪融資,他們把一半的錢,都花在了建設(shè)第一個 GPU 集群上,
另一方面,Websets 使用的「嵌入」技術(shù)本身存在信息損失的風險。這項技術(shù)的核心是將一篇長文甚至一部巨著的全部信息,壓縮成一個固定長度的數(shù)字列表。這個過程必然是有損的。
正如 Diffbot 公司 CEO Mike Tung 在面對《MIT 科技評論》時所指出的,「將一本《戰(zhàn)爭與和平》壓縮成單個的嵌入,幾乎會丟失書中所有具體的事件,最終只留下關(guān)于其類型和時代的模糊感覺」。
這意味著,該方法在把握宏觀主題上表現(xiàn)出色,但在需要無損檢索文本內(nèi)部具體細節(jié)時,存在天然的技術(shù)缺陷。
因此,Websets 及其代表的語義搜索范式,并非谷歌的替代品。它更像是一種為特定目的,如深度行業(yè)研究、人才挖掘或?qū)W術(shù)分析而設(shè)計的「重型裝備」。
它的出現(xiàn),其重要性不在于它本身能否顛覆市場,而在于揭示了搜索技術(shù)演進的另一種可能性。
04
回歸本質(zhì)——我們?yōu)槭裁匆阉鳎?/p>
谷歌(Alphabet)每年從關(guān)鍵詞搜索及其相關(guān)廣告業(yè)務獲得的收入大約在 1750 億– 2000 億美元,大致占其總收入的 55 – 60%。正是靠著這臺由全球用戶無數(shù)次點擊驅(qū)動的印鈔機,支撐起了谷歌那些近乎科幻的探索:從自動駕駛汽車(Waymo),到用人工智能(DeepMind)破解蛋白質(zhì)的折疊奧秘,甚至嘗試通過 Calico 項目延長人類的壽命。
這一切的背后,都源于那個我們每天都在使用的、看似簡單的搜索框。這就讓我們回到一個更根本的問題:如果搜索這個行為能支撐起如此龐大的商業(yè)帝國和對未來的探索,那么對我們個人而言,搜索究竟意味著什么?我們到底為什么要搜索?
要理解搜索的本質(zhì),必須先回到它的起點。人類之所以需要搜索,最底層的是一種生存本能。遠古的祖先必須在環(huán)境中搜索食物、水源、庇護所以及危險的信號,搜索是活下去的前提。
當生存需求得到基本滿足,驅(qū)動力便轉(zhuǎn)向內(nèi)在的認知延伸。人類的大腦似乎天然厭惡「信息真空」,當我們遇到知識的空白或矛盾時,會產(chǎn)生一種認知張力,我們稱之為「好奇心」。搜索,便是緩解這種張力、填補認知缺口的行為。
這些動機恒久未變,但實現(xiàn)它們的方式卻因技術(shù)而發(fā)生了兩次劇烈的變革。
在前互聯(lián)網(wǎng)時代,搜索是一種「路徑式學習」。信息被安放在物理或邏輯的結(jié)構(gòu)中:圖書館的杜威十進制分類法、百科全書的條目索引、學術(shù)期刊的卷宗。獲取信息需要遵循既定的路徑,你必須先理解這個知識體系的「地圖」,然后親自「行走」在這張地圖上。
從產(chǎn)生一個問題,到查閱卡片目錄,再到從書架上取下那本書,翻到對應的頁碼——這個過程本身就是學習的一部分。你不僅獲得了知識,更重要的是,你理解了知識是如何被組織和驗證的,抵達答案的路徑清晰可見。
互聯(lián)網(wǎng),特別是以谷歌為代表的現(xiàn)代搜索引擎,則開啟了「結(jié)果式消費」的時代。信息不再是稀缺的、結(jié)構(gòu)化的,而是過剩的、碎片化的。你無需再理解復雜的知識地圖,只需在輸入框中敲下幾個關(guān)鍵詞,算法就會在瞬間為你呈現(xiàn)一個看似最優(yōu)的結(jié)果。
它極大地降低了信息獲取的門檻,但整個搜索過程被徹底「黑箱化」了。我們得到了答案,卻完全不知道這個答案是如何從海量數(shù)據(jù)中被篩選、排序并最終呈現(xiàn)在我們面前的。構(gòu)建知識和獲取信息的差別正在于此,
更進一步,商業(yè)模式的介入不可避免地扭曲了信息的呈現(xiàn)。廣告、搜索引擎優(yōu)化(SEO)和對點擊率的無盡追逐,使得我們最終看到的,往往不是最真實或最權(quán)威的結(jié)果,而是那個最希望被我們看到的結(jié)果。
如今,生成式 AI 的出現(xiàn),并未創(chuàng)造一個全新的問題,它更像是一個催化劑,將「結(jié)果式消費」的趨勢推向了極致。AI 承諾的,是一個連「結(jié)果列表」都無需我們篩選的世界,它將直接提供那個唯一的、完美的「答案」。
很多人會幻想存在一種更理想的搜索工具,它能將控制權(quán)交還給我們,過程透明,鼓勵探究。但這或許忽略了一個根本性的事實:「黑箱」并非一個需要修復的缺陷,它本身就是被市場驗證過的、最受歡迎的功能?,F(xiàn)代搜索的整個演進史,都指向一個清晰的商業(yè)規(guī)律:對效率和便利的追求,其優(yōu)先級遠高于對過程和本源的探究。
本質(zhì)上,這是一種交易。我們用探尋過程的精力,換取了即時獲得結(jié)果的便利。這并非工具的缺陷,因為追求便利是人性的自然延伸。
關(guān)鍵在于,每個人都應該清楚地明白自己需要付出什么,可以自主做出自己的選擇,并且不為此感到后悔。
* 頭圖來源:Wikipedia
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO