它,想給AI搜索醒醒腦

1 評論 4156 瀏覽 4 收藏 20 分鐘

在人工智能不斷演進的今天,一個來自加利福尼亞州舊金山的實驗室Exa,以其前沿的搜索引擎技術(shù),吸引了全球科技界的目光。本文將深入探討Exa的創(chuàng)新之路,分析其技術(shù)特點和市場潛力,并展望這一技術(shù)如何為AI搜索領(lǐng)域帶來革命性的變革。

前兩天,有個融資新聞傳到了國內(nèi)。

地址在加利福尼亞州舊金山,日期是7月16日。一個專門研究如何在人工智能時代改進搜索的實驗室,Exa,宣布:融到2200美元。

這筆錢Lightspeed Venture Partners帶頭。還有英偉達(dá)(NVIDIA)的風(fēng)險投資部門和Y Combinator也參與投資;目的是幫助Exa快速發(fā)展,打造一個全新的搜索引擎,專門服務(wù)于人工智能。

什么?幫助人工智能,打造全新搜索?是的,你沒聽錯。他們要給人工智能加個“外腦”,或者說,在搜索功能上加點新東西,讓AI搜索更強進。

這讓我很好奇,Exa到底是個什么樣的公司?有什么特別的技術(shù)?創(chuàng)始團隊背景是怎樣的?為什么這么多資本投他們?

帶著問題,我進行一番探索,發(fā)現(xiàn)一些不同的線索。

01

首先,你可能不信,Exa創(chuàng)始人很年輕,思想很前衛(wèi)。

首席執(zhí)行官Will Bryk現(xiàn)在27歲,聯(lián)合創(chuàng)始人Jeff Wang才26歲。不過,你可能會驚訝,這兩位好朋友在ChatGPT推出之前就已經(jīng)創(chuàng)辦了這家公司。

那么,這家公司是做什么的呢?

Exa公司位于舊金山,是Cerebral Valley AI社區(qū)的一部分。這是一個國外專注于人工智能、機器學(xué)習(xí)、自然語言處理和數(shù)據(jù)科學(xué)的社區(qū)。

最開始,Exa構(gòu)建一個工具,這個工具能讓人工智能模型做類似網(wǎng)絡(luò)搜索的事情。這主要包括了從互聯(lián)網(wǎng)上查找信息,以及幫助客戶回答問題的人工智能聊天機器人,還有一些公司希望用來策劃培訓(xùn)數(shù)據(jù)。

創(chuàng)始人早些年花100萬美元買了GPU,他們使用矢量數(shù)據(jù)庫和嵌入技術(shù)(這不是基于經(jīng)典Transformer的大型語言模型),開始建立一個機器學(xué)習(xí)模型,模型被訓(xùn)練來本能地理解鏈接,而不是單個的詞或句子。

Exa公司的創(chuàng)始人Will Bryk,解釋了他們的搜索引擎和普通搜索引擎有什么不一樣。他說:

通常AI搜索,像變形金剛,會猜你接下來可能會說什么單詞;但他們的搜索引擎不是猜單詞,而是猜鏈接,也就是你瀏覽網(wǎng)頁時可能會點開的下一個網(wǎng)址。

我們是看大家在網(wǎng)上分享什么鏈接,來訓(xùn)練搜索引擎,所以,是一種全新的方式,不同于一般的搜索引擎只根據(jù)關(guān)鍵詞來找東西。

就像大型語言模型通過提供最有可能的下一個單詞來完成句子一樣,Exa的系統(tǒng)會提供最有可能的鏈接(可能是十個)。但是,你不會在里面看到像在普通搜索引擎中那樣的搜索引擎優(yōu)化的垃圾信息,或者那些諷刺的、由人工智能生成的無用內(nèi)容。

Jeff Wang說:

公司最初目標(biāo)不是為了服務(wù)人工智能,而是,想探索怎樣利用人工智能來打造更好的搜索。

Exa之前有一個免費版本,允許任何人有限地嘗試使用我們的搜索引擎,除此之外,還有幾個不同等級的付費服務(wù)。這樣,Exa能賺一些錢,除了運行自己的 GPU 集群外,Exa 的產(chǎn)品托管在 AWS 上。

結(jié)果,當(dāng)ChatGPT爆火之后,很多人工智能公司開始向Exa請求他們的搜索引擎API版本,以便能將用到自己的模型中去。

之后事情就一發(fā)不可收拾了,現(xiàn)在已經(jīng)有數(shù)千名開發(fā)者在使用我們的產(chǎn)品,客戶也越來越多,從那以后,Exa獲得了極大的關(guān)注。

例如:

Databricks就是Exa的一個大客戶,它主要用Exa來為自己的模型培訓(xùn)計劃尋找大型的訓(xùn)練數(shù)據(jù)集。

不難看出,這家公司并不像谷歌、Perplexity這樣基因的公司,它們專注開發(fā)針對人工智能需求的技術(shù),一開始用戶群體是B端、針對AI搜索創(chuàng)業(yè)有需求的團隊。

那么,Exa公司的創(chuàng)立的原因是什么呢?

創(chuàng)始人們對現(xiàn)在的互聯(lián)網(wǎng)環(huán)境很不滿意。他們覺得,互聯(lián)網(wǎng)本來是個找信息很方便的好地方,現(xiàn)在因為大家爭搶注意力變得越來越商業(yè)化,也變得扭曲了。

尤其是谷歌搜索,在谷歌,有一整個行業(yè)叫做搜索引擎優(yōu)化(SEO)。這個行業(yè)目的,是用各種技巧讓網(wǎng)頁在搜索結(jié)果里排名靠前,這樣就能吸引更多人的注意。

結(jié)果就是,哪怕你只是簡單地想知道“感冒了怎么辦?”你也會看到一大堆網(wǎng)站在爭搶排名,而不是真的提供最有用的信息。

02

嗯,的確是不錯的想法。我?guī)е闷嬉策M行了測試。

打開官網(wǎng),映入眼簾的幾個英文:The web, organized(AI的搜索引擎),顯然,搜索引擎不只是為個人使用,更多是為AI搜索服務(wù)的;實際上個人也可以用。

我搜的第一個問題是:Exa和Perplexity有什么不同?

它并沒有像其他AI搜索軟件那樣,直接給我答案,而是展示一堆列表;在Exa的搜索結(jié)果里,左側(cè)有固定類別的分類,我可以按照PDF、GitHub、公司、新聞、紙媒、推文、播客帖子等來篩選信息源。

當(dāng)我點擊“公司”類別后,就能看到來自各種公司網(wǎng)站的相關(guān)信息。

比如:

它給我顯示一條9個月前Perplexity官網(wǎng)的幫助文檔。點進去后,里面有關(guān)于Perplexity的介紹,說Perplexity是獲取信息的最快方式,是一個工具,能讓全世界的人用自己的語言或在自己的水平上學(xué)習(xí)任何東西。

我也可以不點進去,直接把鼠標(biāo)懸停在標(biāo)題上,右側(cè)就會出現(xiàn)一個摘要,自動形成一個總結(jié)文檔。我還可以直接與這個文檔進行交流。和其他AI搜索一樣,下面還推薦了幾個相關(guān)問題。

進行多輪測試,可以肯定,只要點擊“新聞”,顯示出來的都是引用自各大媒體的報道,比如華爾街新聞、TechCrunch等。

如果想看博客帖子,點擊這一欄后,顯示的是社區(qū)論壇博主們的思考,有來自于知名平臺的,也有來自個人網(wǎng)站的。我隨機點擊幾個,發(fā)現(xiàn)博主們內(nèi)容質(zhì)量很高,幾乎都是各垂直領(lǐng)域的專家。

此外,Exa還可以按一天、一周、一個月、過去一年或任何時間篩選信息源的發(fā)布時間。

它還增加了域過濾器和短語過濾器:

域過濾器可以限定搜索范圍,只在特定的文檔字段或域中進行搜索,這可以提高搜索的精確度和效率。

短語過濾器,則用于處理和匹配特定的詞組或短語,它會考慮詞序和詞之間的距離,確保搜索結(jié)果,更精確地匹配用戶的查詢意圖。

不過,一個缺點是并沒有給我直接的答案??赡苁且驗殛P(guān)于Exa的報道本身就較少,所以它沒法自己創(chuàng)造內(nèi)容。

這真的很技術(shù)思維,并不像谷歌、Perplexity用戶體驗感那么強。

我也遇到一個問題,當(dāng)我搜“IPD是什么”時,它沒有給我想要的答案。我意識到問題太過簡單,于是我重新提問,加上IPD(Integrated Product Development集成產(chǎn)品完整表達(dá),它才給我過濾掉那些和我意圖不一樣的內(nèi)容。

它的索引能力真的很強。

9年前、16年前的內(nèi)容都可以給我找出來,這些內(nèi)容也并非完全可以使用,點進去看,明顯有些遜色,而且居然有一些是賣書、賣專欄的產(chǎn)品廣告,它們在廣告中加了IPD方面的內(nèi)容,外加上網(wǎng)站權(quán)重比較高,就被索引出來了。

據(jù)此,從個人使用感受來看:

Exa的優(yōu)點在于:

  1. 找資料利器,索引能力強、篩選條件多,非常適合技術(shù)人員使用,不適合小白用戶。
  2. 還原過程指標(biāo),把結(jié)論放在單篇文章上,而不是一個問題上。

缺點則是:

  1. 無法給出直接答案,我一個個篩選信息源,點擊查看;
  2. 有些信息源不準(zhǔn)確,這可能和我選擇的篩選條件有關(guān)。

03

緊接著,我又拿Perplexity進行測試。Perplexity更友好。

從Perplexity的介紹里,我可以明白:

Exa主要為AI系統(tǒng)和開發(fā)者設(shè)計,它的工作給AI提供需要的知識和數(shù)據(jù)。而Perplexity則是給普通人用的搜索引擎,提供問答式的搜索體驗,所以,這兩個是完全不同的產(chǎn)品。

除此外,Exa定位為AI搜索的中間層,提供API服務(wù),整合世界知識為AI系統(tǒng)提供數(shù)據(jù),Perplexity是一個端到端的搜索引擎,直接給用戶提供摘要。

我詳細(xì)查閱了一下,Exa使用Embedding技術(shù)來理解語義,能搜索Twitter、GitHub、Reddit等多種數(shù)據(jù)源;而Perplexity則采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等語言模型。

那么,它們二者有什么區(qū)別呢?

你可以想象一下,你有一堆玩具,每個玩具都有它的名字,比如“小汽車、洋娃娃、積木”?,F(xiàn)在,要把這些玩具的名字告訴一臺機器,讓機器理解并記住它們。但問題是,機器不懂我們的語言,它只懂?dāng)?shù)字。

怎么辦?

Embedding技術(shù)像一個魔法轉(zhuǎn)換器,它可以把“小汽車”這樣的名字變成一串?dāng)?shù)字,比如[1, 2],把“洋娃娃”變成另一串?dāng)?shù)字,比如[2, 3]。

這樣,每個玩具的名字就都對應(yīng)一串?dāng)?shù)字,機器就能通過數(shù)字來“理解”和區(qū)分不同的玩具了。

更神奇的是,這個技術(shù)還可以讓相似的玩具有相近的數(shù)字。比如,“小汽車和卡車”可能都是車,所以它們的數(shù)字會比較接近,而和“洋娃娃”的數(shù)字就會遠(yuǎn)一些。

所以,Embedding技術(shù),是幫助機器通過數(shù)字來理解和記住各種信息的一種方法。

而GPT-4o API和Claude-3不一樣,它們本意上是已經(jīng)被開發(fā)好的一個語言模型,Perplexity只是把不同的模型整合起來,去做寫文章、回答問題、聊天的動作。

所以,很明顯,Embedding技術(shù)和GPT-4o API、Claude-3的最主要區(qū)別是:

前者能把詞匯、圖片等變成一串?dāng)?shù)字,這樣更容易讓計算機學(xué)習(xí)和使用;后者更貼近用戶,幫助我在網(wǎng)上找到你需要的信息,比如新聞、圖片或視頻等。

因此,我們可以得到一個結(jié)論:Exa是一個為AI和開發(fā)者服務(wù)的高級搜索工具,它更注重于數(shù)據(jù)的深度整合和技術(shù)處理;Perplexity是面向普通用戶的搜索引擎,注重直接好用的便捷性,兩者不是一個賽道。

04

關(guān)于Embedding技術(shù),中國也有不少研究者在討論。

我查了一下:

百度智能云的一篇文檔里,深入討論了Embedding技術(shù)在推薦系統(tǒng)中的應(yīng)用。

這包括怎樣更好地推薦用戶和商品,還有序列推薦和知識圖譜的應(yīng)用。這些技術(shù)把零散的數(shù)據(jù)變成連續(xù)的向量(就像一串串?dāng)?shù)字),提高了推薦系統(tǒng)的表現(xiàn)和準(zhǔn)確度。

還有一個技術(shù)博客的作者,在他的文章中也詳細(xì)說明Embedding技術(shù),在58同城房產(chǎn)相關(guān)業(yè)務(wù)和推薦場景中的實際應(yīng)用[1]

李乾坤,在GitHub博客上也詳細(xì)描述Embedding技術(shù)的原理和它在自然語言處理中的應(yīng)用。像Word2Vec和GloVe這樣的模型,就是通過把單詞變成高維的向量,來捕捉單詞之間的語義關(guān)系[2]。

我不是太懂,把它羅列出來,供你參考,相信這門技術(shù)在國內(nèi)也能很快用到其他場景上。

那么,我們是否可以說:這項技術(shù)在迭代傳統(tǒng)以整合信源為中心的AI搜索引擎呢?我不知道,至少覺得它具備一定的市場需求。

比如:

前一段時間有篇文章特別火,叫《中文互聯(lián)網(wǎng)是否會消失》,拋開爭議就整體而言,大家認(rèn)為中文互聯(lián)網(wǎng)內(nèi)容并沒有迅速消失,相反,中文內(nèi)容在全球范圍內(nèi)的比例在增長。

根據(jù)W3Techs數(shù)據(jù),截止到2024年7月,中文內(nèi)容在全球網(wǎng)站上的使用比例為1.5%,中文和印地語內(nèi)容的比重都增加了超過10倍(注:W3Techs一家專門提供數(shù)據(jù)分析的機構(gòu))。

這說明什么?互聯(lián)網(wǎng)數(shù)據(jù)并沒有消失,我們要特定工具把它給找出來。

國外風(fēng)險機構(gòu)Lightspeed,投資完Exa后,分享了一些關(guān)于未來智能體網(wǎng)絡(luò)的想法。他們提到:

最近,一直在思考一個全新的,支持AI智能體的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這種網(wǎng)絡(luò)會和我們?nèi)祟愑玫木W(wǎng)絡(luò)不一樣,因為AI智能體和人類需要的東西不同。

為什么需要智能體網(wǎng)絡(luò)呢?

  1. AI智能體要獲取最新且準(zhǔn)確的信息來完成任務(wù)。雖然現(xiàn)在的大型語言模型能記住很多數(shù)據(jù),但,這些數(shù)據(jù)很快就會過時,而且不容易找到需要的信息。
  2. 雖然現(xiàn)在有了檢索增強生成(Retrieval-augmented generation)技術(shù),它幫助大型語言模型能夠處理訓(xùn)練數(shù)據(jù)之外的信息,但這些通常都是私人或內(nèi)部的信息。

理想情況下,AI智能體應(yīng)該能通過API檢索整個公共互聯(lián)網(wǎng)的信息,這就要新的基礎(chǔ)設(shè)施——也就是智能體網(wǎng)絡(luò)。

但是,建設(shè)這樣的網(wǎng)絡(luò),面臨很多技術(shù)和經(jīng)濟上的挑戰(zhàn)?,F(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施,主要是為了服務(wù)廣告商,而不是用戶,傳統(tǒng)搜索引擎更關(guān)注廣告點擊和展示,這就導(dǎo)致了“SEO”產(chǎn)業(yè)興起。

內(nèi)容質(zhì)量并不總是最重要的。

比如:當(dāng)你搜“精通Go語言的軟件工程師”,理想搜索引擎,應(yīng)該給你工程師的個人網(wǎng)站或社交媒體資料,而不是一些討論Go語言的網(wǎng)頁。

好的搜索引擎應(yīng)該能理解“實體”的概念,而不只是泛泛地討論一些話題。所以,AI想要的搜索結(jié)果,可能和人類需要的不一樣。

AI用的搜索引擎不應(yīng)該顯示廣告,應(yīng)該直接顯示結(jié)果,不幸的是,現(xiàn)在人類和AI使用的是同樣的搜索結(jié)果,這種“一刀切”的方式很糟糕。

Exa 的用武之地就在這,它是一個為AI智能體,專門設(shè)計的基于嵌入技術(shù)的搜索引擎。

它獲取并索引網(wǎng)絡(luò)上的最新內(nèi)容,并通過一種獨特的“鏈接預(yù)測”模型,通過搜索API,把數(shù)據(jù)提供給基于大型語言模型的應(yīng)用程序;這個模型被專門調(diào)整,以便更好地理解搜索查詢并從索引中返回相關(guān)鏈接。

這好比:當(dāng)你向圖書管理員詢問關(guān)于某個主題的書時,他不僅迅速找到了與這個主題相關(guān)的書,還確保書正是你現(xiàn)在最需要的那一本。

有了 Exa,互聯(lián)網(wǎng)變得又新又有趣,AI需要一種新的方式來訪問信息,它正在執(zhí)行和設(shè)計適用于AI和互聯(lián)網(wǎng)信源革命的任務(wù)。

是不是很有趣?簡單講:它想給AI搜索引擎“洗個腦”,做中間部分,左手深度檢索信源后,右手投喂給大語言模型,讓它更聰明、更高效。

總結(jié)

中國,什么時候有這樣的公司?

很快了,值得期待。最起碼,這兩位年輕人的創(chuàng)新想法,讓人們看到了新的機會點。

參考:

[1]. DataFunTalk. (2020, June 16). Embedding 技術(shù)在房產(chǎn)推薦中的應(yīng)用. from:https://www.infoq.cn/article/hcii9dfu4aaat8se2id9

[2]. Li, Q. (2022, March 2). Embedding的原理及實踐. from:https://qiankunli.github.io/2022/03/02/embedding.html

本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】,微信公眾號:【王智遠(yuǎn)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Pixabay,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 沒想到搜索借助ai的東風(fēng),又成了主角

    來自浙江 回復(fù)