AI 搜索去魅
在人工智能飛速發(fā)展的今天,AI搜索技術(shù)被廣泛認(rèn)為是信息檢索領(lǐng)域的一次革命性進(jìn)步。然而,隨著這一技術(shù)逐漸從實(shí)驗(yàn)室走向市場,它也面臨著各種爭議和質(zhì)疑。本文旨在深入探討AI搜索技術(shù)的現(xiàn)狀、挑戰(zhàn)及其未來的發(fā)展方向。
最近不斷聽到 AI 搜索是新共識這種觀點(diǎn),但在即刻搜索“AI 搜索”,出現(xiàn)的動態(tài)翻來覆去都是我關(guān)注的那幾個人在發(fā),我無法確定是因?yàn)樾畔⒗O房還是真的新共識,得花點(diǎn)時間研究研究技術(shù)實(shí)現(xiàn)邏輯,避免焦慮。
本文主要為自己學(xué)習(xí)后整理,會包含一些其他文章的觀點(diǎn)、內(nèi)容原文,非洗稿。
一、優(yōu)質(zhì)信息源推薦
一節(jié)播客,了解基礎(chǔ)技術(shù)實(shí)現(xiàn)邏輯
https://www.xiaoyuzhoufm.com/episode/668be4c2ae8e21859a657b8a
一篇知乎文章,包含技術(shù)實(shí)現(xiàn)以及部分商業(yè)邏輯
https://zhuanlan.zhihu.com/p/708438505
一節(jié)播客以及一篇公眾號,都是來自 ThinkAny 的創(chuàng)始人,對產(chǎn)品功能規(guī)劃比較體系化并且詳細(xì)的講述
https://www.xiaoyuzhoufm.com/episode/6644d2da251bd96e6c951aa1
我做了一個 AI 搜索引擎
這節(jié)播客是對談 360 VP,關(guān)于 360AI 搜索如何做的,包含一些內(nèi)部才知道的信息量(但我發(fā)現(xiàn)播客中的內(nèi)容已被多篇文章引用)
https://www.xiaoyuzhoufm.com/episode/665eda5f63c334a2fb484a2c
若關(guān)注搜索引擎,可看這篇以及文章內(nèi)的相關(guān)推薦
搜索技術(shù)專欄
若關(guān)注 AI 搜索的一些思考,可看這篇文章,此文作者也做過多個 AI 搜索的橫向?qū)Ρ?/p>
https://mp.weixin.qq.com/s/NsvecuHT_h21d9po0c7UmQ
二、技術(shù)邏輯
技術(shù)實(shí)現(xiàn)邏輯簡單說就三步:
第一步:獲取用戶 query,并調(diào)用 Google 等搜索引擎或第三方服務(wù),獲取到搜索結(jié)果。
第二步:利用 embedding 等技術(shù)對搜索結(jié)果進(jìn)行排序、切片。
第三步:利用 RAG 技術(shù)從幾十個網(wǎng)頁中提取和 query 相關(guān)的信息,然后通過大模型來整合生成輸出。
一些補(bǔ)充說明:
1)絕大部分通用 AI 搜索并未自建搜索引擎,都是調(diào)用三方搜索引擎獲取結(jié)果,據(jù)說 360VP 說,如果要爬 5000w 的網(wǎng)頁,大概需要一兩百萬人民幣,爬回來的內(nèi)容還要自己做安全審核,現(xiàn)在通用搜索引擎的網(wǎng)頁都是千億級別,通過多年不斷爬回來的,不管從時間還是錢維度,都不是普通創(chuàng)業(yè)者能承受的。
2)搜索引擎返回的網(wǎng)頁需要做內(nèi)容需要按語義、段落、句子等方式做切分,將網(wǎng)頁內(nèi)容轉(zhuǎn)化為更小的、易于處理的信息塊,便于后續(xù)步驟中更有效地檢索和利用信息。
3)RAG 技術(shù)原理
4)Perplexity 技術(shù)路徑
5)ThinkAny創(chuàng)始人認(rèn)為的標(biāo)準(zhǔn)流程(ThinkAny 這套現(xiàn)在還未搭建完成)
6)傳統(tǒng)搜索引擎技術(shù)路線
三、三類 AI 搜索
1. 通用 AI 搜索
即支持搜索所有內(nèi)容,例如 360AI 搜索,這類搜索一般不會自建搜索引擎,可做空間相對有限,畢竟搜索結(jié)果來自于三方的搜索引擎。
據(jù)說秘塔在自建搜索引擎。
2. 垂類 AI 搜索
可做空間更大,因?yàn)閾碛刑囟I(lǐng)域的數(shù)據(jù)源和數(shù)據(jù)庫,需要把私有數(shù)據(jù)建立索引,自己要干更多的活,而不是直接去調(diào)用三方搜索引擎。
例如支持搜索小紅書、豆瓣、公眾號、日歷、地圖,甚至微信聊天內(nèi)容。
3. 企業(yè) AI 搜索
將企業(yè)的各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)都建立索引,然后提供一個查詢接口。
例如釘釘,用戶在釘釘里面可以搜索所有的聊天記錄、文檔、會議、日程、知識庫等。不僅能夠搜索到全面的信息,還能整合釘釘上的工作信息,比如整理出與誰、在哪個場景(比如哪個群、哪篇文檔、哪次會議或哪個業(yè)務(wù)流程等)的綜合信息(此段信息來自網(wǎng)絡(luò),不保真)。
還有一類全家桶型 AI 搜索,也可以歸為企業(yè) AI 搜索,因?yàn)樗m合擁有全家桶的大公司,例如 Gemini 可能支搜索 YouTube、Gmail、Google 網(wǎng)盤、GoogleMap、Google 文檔、Google 日歷等一系列產(chǎn)品里的信息,現(xiàn)在已支持下方產(chǎn)品。
這些分類一般都會有一些交叉,例如通用 AI 搜索也會有一些特定領(lǐng)域數(shù)據(jù),來增加自己差異化優(yōu)勢,例如秘塔支持播客搜索,360 改造了原來的搜索索引庫。
四、可做方向
現(xiàn)在處于百花齊放階段,各個產(chǎn)品都在通過不同環(huán)節(jié)的優(yōu)化打造出自己的獨(dú)特優(yōu)勢,例如支持搜索小紅書、播客、法律等專業(yè)搜索,結(jié)果支持導(dǎo)圖展示,支持深入研究等。
從技術(shù)實(shí)現(xiàn)邏輯三個步驟我們可以粗略劃分為三個方向。
1. 獲取結(jié)果
意圖識別,輸入改寫,支持模型切換,選擇便宜的搜索引擎,自建私有數(shù)據(jù)源,支持多模態(tài)搜索,同時進(jìn)行中英文搜索,支持深入研究……
2. 結(jié)果處理
搜索引擎結(jié)果重新排序,知識庫切片……
3. 結(jié)果輸出
支持展示摘要,支持復(fù)制,支持直接編輯,支持小紅書式 feed 流,支持左右滑動式交互,支持一鍵生成 PPT,生成導(dǎo)圖等……
短時間來看,不管哪類搜索,不管在哪個方向優(yōu)化,找到合適的用戶定位,都有機(jī)會建設(shè)起差異化優(yōu)勢。
長周期來看,我比較認(rèn)同一位即友的觀點(diǎn),AI 搜索不應(yīng)該局限在 Summary,更應(yīng)該關(guān)注整個任務(wù)鏈,即用戶意圖、用戶搜索之后會做什么,去解決用戶搜索背后的任務(wù)。
https://web.okjike.com/originalPost/6690abf699c7144fd6af42a0
五、AI 搜索主要成本
通過上面技術(shù)邏輯可看到,主要包括:搜索引擎 API,獲取私有數(shù)據(jù),私有數(shù)據(jù)存儲,調(diào)用大模型 API,訓(xùn)練成本,運(yùn)營成本等。
關(guān)于一次搜索的成本,一次調(diào)用搜索引擎的成本,多個播客中提到的并不一樣,且會和技術(shù)、時期等都影響很大,所以這里未展示出來。
六、商業(yè)模式
目前 AI 搜索商業(yè)模式主要有兩派,我將其稱為訂閱派、廣告派。
廣告派:以 360、Google 為主,堅(jiān)決不向 C 端用戶收費(fèi),還是想辦法向廣告主收費(fèi)。
訂閱派:通過次數(shù)限制,高級功能限制等方式,付費(fèi)解鎖。
七、關(guān)于 360
因?yàn)槁犃斯?jié) 360VP 聊 AI 搜索,涉及些平時很少有渠道了解的到的信息,所在這里記錄下來。
1. AI 搜索引擎根據(jù)不同業(yè)務(wù)場景,通過語義識別進(jìn)行場景分流,再根據(jù)場景的流程設(shè)計(jì),多次調(diào)用大小模型,提供最終的解決方案。比如 360VP 梁志輝曾經(jīng)表示,360 一次 AI 搜索有 9 次大模型的調(diào)用。
2. 360 將 query 的意圖識別分類做到了4000多種,每一種需求配對應(yīng)的Prompt,工作做得已經(jīng)相當(dāng)精細(xì),但 360VP 表示這仍然只是很粗顆粒度的匹配。
3. 深入回答
其他產(chǎn)品生成長文本的邏輯:先生成大綱,大綱再進(jìn)行擴(kuò)寫,但這樣可能會出現(xiàn)一些問題,例如質(zhì)量不可控,重復(fù)等。
360 的解決方案:發(fā)現(xiàn)國內(nèi)外的互聯(lián)網(wǎng)內(nèi)容是存在一些割裂的,對很多問題缺乏專業(yè)網(wǎng)站,所以解決方案是用中文搜索一遍,用英文再搜索一遍,英文搜索時則多參考一些海外網(wǎng)站。
八、本文未討論但很重要的問題
AI 搜索引擎的評價標(biāo)準(zhǔn)是什么
什么場景適合 AI 搜索,什么場景原來搜索更有優(yōu)勢,尋址?找資源?解決問題?即時問題?簡短內(nèi)容?還是生成報(bào)告式搜索?
一些垂類搜索,AI 搜索+商品,AI 搜索+旅游,AI 搜索+圖片,AI 搜索+小紅書?
PMF、TPF
AI 搜索什么最重要,技術(shù)?體驗(yàn)?搜索結(jié)果忠于原網(wǎng)頁?還是定位?
關(guān)于成本、商業(yè)模式、搜索的未來、市場格局的變化等。
九、最后建議
作為非 AI 搜索從業(yè)者,無需作為產(chǎn)品蝗蟲花太多時間關(guān)注,大致知道哪些產(chǎn)品有哪些獨(dú)特功能、獨(dú)特?cái)?shù)據(jù)源,能夠更高效解決自己生活中的問題即可。
例如秘塔可以搜索播客;
例如 kimi 原來可以搜索小紅書內(nèi)容(后來下線了);
例如 360 能夠展示導(dǎo)圖更結(jié)構(gòu)化查看;
例如通義千問可以總結(jié)播客;
例如萬知可以處理數(shù)百頁的 pdf,并生成 PPT;
例如 Gemini 可以關(guān)聯(lián) Google 全家桶,總結(jié) Gmail 郵件;
例如 GPT 支持 memory;
……
本文由人人都是產(chǎn)品經(jīng)理作者【Aaron】,微信公眾號:【曾俊筆記】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!