大模型迎來新競(jìng)爭(zhēng),拼的居然是搜索能力
曾經(jīng),參數(shù)規(guī)模被視為衡量大模型能力的關(guān)鍵指標(biāo),然而如今,搜索能力卻成為了新的競(jìng)爭(zhēng)核心。本文將深入探討這一現(xiàn)象背后的原因,分析從“拼參數(shù)”到“拼搜索”的轉(zhuǎn)變?nèi)绾纬蔀锳I行業(yè)發(fā)展的必然趨勢(shì),供大家參考。
當(dāng)前AI大模型競(jìng)爭(zhēng)已悄然進(jìn)入新階段——當(dāng)騰訊元寶、百度等廠商宣稱部署滿血版DeepSeek大模型時(shí),也許你會(huì)發(fā)現(xiàn),問同一個(gè)問題,每個(gè)大模型給的結(jié)果截然不同。
是什么決定了它們能力的不同呢?
我的發(fā)現(xiàn)是搜索的能力,這看似是技術(shù)的倒退,實(shí)則是AI進(jìn)化的必經(jīng)之路。我們來一起探究一下。
從“造神”到“找書”:大模型競(jìng)爭(zhēng)的本質(zhì)遷移
三年前,科技圈為GPT-3的1750億參數(shù)沸騰,仿佛參數(shù)規(guī)模是通往“通用智能”的圣杯。
當(dāng)百度、騰訊、阿里紛紛宣稱部署“DeepSeek滿血版大模型”時(shí),一個(gè)殘酷真相浮現(xiàn):同樣的“大腦”配上不同的“圖書館”,輸出的知識(shí)天差地別。
- 騰訊元寶的“社交化知識(shí)”:其搜索結(jié)果嚴(yán)重傾斜微信公眾號(hào)內(nèi)容。
- 百度的“權(quán)威數(shù)據(jù)池”:依托自有生態(tài)的百科、文庫、學(xué)術(shù)資源。
- Monica的“全球化雜燴”:由于抓取Reddit、Twitter等開放社區(qū)。
騰訊元寶
Monica
DeepSeek
這印證了一個(gè)事實(shí):AI的“思考”本質(zhì)是對(duì)搜索數(shù)據(jù)的拼接藝術(shù)。參數(shù)堆砌如同給廚子塞更多面粉,而搜索質(zhì)量才是決定菜肴水準(zhǔn)的食材。
為什么是搜索?行業(yè)轉(zhuǎn)型的三大推手
這場(chǎng)從“拼參數(shù)”到“拼搜索”的集體轉(zhuǎn)向,背后是技術(shù)、商業(yè)與數(shù)據(jù)的三角博弈:
第一,算力紅利的終結(jié)
當(dāng)大模型參數(shù)突破萬億級(jí),邊際效益急劇下降。OpenAI內(nèi)部實(shí)驗(yàn)顯示,GPT-4 Turbo將參數(shù)壓縮40%但優(yōu)化檢索策略后,法律咨詢準(zhǔn)確率反升15%。
中國企業(yè)更早感受到這一變化:百度的文心大模型通過接入國家專利數(shù)據(jù)庫,在技術(shù)創(chuàng)新類問答中擊敗了參數(shù)更大的通用模型。
算力競(jìng)賽的終局,是巨頭們發(fā)現(xiàn)優(yōu)化搜索的效率遠(yuǎn)超暴力堆料。
第二,數(shù)據(jù)源的“權(quán)力游戲”
高質(zhì)量訓(xùn)練數(shù)據(jù)瀕臨枯竭(5年內(nèi)甚至更快),企業(yè)開始爭(zhēng)奪“數(shù)據(jù)主權(quán)”:
- 騰訊投資知乎、收購閱文集團(tuán),將社交與文學(xué)內(nèi)容變?yōu)锳I的“特供知識(shí)庫”;
- 百度把貼吧20年討論數(shù)據(jù)煉成知識(shí)圖譜,構(gòu)建起搜索引擎之外的“第二數(shù)據(jù)護(hù)城河”;
- 阿里通過電商平臺(tái)的商品描述與用戶評(píng)論,訓(xùn)練出能精準(zhǔn)推薦穿搭的AI導(dǎo)購。
這些動(dòng)作的本質(zhì),是將搜索數(shù)據(jù)源從“公共資源”變?yōu)椤八接蓄I(lǐng)地”——就像中世紀(jì)領(lǐng)主圈占土地,數(shù)據(jù)疆界正在重塑AI勢(shì)力范圍。
第三,精準(zhǔn)搜索的商業(yè)溢價(jià)
在醫(yī)療、法律等專業(yè)領(lǐng)域,通用大模型的“幻覺”問題尤為致命。而定向搜索高信源數(shù)據(jù)成為破局關(guān)鍵:
- 騰訊元寶接入微信公眾號(hào)中三甲醫(yī)院賬號(hào)的內(nèi)容,使糖尿病飲食建議的準(zhǔn)確率提升34%;
- 百度文心調(diào)用裁判文書網(wǎng)公開判例,讓法律咨詢的條款匹配度達(dá)到91%;
- 甚至小眾的科研AI工具,通過專攻arXiv論文庫檢索,在文獻(xiàn)綜述生成上超越了ChatGPT。
這讓企業(yè)意識(shí)到:垂直場(chǎng)景的競(jìng)爭(zhēng)力=搜索精度×領(lǐng)域數(shù)據(jù)濃度。
最后的話
現(xiàn)在的大模型比賽換玩法了:以前比誰家腦子大(參數(shù)多),現(xiàn)在比誰更會(huì)查資料。搜索技術(shù)就像漏斗——篩出好數(shù)據(jù),AI才能給出靠譜答案。
騰訊元寶總愛翻微信公眾號(hào),百度只信自家百科文庫,這就好比兩個(gè)學(xué)生:一個(gè)寫作業(yè)全靠網(wǎng)紅筆記,另一個(gè)只啃教科書,答案當(dāng)然不一樣。
未來拼的不是造更大的AI,而是看誰能建更聰明的“資料庫管理員”——既得知道去哪找權(quán)威信息,還要會(huì)挑重點(diǎn)。說到底,AI變聰明的新秘訣就一條:喂它干凈的好數(shù)據(jù),比硬塞海量垃圾信息管用十倍。
希望帶給你一些啟發(fā),加油!
作者:柳星聊產(chǎn)品,公眾號(hào):柳星聊產(chǎn)品
本文由 @柳星聊產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!