成為搜索產(chǎn)品經(jīng)理(1):搜索引擎

9 評論 21719 瀏覽 152 收藏 12 分鐘

本文作者從了解搜索產(chǎn)品經(jīng)理的目的出發(fā),對搜索引擎的發(fā)展進行了梳理分析。希望通過此文能夠加深你對搜索產(chǎn)品的認識。

最近和百度大搜的產(chǎn)品同學(xué)交流他的工作,交流之后,自我覺察到我對該崗位的工作認知仍不夠系統(tǒng),當(dāng)然,對一個工作崗位的認知也不是三言兩語,1個小時的溝通就能了解透徹的。

我嘗試在網(wǎng)絡(luò)上找一些資料,但發(fā)現(xiàn),網(wǎng)絡(luò)上很少有系統(tǒng)化講解這一崗位的文章。本著羅老師在2020年時間的朋友里面講到的「躬身入局」的精神,我嘗試查閱了一些枯燥無味的書籍以及文獻,并將其整理如下,與大家分享。

一、互聯(lián)網(wǎng)的發(fā)展

在討論如何成為搜索產(chǎn)品經(jīng)理之前,我們需要了解搜索引擎的發(fā)展。想要了解搜索引擎的發(fā)展,我們先將時間軸拉回20世紀(jì)90年代,回顧互聯(lián)網(wǎng)的發(fā)展。

20世紀(jì)90年代,技術(shù)與產(chǎn)品的發(fā)展,為互聯(lián)網(wǎng)的快速普及和發(fā)展做好了準(zhǔn)備。

1.1 技術(shù)上的發(fā)展

1991年,Tim Berners-Lee(蒂姆·伯納斯-李、萬維網(wǎng)的發(fā)明者)將超文本的概念引入互聯(lián)網(wǎng),同時推出www雛形、配套的HTTP傳輸協(xié)議以及相應(yīng)的Web服務(wù)技術(shù)

我來解釋一下,蒂姆·伯納斯-李做出這些發(fā)明,意味著什么。

1.1.1 超文本概念
超文本(Hypertext)簡單來說是一種可以顯示在電腦顯示器或其他電子設(shè)備的文字,其中的文字包含了可以鏈接到其他字段或文檔的超鏈接,允許從當(dāng)前閱讀位置直接切換到超鏈接所指向的文字。

從其技術(shù)上來說,超文本是指使用超文本標(biāo)記語言(HTML, Hyper Text Markup Language)編輯包含標(biāo)記指令的文本文件,通過資源定位符(URL, United Resource Location )指向其他內(nèi)容,在不同的文檔或同一文檔的不同部分質(zhì)檢建立聯(lián)系。使得使用者可以通過一個網(wǎng)址訪問不同網(wǎng)址的文件。

1.1.2 萬維網(wǎng)
萬維網(wǎng)WWW(World Wide Web)是一個通過互聯(lián)網(wǎng)訪問的,由許多互相鏈接的超文本組成的系統(tǒng)。是一個大規(guī)模的聯(lián)機式的信息儲藏所,英文簡稱Web。萬維網(wǎng)用鏈接的方法能方便地從互聯(lián)網(wǎng)的一個站點訪問另一個站點,從而主動地按需獲取豐富的信息。

5個萬維網(wǎng)站點

上圖畫了5 個萬維網(wǎng)的站點,它們可以遠隔數(shù)千里,但都必需連接在互聯(lián)網(wǎng)上。每一個萬維網(wǎng)站點都保存了許多文檔。這些文檔之間通過鏈接(link),有時候也被稱為超鏈接(hyperlink)的方式彼此相連??梢酝ㄟ^這個文檔鏈接到相隔很遠的另一個文檔,經(jīng)過一定的時延,我們的屏幕上就可以將遠方發(fā)送過來的文檔顯示出來。

萬維網(wǎng)的出現(xiàn)使得網(wǎng)站數(shù)按指數(shù)增長,所以萬維網(wǎng)的出現(xiàn)可以說是互聯(lián)網(wǎng)發(fā)展中的一個里程碑。

1.1.3 HTTP傳輸協(xié)議

HTTP協(xié)議是Hyper Text Transfer Protocal(超文本傳輸協(xié)議)的縮寫,是用于從萬維網(wǎng)服務(wù)器傳輸超文本到本地瀏覽器的傳送協(xié)議。

1.2 產(chǎn)品上的發(fā)展

1993年,第一個圖形瀏覽器mosaic誕生,網(wǎng)頁瀏覽客戶端趨于成熟。

Mosaic是第一個可以在同一個窗口顯示文本和圖片的瀏覽器。

MOSAIC

由于上述技術(shù)與產(chǎn)品的發(fā)展,互聯(lián)網(wǎng)的用戶群體也發(fā)生了變化,從開始的軍隊和高等科研院校,普及到了普通個人用戶。擴大的用戶群,為互聯(lián)網(wǎng)的商業(yè)化奠定了基礎(chǔ)。

二、搜索引擎的發(fā)展

綜合因素,導(dǎo)致互聯(lián)網(wǎng)上的信息產(chǎn)生爆炸式增長。如何從海量信息中找到滿足用戶需求的信息,成為重點。

技術(shù)與產(chǎn)品的發(fā)展,降低了人們發(fā)布信息的門檻,同時,由于用戶群體的擴增,網(wǎng)絡(luò)上產(chǎn)生了大量的信息。

為了滿足用戶從海量信息中找到所需信息的訴求,一系列搜索引擎商業(yè)公司開始建立。比如yahoo、InfoSeek、Fast Search等

搜索引擎是對Internet上的信息資源進行搜集整理,然后供用戶查詢的系統(tǒng)。包含信息采集、信息整理、與用戶查詢3個部分。

2.1 目錄搜索引擎

目錄搜索引擎是指搜索引擎的信息采集方式,也是搜索引擎的搜索方法。

目錄搜索把搜集到的信息資源按照一定的主題分門別類,建立多級目錄結(jié)構(gòu)。大目錄下面包含子目錄,子目錄下面又包含子目錄。依次原則建立多層具有包含關(guān)系的目錄。用戶查找信息時,采取逐層瀏覽打開目錄,逐步細化,就可以查到所需信息。

目錄搜索引擎中,需要以人工方式采集信息,編輯人員對信息進行查看,形成信息摘要,然后將信息放置在對應(yīng)的分類結(jié)構(gòu)中。

2.1.1 雅虎
Yahoo是當(dāng)時著名的搜索和門戶網(wǎng)站。yahoo的目錄搜索引擎。

例如,中文雅虎網(wǎng)站的目錄搜索引擎:

如果我們要在其中查找關(guān)于著名作家金庸的網(wǎng)頁,可以逐步搜索“藝術(shù)與人文” | “人文” | “文學(xué)” | “文學(xué)類別” | “小說” | “武俠” | “作者” | “金庸”,即可實現(xiàn)目的。

2.1.2 常用的中文目錄型搜索引擎

  1. 搜狐
  2. 網(wǎng)易
  3. 新浪

目錄搜索引擎的利與弊:

  • 利:由于加入了人工的因素,因此信息準(zhǔn)確、導(dǎo)航質(zhì)量高。
  • 弊:需要人工介入,維護量大,信息量少,信息更新不夠及時。

2.2 搜索引擎技術(shù)的發(fā)展

隨著信息進一步快速發(fā)展,信息呈現(xiàn)爆發(fā)式增長,目錄搜索引擎的弊端顯現(xiàn),不能好地滿足用戶需求。

在目錄型搜索引擎技術(shù)發(fā)展之后,出現(xiàn)了不同的搜索引擎技術(shù):

  • 文本檢索
  • 鏈接分析
  • 用戶中心

在這不做詳細闡述。

三、搜索引擎的目標(biāo)

搜索引擎的應(yīng)用形式簡單:用戶輸入查詢詞,搜索引擎返回查詢結(jié)果。

在這個過程中,只涉及兩個主體,用戶與搜索引擎。

搜索引擎的目標(biāo)是提供更全、更準(zhǔn)、更快的搜索服務(wù)。

在上面的3個目標(biāo)中,更準(zhǔn)是最關(guān)鍵的。

四、搜索引擎的3個核心問題

在我們來分析搜索引擎的3個核心問題之前,我們先來看一下單個搜索的簡單流程:

4.1 用戶需求

根據(jù)上圖,當(dāng)用戶輸入查詢詞,搜索引擎需要返回查詢結(jié)果。這個過程,我們可以將其視作一次人機互動。

人機互動,即人與計算機的互動,第一步是獲取用戶的意圖。

對于搜索引擎來說,這也是非常重要的。只有獲取了用戶的真正意圖,后續(xù)的信息-意圖匹配才能展開。

用戶的意圖到底是什么?

  • 不同的用戶,輸入搜索框的同一個查詢詞,有可能背后的意圖是不一樣的。
  • 同一個用戶,輸入搜索框同一個查詢詞,也有可能因為其所處場景不同,其意圖也是不一樣的。

如何識別上述的差異。這也是搜索系統(tǒng)需要解決的第一個核心問題,即此時此刻,用戶的真實搜索意圖是什么?

4.2 與用戶需求相關(guān)的信息

明確了用戶查詢的真實意圖后,搜索系統(tǒng)需要從海量的信息中,找到能夠匹配用戶需求的內(nèi)容。

搜索系統(tǒng)為用戶搜索意圖匹配關(guān)鍵信息方式的指導(dǎo)思想,還是基于關(guān)鍵詞的匹配。

當(dāng)算法系統(tǒng)搜索到包含與用戶查詢詞相同的的網(wǎng)頁,這便是搜索到的信息可能是用戶想要查找的內(nèi)容相關(guān)的最基本信號。如果是網(wǎng)頁或者文本的標(biāo)題出現(xiàn)了這些關(guān)鍵字,則表示該信息與用戶想要查找的內(nèi)容相關(guān)的可能性更大。

4.3 分辨出可信賴的信息

搜索的本質(zhì)是找到滿足用戶需求的信息。

相關(guān)性是衡量信息是否滿足用戶需求的一個指標(biāo),信息的可靠性,同樣也是衡量搜索系統(tǒng)質(zhì)量的重要指標(biāo)。

「成為搜索產(chǎn)品經(jīng)理」我會將其做為一個系列來寫,從互聯(lián)網(wǎng)的發(fā)展開始,抽絲剝繭,將我所了解的與大家分享,也期待能與大家討論,共同進步。

本篇是「成為搜索產(chǎn)品經(jīng)理」的第一篇,后續(xù)我會陸續(xù)更新~

#參考資料#

1. Tim Berners-Lee 談網(wǎng)絡(luò)的未來
2. ~[https://en.wikipedia.org/wiki/Mosaic_(web_browser)](https://en.wikipedia.org/wiki/Mosaic_(web_browser))~
3. Internet應(yīng)用基礎(chǔ)教程 | 尤曉東
4. 信息檢索 | 陳雅芝
5. 這就是搜索引擎核心技術(shù)詳解
6. 超文本傳輸協(xié)議HTTP https://blog.csdn.net/codejas/article/details/79002339
7. Google 搜索 | 搜索算法的工作方式

 

本文由 @一顆西蘭花 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 期望有個圈內(nèi)產(chǎn)品的群,大家一起學(xué)習(xí)

    回復(fù)
    1. 我也想有一個這樣的群??!

      來自北京 回復(fù)
    2. 博主創(chuàng)一個,然后拉下嘻嘻

      來自安徽 回復(fù)
    3. 那就搞起吧

      回復(fù)
    4. 大佬們 求拉!

      回復(fù)
    5. 求拉18600809134

      來自北京 回復(fù)
    6. 求拉

      來自江蘇 回復(fù)
  2. 哈哈期待長期更新

    回復(fù)
    1. 會持續(xù)更新!

      來自北京 回復(fù)