算法如何應用,思路都在這

0 評論 1687 瀏覽 3 收藏 8 分鐘

本文深入探討了算法在不同領域的應用方法和背后的思考邏輯。作者夏師傅通過豐富的案例分析,揭示了算法如何助力產(chǎn)品決策、優(yōu)化業(yè)務流程,并提供了實用的策略和技巧。無論您是技術專家還是對算法應用感興趣的讀者,本文都將為您提供全新的視角和啟發(fā),希望對你有所幫助。

策略產(chǎn)品當中涉及到大量算法模型的應用,比如召回,排序策略的設計,除了規(guī)則邏輯之外,算法模型是很多體量比較大的業(yè)務必備的。所以有必要跟大家聊一下實際工作中,我們是如何利用算法模型來解決業(yè)務問題的。

了解這些也有助于大家熟知算法工程師的工作流程大概是什么樣的,降低溝通成本。

算法模型解決業(yè)務問題整體上可以分為如下幾步,接下來我將分別講一下每一步具體做點什么。

 

01 問題定義

不能為了上模型而使用模型。

所以首先,我們需要明確我們要解決的問題是什么?

問題可以是具體的用戶需求,比如:用戶希望看到自己感興趣的商品排到前面;也可以是目前業(yè)務面臨的問題,比如:目前平臺GMV滲透率高的品類曝光流量不足,這些其實都是問題。但是對于使用算法模型來解決的話,關鍵點在于如何把這個問題變成算法模型能理解,能解決的問題。

因此這里面必然涉及到一個如何從感性的問題描述轉變?yōu)橐粋€可以讓模型去理解和預測的問題。

這就到了第二個環(huán)節(jié):問題建模。

02 問題建模

問題建模的關鍵其實就兩個:業(yè)務指標定義和模型預測目標定義。

業(yè)務指標定義即根據(jù)當前業(yè)務核心場景去定義核心業(yè)務指標,這塊涉及到一些數(shù)據(jù)指標體系搭建。

模型預測目標主要用于根據(jù)該目標去設定模型的收斂目標,也就是模型要預測什么,輸出什么值。典型的比如ctr預估,實際上就是輸出了ctr這個值。

在問題建模階段,還有兩個重要的事情:樣本選擇和交叉驗證。

簡言之,我們從原始數(shù)據(jù)(日志)當中選擇跟當前模型預估指標相關的樣本,然后把這些樣本分為訓練集和測試集,然后通過交叉驗證的方法對模型進行訓練和評估。

這塊不得不提一下關于模型評估的指標。指標的分類有很多,最常見的其實就是準確率,召回率,AUC曲線等,包括常見的NDCG是對排序模型的衡量關鍵指標。

03 特征工程

完成了問題定義和問題建模,接下來就進入了很關鍵的特征工程,從大量的數(shù)據(jù)當中進行特征抽取,核心目的是為了將特征輸入給模型,讓模型從數(shù)據(jù)中學習規(guī)律。

關于如何做特征選擇,再實際工作當中,最為關鍵的是下面兩個方面:

第一點好理解,特征是為目標服務的,因此選擇出來的特征必須能夠表征目標;第二點的意思是這個特征要在不同的物品之間有相當明顯的差異。比如銷量,有的高,有的低;評價,有的是100%好評,有的是80%好評,這些都可以稱之為特征。

但是,如果你們業(yè)務的基本上99%的物品好評率都在100%,那基本上這個特征就不用加了。

有差異才有區(qū)別,有區(qū)別才能作為一個決策的因素。

什么情況下我們需要進行特征選擇?

訓練數(shù)據(jù)包含許多冗余或無用的特征,移除這些特征并不會導致丟失信息。

其中冗余是指一個本身很有用的特征與另外一個有用的特征強相關,或它包含的信息能從其它特征推演出來;特征很多但樣本相對較少,也就是某一個維度的信息數(shù)據(jù)量太少,覆蓋度較低。

關于特征選擇的4個步驟:

以下是模型特征選擇的4個步驟,策略產(chǎn)品經(jīng)理以了解為主:

  1. 產(chǎn)生過程:產(chǎn)生特征或特征子集候選集合;
  2. 評價函數(shù):衡量特征或特征子集的重要性或者好壞程度,即量化特征變量和目標變量之間的聯(lián)系以及特征之間的相互聯(lián)系。為了避免過擬合,可用交叉驗證的方式來評估特征的好壞;
  3. 停止準則:為了減少計算復雜度,需設定一個閾值,當評價函數(shù)值達到閾值后搜索停止;
  4. 驗證過程:在驗證數(shù)據(jù)集上驗證選出來的特征子集的有效性。

04 模型選擇

當我們把上面的事情確定之后,接下來就到了關鍵的模型選型的環(huán)節(jié)。大家都知道,具體的算法模型其實有很多種,不同的模型有很大差別,使用場景不同,能夠處理的特征也有很大差異。

比如對于協(xié)同過濾,常見的usercf和itemcf兩種,還有一些基于兩個基本的協(xié)同過濾模型的變種,比如i2i,頻繁二項集等。那我們就需要思考什么樣的場景比較適合usercf,什么樣的場景比較適合itemcf。

另外,雖然這些模型都能做到根據(jù)用戶行為數(shù)據(jù)去進行個性化推薦的目標,但是具體的落地過程其實是大相徑庭的。當我們經(jīng)過特征工程得到一份高質量的特征之后,還需要考慮哪個模型能夠更準確地從數(shù)據(jù)中學習到相應規(guī)律,從眾多模型中選擇最佳的模型。

05 模型融合

正如上面說的,其實不同的模型有不同的應用場景,所以一般線上通常是含有多個模型,最大化利用每個模型的優(yōu)勢,進而達到目標收益最大化,而模型融合以后得結果其實就是線上最終展示出來的結果。

以上就是關于算法是如何解決業(yè)務問題的介紹,希望大家能夠明白一點,不要為了用算法而用算法,也不要認為算法就一定能更好的解決問題,關鍵點不在這,而是基于業(yè)務的實際情況去決定到底使用算法還是規(guī)則,使用什么樣的算法。

本文由人人都是產(chǎn)品經(jīng)理作者【夏唬人】,微信公眾號:【策略產(chǎn)品夏師傅】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!