策略產品經理:模型訓練常知的六種演算法
更新于:2025-03-26 14:55:45

策略產品經理需要瞭解一定的演演演算法邏輯,以便推進工作。這篇文章里,作者介紹了六種常見演算法,並探討了產品設計模型演算法的選擇,一起來看。

一、工業界常用演算法

作為與演算法同學對接的策略產品經理,我們必須對演算法同學常用的演演算法邏輯有所瞭解,以下我將介紹相關的底層演演算法邏輯,以及它們所適用的任務類型。

1. 邏輯回歸(logistics regression,LR)

模型訓練類別:監督學習演算法。

適用問題任務:分類。

演算法特色:複雜度低,可解釋性強,線上效果好。

函數公式:

y 表示模型預估值,取值範圍 [ 0,1 ] ,x 表示輸入模型的特徵值,可以理解為最終使用的一系列特徵對應的具體數值;T 表示矩陣的轉置,無實際數值意義;w 表示模型為每一個特徵訓練出的對應參數。以 CTR 預估模型為例,邏輯回歸模型輸出的預測值代表的業務意義是使用者對物料的興趣度。

另外,雖然線性回歸(linear regression)與邏輯回歸簡稱均為 LR,但是線性解決回歸問題,邏輯解決分類問題,逻辑回歸模型包含线性回歸模型,便是線性回歸模型。

2. K 近鄰演算法(K-nearest neighbor,KNN)

模型訓練類別:監督學習演算法。

適用問題任務:分類、回归。

K 的取值是關鍵因素,需要用交叉驗證法(測試集 + 訓練集)驗證。

注:使用 KNN 演算法的思想是每一位策略產品經理都需要瞭解的。

分類任務:

1. 計算待分類點(黑叉)與其他已知類別點的距離。

2. 按距離正排,佔比最好的類別即為待分類點的類別,計算方法有①歐式距離、②曼哈頓距離。

回歸任務:

整體思路與分類任務一致,預測點的值等於離預測點最近 K 個點的平均值。

總結:

KNN 演算法沒有模型訓練緩解,而是直接應用,所以 KNN 演算法在訓練環節的時間複雜度為 0,但是在應用環節,隨著樣本量陡增、複雜度的增加,在對於效率要求極高的場景下無法使用 KNN 算法。

3. 貝葉斯模型(Bayes Model)

模型訓練類別:監督學習演算法。

適用問題任務:分類。

模型方向:“逆概率”問題,用於郵件分類,天氣預測。

4. K 聚類演算法(K-Means)

模型訓練類別:無監督學習演算法。

適用問題任務:聚類。

K-Means 沒有模型訓練環節,利用啟發式反覆運算,K 值的選擇由業務場景確定,如無需求,可試數。

步驟:

將所有樣本分成幾個簇,即設定 K 值。

模型重新計算新簇質心,再次歸類。

不斷重複、優化。

5. 決策樹(decision tree)

模型訓練類別:監督學習演算法。

適用問題任務:分類、回归。

核心思想:根據有區分性的變數查分數據集。

基本框架要素:

1. 根節點:包含所有原始樣本數據,會被進一步分割成多個子集合。

2. 決策節點和葉子節點:葉子節點“不再被分割”,但可以分,決策節點根據特徵繼續分割。

3. 父節點與子節點:被分割成子節點的節點被稱為子節點的父節點。

決策樹種類: ①分類樹 ②回歸樹

決策樹效果評估:選擇哪些特徵組合構建效果最好呢?

分類樹:基尼不純度評估,不純度越低,效果越好。

回歸樹:方差指標評估,方差越小模型擬合效果越好。

決策樹關鍵參數:

節點拆分包含的最小樣本數:過大欠擬合,過小過擬合,需要交叉驗證來調參。

葉子節點包含的最小樣本數:防葉子節點太多,對於正負樣本不均的情況可以分小。

決策樹最大深度:交叉驗證解決。

總體葉子節點數量控制。

整體分裂中使用最多的特徵數:根據建模經驗,開根號的特徵數為最佳特徵數。

6. 深度神經網路(deep neutral network)

網上有很多資料介紹,可以自己找一下。

簡單介紹,深度學習中的“深度”指的是其 hidden layer,在輸出層和輸入層中,隱藏層越多深度越大。深度學習與常規神經網路演算法的區別主要體現在訓練數據、訓練方式、層數方面。

目前在產品策劃領域,深度學習可以解決安防領域、零售行業的視覺識別問題,也有如 ChatGPT 等的自然語音辨識、語言處理等應用,實體企業如智能駕駛中的地位正在提升,其最早被應用與搜光腿的演算法模型中。

二、產品設計模型演算法的選擇

對於同種業務場景可能使用多種演算法,然而作為產品經理,我們需要重點考核模型的兩大要點:模型預測的準確性和模型的可解釋性。

對於金融風控等受到強監管的場景,我們更偏向於使用具有可解釋性的模型,而對於搜廣推等產品體驗場景,我們更看重產品的使用效果,以下是各類演算法的使用效益分布圖:

題圖來自 Unsplash,基於 CC0 協定

什麼是機器學習?
什麼是機器學習?
2025-03-28 08:01:21