快手賣pos機,因果推斷在快手推薦場景的應用探索

新聞資訊2 | 2023-05-28 12:41 | 投稿人：pos機之家

網上有很多關于快手賣pos機,因果推斷在快手推薦場景的應用探索的知識，也有很多人為大家解答關于快手賣pos機的問題，今天pos機之家(www.www690aa.com)為大家整理了關于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

快手賣pos機

導讀：推薦系統不可避免地存在偏差（bias）。一個用戶無論是在刷視頻、看資訊、還是在線購物等基于推薦的場景中作出的選擇通常會產生各種偏差。比如用戶會偏向點擊位置靠前的內容，也會偏向于點擊流行度比較高的內容；另外由于推薦系統給用戶推薦的候選內容只占整體內容的一小部分，而用戶的點擊行為都是基于這樣一小部分候選集進行的，所以這會產生選擇偏差。

添加小助手鏈接：https://wpz.h5.xeknow.com/s/3udZfR

1.免費資料領取：點擊上方鏈接添加小助手回復【大數據合集】免費領取《大數據典藏版合集》

回復【算法合集】免費領取《互聯網核心算法合集》

2.添加交流群：點擊點擊上方鏈接添加小助手回復【大數據交流群】加入“大數據交流群”

回復【算法交流群】加入“算法交流群”

與此同時，用戶交互日志是模型訓練的基礎，直接基于這部分觀測日志數據作為訓練模型的樣本會導致訓練的模型存在bias，導致給用戶推薦的內容同樣存在bias，進而整個系統會形成bias閉環，在影響用戶體驗的同時，不利于系統生態的建設。

因此我們嘗試結合因果推斷來解決推薦系統中的bias問題，本次分享的主題是因果推斷在快手推薦場景的應用探索，旨在通過識別變量之間的因果關系來進行糾偏。

具體將圍繞以下幾點展開：

背景介紹最新研究進展因果推斷在快手的應用總結與思考

01背景介紹

首先和大家分享下因果推斷的背景。

添加圖片注釋，不超過 140 字（可選）

首先我們介紹一下因果推斷的定義。因果推斷主要研究如何更加科學得識別變量之間的因果關系，強調原因的唯一性。因果性和相關性是有一定的聯系與區別的，從他們的定義來看：因果性指的是在改變X后Y隨之也發生變化，我們稱X是Y的因；相關性指在觀測到的數據分布中，若果我們觀測到了X的分布就可以推斷出Y的分布。因此從定義可以得出，相關性是對稱的，即若X和Y相關，則Y和X相關；但是因果性是非對稱的。相關性不一定說明因果性，但是因果一般會在統計層面導致相關性。我們現有的機器學習中純數據驅動的方法其實更多時候學習的是相關性，這就導致目前的深度學習模型的可解釋性較差。如果我們引入因果性結合相關性一起建模，從理論上來說它的效果會比僅使用相關性建模要好，即會使模型的可解釋性變好，模型的魯棒性也有一定的提升。

添加圖片注釋，不超過 140 字（可選）

因果推斷可以被總結為三個層次。從問題角度出發，首先，因果推斷的第一個層次主要是探索變量之間的關系，即相關性。常規機器學習在應用中主要學習的就是變量之間的相關性。第二個層次是研究實施某種干擾的效果，這一層次在營銷領域使用得較多，典型的例子是uplift model。舉個例子，我們對某個地方或者某一群用戶發放優惠券，我們考慮發多少優惠券、對哪些人發放優惠券，實施這一行為后產生的效果或者收益是否符合業務預期。這類方法被稱為干擾或者干預。第三個層次是從結果考慮原因，被稱為反事實推斷，即如果我想得到某種結果我們應該做什么改變。現在大多數因果建模都是從這一層次來進行探索。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

常用的因果推斷方法如上圖列舉所示。首先是基于加權的方法，典型代表是IPW。第二類是基于匹配的算法，這里主要是無偏匹配。另外，還有基于樹模型來做因果推斷的方法，比如因果森林等。當然，還有很多其他類型的方法，由于這部分內容不是本次分享的重點，這里我就不一一列舉了。

02最新研究進展

接下來我選取幾個代表性工作介紹一下因果推斷在推薦系統中最新的研究進展。

添加圖片注釋，不超過 140 字（可選）

首先是在WWW21發表的DICE。DICE這一方法是基于causal embedding的解決方案。論文認為用戶的交互行為可以被拆解為兩部分：由于視頻的流行度較高導致用戶基于從眾心理產生交互行為；用戶的純興趣導致的交互行為。我們可以進一步抽象為基于interest和基于conformity的兩部分表征。那么問題就轉化為如何構建不同的數據集來分別學習interest和conformity的embedding。具體地，在構造數據集時可以使用<user,pos_item,neg_item>三元組。當用戶點擊了一個postive item且它的流行度比negative item更小，就認為交互行為是基于興趣的；如果點擊的item的流行度大于negative item，那么這次交互是由從眾心理和用戶興趣疊加而成的。

添加圖片注釋，不超過 140 字（可選）

基于上述想法，可以把數據分為O1和O2兩部分，然后使用多目標學習的框架來分別學習interest embedding和conformity embedding。其中，DICE將兩個embedding疊加在一起產生的向量表示作為主任務，其單獨的2個embedding學習作為輔助任務。損失函數是將三個損失與一個正則項相加，其中discrepancy損失的目的是為了讓兩類embedding具有區分性。

添加圖片注釋，不超過 140 字（可選）

第二個工作是華為在Recsys21發表的一篇論文，它的基本思路也是使用了causal embedding方案進行建模。它的出發點是認為系統的feedback表征可以分為bias和unbias兩部分，文章并沒有指出bias具體是哪類bias，而是認為bias表征的是所有feedback bias。

添加圖片注釋，不超過 140 字（可選）

在訓練的時候，論文分別訓練兩部分embedding；在infer的時候，僅僅使用無偏的embedding。具體來說，這篇工作從信息瓶頸的角度來構造損失函數。信息瓶頸類似于一個信息提取方式，該方法認為輸入的信息包含很多噪聲，因此使用信息瓶頸將信息進行壓縮，使得最后得到的表征信息量足夠大。在實現過程中基于互信息實現，其中，互信息的物理含義是度量兩個變量之間的相關性，如果兩個變量是強相關的，那么它們的互信息很大；反之，如果兩個變量幾乎相互獨立，那么它們之間的互信息就很少。作者構造了上圖所示的損失函數，它由四項組成。前兩項屬于信息瓶頸，它希望無偏表征不能過度擬合有偏輸入變量x，同時希望無偏表征能盡可能擬合目標y。但無偏表征和輸入不能完全不相關，所以這里在損失函數前添加了參數β進行控制。第三項表示無偏表征和有偏表征要保持一定程度的獨立，使得它們有一定的區分性。第四項損失函數是基于bias對真實標簽的預估也會有一定的輔助作用的想法。在推薦領域，bias不一定是完全有害的，其中一部分bias是有意義的，因此這里需要一個參數去控制bias的量級。文章通過KL散度以及一些理論推導將上述損失函數轉化為信息熵的形式，使得模型可以通過最小化變換后的損失函數來學習無偏表征和有偏表征。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

下面介紹的兩個工作從因果效應的角度來解決糾偏問題。首先是一篇發表在KDD21上的文章。它的基本想法與第一個工作相似，構造因果圖的時候將點擊行為分為K->Y的用戶興趣匹配、I->Y的物品流行度以及U->Y的用戶從眾心理。論文希望用戶對item的點擊預估是基于純興趣匹配，因此我們需要去除存在bias的邊，即去除item流行度與用戶從眾性導致的bias。文章基于因果效應理論給出解決方案如下，其中TE是總效應、NDE是bias的直接效應，我們可以通過使用TE和NDE的差來得到無偏估計。事實上，NDE基于反事實假設的，即如果沒有基于興趣匹配的K->Y輸入而只包含U的從眾性和I流行度輸入，那么最終模型的預估是怎么樣的。

添加圖片注釋，不超過 140 字（可選）

模型建模方式也是多任務學習。在訓練時，上圖中間的模型作為主任務，左右兩側分別是一個user塔和一個item塔分別作為輔助任務。user和item塔分別學習用戶特征和物品特征單獨作用下的預估輸出，它們的標簽值與主任務使用的一致。根據前述公式推導，在最終推斷時我們就需要將總效應TE減去NDE即可，最終得到的計算公式如上圖所示。

添加圖片注釋，不超過 140 字（可選）

第四個工作和第三個工作解決方案相同，它解決的是“標題黨”問題。當一個用戶點擊一個視頻，他可能是被標題吸引進來，但實際上他對視頻內容不感興趣。當平臺上這類視頻特別多時是非常影響用戶體驗的。因此為了解決這個問題，文章構建了如上因果圖，e代表標題，t代表視頻的內容表征，u是用戶表征，Y是交互表征。我們的目標是去除標題e對Y的邊，使得user與item的匹配是基于純興趣匹配的。類似第三個工作，文章使用TE減NDE的方式進行推導，得到unbias的輸出結果。另外，這篇工作也使用了多目標建模方式。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

下面介紹的工作使用了第三類解決方案，即采用后門機制結合貝葉斯概率模型來解決糾偏問題。這篇文章發表在SIGIR21上，解決的是傳統流行度偏差問題。在推薦系統中，流行度會影響物品是否曝光，也會影響用戶是否交互。作者認為流行度高代表的內容質量通常比較高，所以流行度到點擊的邊需要被保留。但是物品是否被曝光應該基于用戶的真實興趣，而與該物品的流行度無關，所以流行度到物品的邊不應該存在，這條邊是一個bias。文章的解決方案是使用了后門機制，使得最終的交互條件概率與流行度對內容是否曝光的條件概率無關。我們基于這個工作做了一些改進并落地，之后會詳細介紹算法的原理。

03因果推斷在快手的應用

接下來介紹一下快手使用因果推斷在推薦場景下的探索。

1. 流行度debias

添加圖片注釋，不超過 140 字（可選）

首先是流行度debias的工作。流行度偏差在推薦系統中十分常見，我相信大家在各個業務中也面臨了同樣的問題。頭部效應嚴重就會導致熱門內容曝光量較大，進而導致訓練日志被熱門內容主導，這對于長尾內容非常不友好。此外，模型會過度曝光頭部的視頻，因為有些頭部的視頻有可能已經處于衰退期，它的pxtr已經在下降，此時給予它太多曝光會導致低效率，浪費曝光流量。基于這兩個問題，工業界有三種解決方案。首先是使用IPW，但這種方法依賴于流行度具體值，流行度值大小的變化使得權重值波動較大，所以模型的方差很大，訓練很難收斂。第二個方法是使用causal embedding方案，這類方案需要劃分出兩種數據集。如最開始的causal embedding論文使用無偏數據集，但是無偏數據很貴，也有其他工作嘗試基于觀測數據進行處理后劃分不同數據集，但人為劃分數據也會引入其他一些偏差。第三種方式是直接通過加特征或者加debias塔的方案建模流行度對模型的影響，類似于之前youtube和google提出的建模方法，但是這種方式沒有完美的理論支撐，而且bias特征很難與其他輸入特征進行平衡（bias特征可能被其他特征淹沒）。

添加圖片注釋，不超過 140 字（可選）

因此我們引入了因果推斷的思想來進行debias。流行度偏差的核心問題是流行度偏差確實不利于學習用戶真實興趣，但流行度較高的視頻其內容質量較好；另外用戶有看熱門的需求，比如大家打開微博、知乎或者脈脈等軟件都會去看看熱榜。我們的解決方案是在訓練時去除流行度偏差對模型的負向影響，對應于因果圖就是去掉Z到I的這條邊。又由于流行度高的內容質量其實是不錯的，因此在infer 時會保留Z到C這條邊。

添加圖片注釋，不超過 140 字（可選）

接下來具體看一下訓練的時候如何去消除流行度對模型的負向影響。結合上圖的因果圖來看，我們基于后門機制，使用一個do算子來表示消除流行度影響。具體推到過程如上圖，在公式中，第一步到第二步利用了貝葉斯概率公式，第二步到第三步是源于我們使用do算子消除了I與Z的關系，所以U和I與Z是獨立的，第三步到第四步是因為流行度的先驗在兩個因果圖中是不變的。

添加圖片注釋，不超過 140 字（可選）

另外我們將用戶、視頻與視頻流行度進行解耦，將P(C|U,I,Z)條件概率轉化為匹配分與流行度的乘積。建模的數學公式如上圖所示，其中ELU’是一個激活函數，流行度部分引入了γ參數進行控制，并引入了pair loss對模型進行訓練。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

進一步，我們可以將P(C|U,I,Z)的解藕結果帶入引入do算子的條件概率公式繼續進行推導，最終的表達式如上圖所示。我們可以發現最終的結果只與流行度的期望有關，而流行度這個單變量的期望是一個常數，對排序不產生影響。所以通過這個方法，我們已經將流行度對模型的影響消除了。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

在infer階段，我們也使用了do算子，將流行度作為變量引入條件概率。具體地，我們針對流行度考慮了其變化趨勢對推薦的影響。這么做是希望模型與item的生命周期進行結合，因為item的流行度變化是呈現從逐漸增加到逐漸降低的過程。最終的模型infer得分是匹配得分與流行度的乘積。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

我們對比了干預后流行度對item的影響變化，上圖左側是沒有進行糾偏的推導，右側是進行糾偏的推導。它們的主要差別在于因果圖中Z對I的條件概率，進行糾偏操作后U,I與Z式獨立的，進而就去除了流行度對item的曝光影響。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

在具體落地過程中，我們對模型進行了進一步改進。比如損失函數使用了pointwise來替代pairwise，當然這一選擇是基于業務表現的。此外，我們使用RELU來替代ELU’，因為有大量工作證明RELU+BN的效果好于ELU’。我們還將流行度變化趨勢從差值替換為計算梯度，這是因為差值對低流行度內容十分不友好。另外我們還把控了infer階段注入流行有益部分的內容質量。

添加圖片注釋，不超過 140 字（可選）

從實驗結果來看，曝光提升或者下降的case是符合預期的。具體地，曝光下降最快的case大多是一些獵奇的或者低質量的內容。從實驗結果圖來看，上圖橫軸從左至右分別代表的是曝光區間，越往右的曝光區間的曝光量越大。從圖中可以看出，對比各曝光區間的曝光item數量，中長尾的曝光item數是增多的；對比各曝光區間的曝光量，中長尾item的曝光量也是提升的，而頭部視頻或者流行度較高視頻的曝光量提升主要是因為infer的時候我們特意引入流行度導致。另外我們還針對效率進行可視化，發現中尾部的視頻對應的pxtr的提升更大，這也符合我們的預期。

2. 因果表征解耦

添加圖片注釋，不超過 140 字（可選）

第二個工作我們引入causal embedding思想，基于DICE針對落地進行了一些改進。具體地，我們將用戶消費視頻的行為拆解為基于興趣(interest)以及基于從眾心理(conformity)。在這樣的假設下，主要問題就轉化為如何構造訓練兩個embedding的數據集。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

首先，針對feedback相關的正負樣本的構建，我們會去統計用戶點擊視頻的reward，它是由用戶觀看時長和互動的綜合打分進行定義的。對于conformity相關的正負樣本的構建，我們使用like數進行定義，如果正樣本的like數比較多那么就將其作為conformityembedding的訓練集，如果一個正樣本的like數小于負樣本，但是它的reward更大，那么我們認為用戶是基于興趣去點擊這個item的，從而得到interest embedding的訓練集。我們使用like數的原因是源于我們認為用戶是否喜歡一個視頻最直觀的感知就是點贊行為。

添加圖片注釋，不超過 140 字（可選）

在訓練的時候，我們沿用了DICE的多任務訓練范式，其中feedback loss作為主任務，同時使用如上所述定義的兩個數據集分別對conformity和interest embedding進行訓練。

添加圖片注釋，不超過 140 字（可選）

上圖展示了我們的實驗效果，可以發現兩類embedding的可視化表明了它們之間有明顯的區分性。我們也對conformity embedding和流行度的相關性進行了可視化，不同的顏色表示不同的流行度。我們也可以觀察到不同流行度的item，他們的embedding也具有一定的區分性。

3. 視頻完播率debias

添加圖片注釋，不超過 140 字（可選）

第三個工作是基于視頻完播率的debias。它的背景是源于我們在很多業務場景中，如單列短視頻場景，視頻是自動播放的，不需要用戶點擊。這種情況下會導致我們很難去定義什么樣的播放時長可以作為正樣本。比較直觀的方法是人為設定一個閾值，但是這存在著一定的bias，比如對于長視頻而言這種方式偏差很大。因此，我們使用播放完成率來衡量用戶對于視頻的偏好。但事實上，基于完播率的這種做法天然對短視頻是友好的。如上圖右側所示，短視頻的完播率比長視頻高出許多。所以這導致我們去思考如何定義正負樣本以及如何對不同長度視頻的完播率進行消偏。

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

首先，針對正負樣本的定義，我們需要設定一個對于各長度視頻均適用的判別方式。此外，它需要有一定的判別性，并且具有一定的物理意義。上圖右側是我們對某長度視頻的完播率與對應播放日志數的關系圖。我們可以看到它是一個明顯的雙峰分布，也就是說如果我們在雙峰中間選擇一個閾值對其進行切分是可以很容易地將正負樣本區分開的。我們在實際使用時統計了對應視頻時長下的平均完播率，使用在這個數值來作為切分閾值。

添加圖片注釋，不超過 140 字（可選）

第二個問題是對不同長度視頻的完播率進行消偏。我們認為bias的本質是樣本分布不均勻，而消偏可以通過一些加權的方法使得treatment和control組的分布差異盡量減小。這里我們使用了經典的IPW方法，具體來說，我們使用不同視頻時長的完播率來定義IPW的權重，將其加入損失函數進行加權從而進行debias。

添加圖片注釋，不超過 140 字（可選）

最終的實驗結果表明消偏后播放視頻數以及完播數都有明顯的提升，另外不同長度的視頻對應的完播率也有上升。

04總結與思考

最后，我來總結一下我們的工作并提出一些個人的思考。

首先，我們在快手推薦場景首次落地因果推斷。上述工作是因果推斷在快手推薦場景的一些成功的探索，它提供了一套糾偏框架落地的pipeline，除了傳統的item側消偏，我們對用戶維度的糾偏并也取得了一定收益。目前，因果推斷在推薦中的應用目前較少，從學術界也很難拿到可以落地的方法，而在營銷領域有比較多的落地應用，這可能是因為在營銷領域的場景中，它們的treatment很好定義，但是在推薦場景下就很難被定義。此外，推薦中使用的評估方法和因果評估不一致。推薦系統的評估注重排序，例如AUC等指標。

目前因果推斷在推薦系統的應用存在以下三個問題：

對于一些bias如流行度、曝光偏差，我們需要掌握好debias的度；現在的糾偏大多是大點進行的，缺少一套完整的糾偏系統，目前已有的一些工作很難在工業界進行落地；因果推斷對于解決信息繭房難題目前還很難去解決。我們現在的推薦系統更多還是迎合式的推薦，即我們會根據用戶的喜好推薦內容，取悅用戶，進而導致我們無法解決信息繭房的問題。如果我們的推薦策略由迎合式轉變為引導式，即系統可以引導用戶對item進行交互，那么我們可以在一定程度上解決信息繭房問題。

05精彩問答

Q：如何驗證學習到的interest embedding和conformity embedding的準確性？

A：我們是通過可視化來觀察embedding是否符合我們的預期。從之前展示的embedding可視化結果圖中我們可以發現，模型學習到的兩類embedding在二維空間上可以被明顯地區分，與此同時item的流行度與conformity embedding的相關性在流行度區間之間也具有區分性。

Q：Debias會不會在一定程度上對某些業務指標產生負作用？

A：Bias不一定全是對模型有害的，例如流行度其實對推薦是有收益的。假如你糾偏過度，那么實際上你會降低系統的整體收益的；與之相反，如果你糾偏不夠的話有無法解決bias問題。這就是為什么因果推斷很難在推薦中落地，因為這需要根據具體業務不斷地對糾偏程度進行調整。

Q：點擊行為和like行為都是非常稀疏的，那么對于長尾item應該如何進行糾偏？

A：我們針對流行度糾偏做了兩個工作。第一個工作是基于后門機制，我們可以看到它對于中長尾item是有明顯收益的。而第二個工作是從輸出表征的角度進行糾偏的。我們可以看到這兩個工作的出發點不一樣，第一個工作是在系統層面建模debias，而第二個工作是從交互中建模用戶不同的意圖。針對長尾item的糾偏，我認為第一個工作的方法會對長尾item更友好并且更加可控。

今天的分享就到這里，謝謝大家。

在文末分享、點贊、在看，給個3連擊唄~

分享嘉賓：

添加圖片注釋，不超過 140 字（可選）

分享嘉賓：趙煒琪快手算法專家

編輯整理：吳祺堯

出品平臺：DataFunTalk

添加小助手鏈接：https://wpz.h5.xeknow.com/s/3udZfR

1.免費資料領取：點擊上方鏈接添加小助手回復【大數據合集】免費領取《大數據典藏版合集》

回復【算法合集】免費領取《互聯網核心算法合集》

2.添加交流群：點擊點擊上方鏈接添加小助手回復【大數據交流群】加入“大數據交流群”

回復【算法交流群】加入“算法交流群”