Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么

本文作者： AI研習(xí)社-譯站

2020-12-06 09:06

導(dǎo)語(yǔ)：Twitter 圖學(xué)習(xí)研究負(fù)責(zé)人 Michael Bronstein 親述。

譯者：AI研習(xí)社（聽(tīng)風(fēng)1996）

雙語(yǔ)原文鏈接：What Twitter learned from the Recsys 2020 Challenge

ecommender系統(tǒng)是現(xiàn)代社交網(wǎng)絡(luò)和電子商務(wù)平臺(tái)的重要組成部分。它們旨在最大限度地提高用戶(hù)滿(mǎn)意度以及其他重要的商業(yè)目標(biāo)。與此同時(shí)，在以根據(jù)用戶(hù)興趣定制內(nèi)容為目的來(lái)建立新模型基準(zhǔn)測(cè)試時(shí)，缺乏供學(xué)界研究使用的大規(guī)模的公共社交網(wǎng)絡(luò)數(shù)據(jù)集。而在過(guò)去的一年里，我們努力解決了這個(gè)問(wèn)題。

Twitter與RecSys會(huì)議展開(kāi)合作以支持2020挑戰(zhàn)賽。在兩周的時(shí)間里，我們發(fā)布了一個(gè)包含推文和用戶(hù)參與度組成的數(shù)據(jù)集，其中有1.6億條公開(kāi)推文用于訓(xùn)練，4000萬(wàn)條公開(kāi)推文用于驗(yàn)證和測(cè)試。

在這篇文章中，我們描述了數(shù)據(jù)集以及Nvidia、Learner和Wantely團(tuán)隊(duì)提交的三個(gè)獲獎(jiǎng)作品。我們?cè)噲D對(duì)幫助獲獎(jiǎng)?wù)呷〉贸煽?jī)的選擇做出一般性的結(jié)論，特別是:

以最快的實(shí)驗(yàn)速度用于特征選擇和模型訓(xùn)練

有利于泛化的對(duì)抗驗(yàn)證[1]
上下文特征的使用
在神經(jīng)網(wǎng)絡(luò)上使用決策樹(shù)

我們希望這些研究結(jié)果對(duì)更廣泛的研究界有用，并啟發(fā)推薦系統(tǒng)的未來(lái)研究方向。

挑戰(zhàn)賽的參與者被要求預(yù)測(cè)用戶(hù)參與四種互動(dòng)中任何一種互動(dòng)的可能性：贊、回復(fù)、轉(zhuǎn)發(fā)和引用tweet。我們根據(jù)以下兩個(gè)指標(biāo)對(duì)提交的作品進(jìn)行評(píng)估：相對(duì)于我們所提供的簡(jiǎn)單基準(zhǔn)方法的相對(duì)交叉熵（RCE），以及Precision-Recall曲線(xiàn)下的面積（PR-AUC）。

Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么

隨時(shí)間的變化的訓(xùn)練、測(cè)試和驗(yàn)證數(shù)據(jù)集的表示

我們要特別注意（我們所使用的）維持?jǐn)?shù)據(jù)集需與Twitter平臺(tái)同步。數(shù)據(jù)集反映了平臺(tái)上的變化，例如，當(dāng)其中的一條推文被刪除，有用戶(hù)將其個(gè)人資料變?yōu)樗接谢蛲耆珓h除。所以提交的數(shù)據(jù)就會(huì)被重新評(píng)估，排行榜也會(huì)根據(jù)重新計(jì)算的指標(biāo)進(jìn)行更新[2]。

數(shù)據(jù)集的特征表示。它們分為用戶(hù)特征（針對(duì)作者和讀者）、推文特征和參與度特征。

今年的挑戰(zhàn)賽競(jìng)爭(zhēng)尤為激烈，注冊(cè)用戶(hù)超過(guò)1000人。在整個(gè)挑戰(zhàn)過(guò)程中，參賽者積極提交解決方案，并在挑戰(zhàn)的第一階段（根據(jù)提交指南）修改了他們的團(tuán)隊(duì)組成。最后階段有20個(gè)競(jìng)爭(zhēng)者，平均團(tuán)隊(duì)規(guī)模為4名成員。此外，各隊(duì)總計(jì)設(shè)計(jì)了127種不同的方法，來(lái)嘗試贏(yíng)得挑戰(zhàn)比賽。在整個(gè)挑戰(zhàn)過(guò)程中，參賽者的活躍度很高，在最后幾天，參賽者對(duì)提交的作品進(jìn)行了改進(jìn)，達(dá)到了做最優(yōu)性能。最終的結(jié)果出現(xiàn)在排行榜上。

與之相伴的RecSys Challenge 2020研討會(huì)收到了12篇論文，程序委員會(huì)對(duì)這些論文進(jìn)行了審閱。其中9篇論文被接受。

Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么

數(shù)據(jù)集的特征表示。它們分為用戶(hù)特征（針對(duì)作者和讀者）、推文特征和參與度特征。

與之相伴的RecSys Challenge 2020研討會(huì)收到了12篇論文，程序委員會(huì)對(duì)這些論文進(jìn)行了審閱。其中9篇論文被接受。

第一名：英偉達(dá)

GPU Accelerated Feature Engineering and Training for Recommender Systems.

Nvidia的論文[3]描述了訓(xùn)練xgboost模型來(lái)預(yù)測(cè)每個(gè)交互事件。總體的關(guān)注點(diǎn)在于為該模型生成有用的特征。文章強(qiáng)調(diào)快速提取特征和模型訓(xùn)練是該方法成功的關(guān)鍵。本文在附錄中提供了4種模型中每種模型的15個(gè)最有用的特征列表。

從數(shù)據(jù)集中快速提取特征并進(jìn)行再訓(xùn)練是冠軍和亞軍的關(guān)鍵區(qū)別。特征工程流程和訓(xùn)練流程的運(yùn)行時(shí)間都不到一分鐘。除此之外，對(duì)不同的分類(lèi)特征和特征組合采用目標(biāo)編碼（均值編碼+加法平滑），包括這些組合的目標(biāo)均值。作者還從推文的內(nèi)容中創(chuàng)建了分類(lèi)特征（如最受歡迎的兩個(gè)詞和最不受歡迎的兩個(gè)詞）。用于特征重要性評(píng)估和選擇的對(duì)抗性驗(yàn)證通過(guò)選擇更通用的特征來(lái)防止過(guò)擬合。采用基于樹(shù)模型的集成方法用于生成最終模型。

第二名：Learner

Predicting Twitter Engagement With Deep Language Models.

Learner[4]融合了深度學(xué)習(xí)與梯度提升決策樹(shù)（GBDT），并專(zhuān)注于不同特征的創(chuàng)建。作者使用啟發(fā)式方法設(shè)計(jì)了467個(gè)特征，并使用BERT和XLM-R生成了推文的文本表示（同時(shí)使用了目標(biāo)Twitter文本以及最近參與的Twitter文本）。

該條目與其他條目的關(guān)鍵區(qū)別在于使用了預(yù)訓(xùn)練的自然語(yǔ)言處理（NLP）模型BERT和XLM-R，并進(jìn)行了微調(diào)。第一層的微調(diào)是以無(wú)監(jiān)督的方式進(jìn)行的。接下來(lái)，將語(yǔ)言模型與其他特征結(jié)合以有監(jiān)督的方式進(jìn)行微調(diào)。。該模型是一個(gè)多層感知機(jī)（MLP），有四個(gè)頭，每個(gè)頭代表一種參與類(lèi)。本文還引入注意力機(jī)制生成了用戶(hù)過(guò)去十次互動(dòng)的嵌入向量。以目標(biāo)推文為關(guān)鍵，利用注意力機(jī)制對(duì)每個(gè)的嵌入向量進(jìn)行組合。此外，還使用了啟發(fā)式特征，如參與用戶(hù)、推文創(chuàng)建者、推文特征和用戶(hù)與創(chuàng)建者交互特征的不同表示。與其他條目一樣，本文使用xgboost進(jìn)行特征工程和選擇，并將Yeo-Johnson transformation應(yīng)用于分類(lèi)特征和非標(biāo)準(zhǔn)化連續(xù)特征。

第三名：Wantely

A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.

Wantely的投稿[5]提出了一種預(yù)測(cè)tweet參與度的兩階段方法。第一階段的分類(lèi)器是輕量級(jí)的，只使用在不同目標(biāo)（Like、Retweet等）中通用的特征，并且具有相似的訓(xùn)練/測(cè)試精度。第二階段分類(lèi)器將輕量級(jí)分類(lèi)器的輸出與特定于目標(biāo)的特征一起用作特征。

上游的通用模型生成下游模型所需的特征。作者認(rèn)為，通過(guò)這樣的方式，每種參與類(lèi)型的下游模型都可以從所有其他參與的數(shù)據(jù)中受益。除此之外，除此之外，如Nvidia條目所示，本文通過(guò)對(duì)抗性驗(yàn)證直接評(píng)估訓(xùn)練和測(cè)試數(shù)據(jù)集之間的特征分布差異，從而確定了哪些特征是可通用的。

在所有提交的論文中，有許多相同的見(jiàn)解。我們重點(diǎn)介紹以下主題：

勝出模型中使用的有用特征—目標(biāo)編碼是王道。首先，目標(biāo)編碼（用目標(biāo)變量的平均值替換分類(lèi)變量）使問(wèn)題變得更簡(jiǎn)單。它同時(shí)用于用戶(hù)和作者id，因此編碼了用戶(hù)的平均參與率。其次，使用了大量特征交叉[6]。

快速實(shí)驗(yàn)進(jìn)行特征選擇。快速檢驗(yàn)許多假設(shè)的能力一直是數(shù)據(jù)科學(xué)競(jìng)賽中不可或缺的一部分，并再次證明在這一挑戰(zhàn)中具有決定性作用。Nvidia團(tuán)隊(duì)能夠在GPU上運(yùn)行整個(gè)流程。這讓他們只需2分18秒就能訓(xùn)練出一個(gè)模型（包括特征工程），而在CPU上則需花費(fèi)數(shù)小時(shí)。

通過(guò)對(duì)抗性驗(yàn)證來(lái)應(yīng)對(duì)過(guò)度擬合。比賽選手常用的一種技術(shù)是建立一個(gè)判別器來(lái)預(yù)測(cè)訓(xùn)練和測(cè)試/驗(yàn)證集之間的差異。根據(jù)模型選擇特征時(shí)使用的重要性分?jǐn)?shù)，通過(guò)去除最重要的特征，可以幫助模型更好地泛化。此技術(shù)有助于避免訓(xùn)練數(shù)據(jù)過(guò)擬合。

上下文特征的使用。今年的數(shù)據(jù)集和之前的數(shù)據(jù)集的一個(gè)重要區(qū)別是我們提供的上下文特征。在三篇獲獎(jiǎng)?wù)撐闹?，有兩篇?duì)基于上下文特征的BERT進(jìn)行了復(fù)雜的使用。NLP中的深度學(xué)習(xí)方法已經(jīng)證明了它對(duì)推薦系統(tǒng)的有用性，盡管我們認(rèn)為在這個(gè)領(lǐng)域還有更多的改進(jìn)空間。

決策樹(shù)與深度學(xué)習(xí)。梯度增強(qiáng)決策樹(shù)（GBDT）的一個(gè)顯著優(yōu)勢(shì)是，無(wú)需對(duì)單個(gè)特征的尺度進(jìn)行歸一化和計(jì)算。這使得所有勝出論文的迭代速度更快。

在計(jì)算機(jī)視覺(jué)和NLP等領(lǐng)域，深度學(xué)習(xí)模型已經(jīng)通過(guò)利用CNNs和transfomer展示了令人印象深刻的進(jìn)展?；谶@一挑戰(zhàn)的結(jié)果，我們?nèi)匀徊幻靼自谕扑]系統(tǒng)中什么構(gòu)成良好的深度學(xué)習(xí)架構(gòu)。我們呼吁研究界共同尋找推薦器系統(tǒng)的最佳深度學(xué)習(xí)架構(gòu)。

我們也注意到，雖然我們只對(duì)提交的模型的性能進(jìn)行了評(píng)估，但在生產(chǎn)系統(tǒng)中還有許多其他限制。對(duì)我們來(lái)說(shuō)，延遲是一個(gè)大問(wèn)題：模型需要在毫秒內(nèi)對(duì)推文進(jìn)行評(píng)分。在這種情況下，需要仔細(xì)檢查集成方法的使用。集成中每一步的附加延遲都可能會(huì)導(dǎo)致它們對(duì)我們的目標(biāo)來(lái)說(shuō)太慢。

我們感謝所有參與者和我們的同事使這得一挑戰(zhàn)成為可能。我們相信，發(fā)布大規(guī)模數(shù)據(jù)集將有助于解鎖推薦系統(tǒng)領(lǐng)域的新進(jìn)展。Twitter現(xiàn)在比以往任何時(shí)候都致力于幫助外部研究，并且最近為學(xué)術(shù)研究人員發(fā)布了新的API端口，以幫助促進(jìn)進(jìn)一步的探索和合作。

[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.

[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.

[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.

[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.

[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.

[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.

AI研習(xí)社是AI學(xué)術(shù)青年和AI開(kāi)發(fā)者技術(shù)交流的在線(xiàn)社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作，通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù)，為AI學(xué)術(shù)青年和開(kāi)發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái)，致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果，你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與譯站一起，學(xué)習(xí)新知，分享成長(zhǎng)。

Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么