0
| 本文作者: AI研習(xí)社-譯站 | 2020-12-06 09:06 |
譯者:AI研習(xí)社(聽(tīng)風(fēng)1996)
雙語(yǔ)原文鏈接:What Twitter learned from the Recsys 2020 Challenge
ecommender系統(tǒng)是現(xiàn)代社交網(wǎng)絡(luò)和電子商務(wù)平臺(tái)的重要組成部分。它們旨在最大限度地提高用戶(hù)滿(mǎn)意度以及其他重要的商業(yè)目標(biāo)。與此同時(shí),在以根據(jù)用戶(hù)興趣定制內(nèi)容為目的來(lái)建立新模型基準(zhǔn)測(cè)試時(shí),缺乏供學(xué)界研究使用的大規(guī)模的公共社交網(wǎng)絡(luò)數(shù)據(jù)集。而在過(guò)去的一年里,我們努力解決了這個(gè)問(wèn)題。
Twitter與RecSys會(huì)議展開(kāi)合作以支持2020挑戰(zhàn)賽。在兩周的時(shí)間里,我們發(fā)布了一個(gè)包含推文和用戶(hù)參與度組成的數(shù)據(jù)集,其中有1.6億條公開(kāi)推文用于訓(xùn)練,4000萬(wàn)條公開(kāi)推文用于驗(yàn)證和測(cè)試。
在這篇文章中,我們描述了數(shù)據(jù)集以及Nvidia、Learner和Wantely團(tuán)隊(duì)提交的三個(gè)獲獎(jiǎng)作品。我們?cè)噲D對(duì)幫助獲獎(jiǎng)?wù)呷〉贸煽?jī)的選擇做出一般性的結(jié)論,特別是:
以最快的實(shí)驗(yàn)速度用于特征選擇和模型訓(xùn)練
有利于泛化的對(duì)抗驗(yàn)證[1]
上下文特征的使用
在神經(jīng)網(wǎng)絡(luò)上使用決策樹(shù)
我們希望這些研究結(jié)果對(duì)更廣泛的研究界有用,并啟發(fā)推薦系統(tǒng)的未來(lái)研究方向。
挑戰(zhàn)賽的參與者被要求預(yù)測(cè)用戶(hù)參與四種互動(dòng)中任何一種互動(dòng)的可能性:贊、回復(fù)、轉(zhuǎn)發(fā)和引用tweet。我們根據(jù)以下兩個(gè)指標(biāo)對(duì)提交的作品進(jìn)行評(píng)估:相對(duì)于我們所提供的簡(jiǎn)單基準(zhǔn)方法的相對(duì)交叉熵(RCE),以及Precision-Recall曲線(xiàn)下的面積(PR-AUC)。

隨時(shí)間的變化的訓(xùn)練、測(cè)試和驗(yàn)證數(shù)據(jù)集的表示
我們要特別注意(我們所使用的)維持?jǐn)?shù)據(jù)集需與Twitter平臺(tái)同步。數(shù)據(jù)集反映了平臺(tái)上的變化,例如,當(dāng)其中的一條推文被刪除,有用戶(hù)將其個(gè)人資料變?yōu)樗接谢蛲耆珓h除。所以提交的數(shù)據(jù)就會(huì)被重新評(píng)估,排行榜也會(huì)根據(jù)重新計(jì)算的指標(biāo)進(jìn)行更新[2]。
數(shù)據(jù)集的特征表示。它們分為用戶(hù)特征(針對(duì)作者和讀者)、推文特征和參與度特征。
今年的挑戰(zhàn)賽競(jìng)爭(zhēng)尤為激烈,注冊(cè)用戶(hù)超過(guò)1000人。在整個(gè)挑戰(zhàn)過(guò)程中,參賽者積極提交解決方案,并在挑戰(zhàn)的第一階段(根據(jù)提交指南)修改了他們的團(tuán)隊(duì)組成。最后階段有20個(gè)競(jìng)爭(zhēng)者,平均團(tuán)隊(duì)規(guī)模為4名成員。此外,各隊(duì)總計(jì)設(shè)計(jì)了127種不同的方法,來(lái)嘗試贏(yíng)得挑戰(zhàn)比賽。在整個(gè)挑戰(zhàn)過(guò)程中,參賽者的活躍度很高,在最后幾天,參賽者對(duì)提交的作品進(jìn)行了改進(jìn),達(dá)到了做最優(yōu)性能。最終的結(jié)果出現(xiàn)在排行榜上。
與之相伴的RecSys Challenge 2020研討會(huì)收到了12篇論文,程序委員會(huì)對(duì)這些論文進(jìn)行了審閱。其中9篇論文被接受。

數(shù)據(jù)集的特征表示。它們分為用戶(hù)特征(針對(duì)作者和讀者)、推文特征和參與度特征。
今年的挑戰(zhàn)賽競(jìng)爭(zhēng)尤為激烈,注冊(cè)用戶(hù)超過(guò)1000人。在整個(gè)挑戰(zhàn)過(guò)程中,參賽者積極提交解決方案,并在挑戰(zhàn)的第一階段(根據(jù)提交指南)修改了他們的團(tuán)隊(duì)組成。最后階段有20個(gè)競(jìng)爭(zhēng)者,平均團(tuán)隊(duì)規(guī)模為4名成員。此外,各隊(duì)總計(jì)設(shè)計(jì)了127種不同的方法,來(lái)嘗試贏(yíng)得挑戰(zhàn)比賽。在整個(gè)挑戰(zhàn)過(guò)程中,參賽者的活躍度很高,在最后幾天,參賽者對(duì)提交的作品進(jìn)行了改進(jìn),達(dá)到了做最優(yōu)性能。最終的結(jié)果出現(xiàn)在排行榜上。
與之相伴的RecSys Challenge 2020研討會(huì)收到了12篇論文,程序委員會(huì)對(duì)這些論文進(jìn)行了審閱。其中9篇論文被接受。
第一名:英偉達(dá)
GPU Accelerated Feature Engineering and Training for Recommender Systems.
Nvidia的論文[3]描述了訓(xùn)練xgboost模型來(lái)預(yù)測(cè)每個(gè)交互事件。總體的關(guān)注點(diǎn)在于為該模型生成有用的特征。文章強(qiáng)調(diào)快速提取特征和模型訓(xùn)練是該方法成功的關(guān)鍵。本文在附錄中提供了4種模型中每種模型的15個(gè)最有用的特征列表。
從數(shù)據(jù)集中快速提取特征并進(jìn)行再訓(xùn)練是冠軍和亞軍的關(guān)鍵區(qū)別。特征工程流程和訓(xùn)練流程的運(yùn)行時(shí)間都不到一分鐘。除此之外,對(duì)不同的分類(lèi)特征和特征組合采用目標(biāo)編碼(均值編碼+加法平滑),包括這些組合的目標(biāo)均值。作者還從推文的內(nèi)容中創(chuàng)建了分類(lèi)特征(如最受歡迎的兩個(gè)詞和最不受歡迎的兩個(gè)詞)。用于特征重要性評(píng)估和選擇的對(duì)抗性驗(yàn)證 通過(guò)選擇更通用的特征來(lái)防止過(guò)擬合。 采用基于樹(shù)模型的集成方法用于生成最終模型。
Predicting Twitter Engagement With Deep Language Models.
Learner[4]融合了深度學(xué)習(xí)與梯度提升決策樹(shù)(GBDT),并專(zhuān)注于不同特征的創(chuàng)建。作者使用啟發(fā)式方法設(shè)計(jì)了467個(gè)特征,并使用BERT和XLM-R生成了推文的文本表示(同時(shí)使用了目標(biāo)Twitter文本以及最近參與的Twitter文本)。
該條目與其他條目的關(guān)鍵區(qū)別在于使用了預(yù)訓(xùn)練的自然語(yǔ)言處理(NLP)模型BERT和XLM-R,并進(jìn)行了微調(diào)。第一層的微調(diào)是以無(wú)監(jiān)督的方式進(jìn)行的。接下來(lái),將語(yǔ)言模型與其他特征結(jié)合以有監(jiān)督的方式進(jìn)行微調(diào)。。該模型是一個(gè)多層感知機(jī)(MLP),有四個(gè)頭,每個(gè)頭代表一種參與類(lèi)。本文還引入注意力機(jī)制生成了用戶(hù)過(guò)去十次互動(dòng)的嵌入向量。以目標(biāo)推文為關(guān)鍵,利用注意力機(jī)制對(duì)每個(gè)的嵌入向量進(jìn)行組合。此外,還使用了啟發(fā)式特征,如參與用戶(hù)、推文創(chuàng)建者、推文特征和用戶(hù)與創(chuàng)建者交互特征的不同表示。與其他條目一樣,本文使用xgboost進(jìn)行特征工程和選擇,并將Yeo-Johnson transformation應(yīng)用于分類(lèi)特征和非標(biāo)準(zhǔn)化連續(xù)特征。
A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.
Wantely的投稿[5]提出了一種預(yù)測(cè)tweet參與度的兩階段方法。第一階段的分類(lèi)器是輕量級(jí)的,只使用在不同目標(biāo)(Like、Retweet等)中通用的特征,并且具有相似的訓(xùn)練/測(cè)試精度。第二階段分類(lèi)器將輕量級(jí)分類(lèi)器的輸出與特定于目標(biāo)的特征一起用作特征。
上游的通用模型生成下游模型所需的特征。作者認(rèn)為,通過(guò)這樣的方式,每種參與類(lèi)型的下游模型都可以從所有其他參與的數(shù)據(jù)中受益。除此之外,除此之外,如Nvidia條目所示,本文通過(guò)對(duì)抗性驗(yàn)證直接評(píng)估訓(xùn)練和測(cè)試數(shù)據(jù)集之間的特征分布差異,從而確定了哪些特征是可通用的。
在所有提交的論文中,有許多相同的見(jiàn)解。我們重點(diǎn)介紹以下主題:
勝出模型中使用的有用特征—目標(biāo)編碼是王道。首先,目標(biāo)編碼(用目標(biāo)變量的平均值替換分類(lèi)變量)使問(wèn)題變得更簡(jiǎn)單。它同時(shí)用于用戶(hù)和作者id,因此編碼了用戶(hù)的平均參與率。其次,使用了大量特征交叉[6]。
快速實(shí)驗(yàn)進(jìn)行特征選擇。快速檢驗(yàn)許多假設(shè)的能力一直是數(shù)據(jù)科學(xué)競(jìng)賽中不可或缺的一部分,并再次證明在這一挑戰(zhàn)中具有決定性作用。Nvidia團(tuán)隊(duì)能夠在GPU上運(yùn)行整個(gè)流程。這讓他們只需2分18秒就能訓(xùn)練出一個(gè)模型(包括特征工程),而在CPU上則需花費(fèi)數(shù)小時(shí)。
通過(guò)對(duì)抗性驗(yàn)證來(lái)應(yīng)對(duì)過(guò)度擬合。比賽選手常用的一種技術(shù)是建立一個(gè)判別器來(lái)預(yù)測(cè)訓(xùn)練和測(cè)試/驗(yàn)證集之間的差異。根據(jù)模型選擇特征時(shí)使用的重要性分?jǐn)?shù),通過(guò)去除最重要的特征,可以幫助模型更好地泛化。此技術(shù)有助于避免訓(xùn)練數(shù)據(jù)過(guò)擬合。
上下文特征的使用。今年的數(shù)據(jù)集和之前的數(shù)據(jù)集的一個(gè)重要區(qū)別是我們提供的上下文特征。在三篇獲獎(jiǎng)?wù)撐闹?,有兩篇?duì)基于上下文特征的BERT進(jìn)行了復(fù)雜的使用。NLP中的深度學(xué)習(xí)方法已經(jīng)證明了它對(duì)推薦系統(tǒng)的有用性,盡管我們認(rèn)為在這個(gè)領(lǐng)域還有更多的改進(jìn)空間。
決策樹(shù)與深度學(xué)習(xí)。梯度增強(qiáng)決策樹(shù)(GBDT)的一個(gè)顯著優(yōu)勢(shì)是,無(wú)需對(duì)單個(gè)特征的尺度進(jìn)行歸一化和計(jì)算。這使得所有勝出論文的迭代速度更快。
在計(jì)算機(jī)視覺(jué)和NLP等領(lǐng)域,深度學(xué)習(xí)模型已經(jīng)通過(guò)利用CNNs和transfomer展示了令人印象深刻的進(jìn)展?;谶@一挑戰(zhàn)的結(jié)果,我們?nèi)匀徊幻靼自谕扑]系統(tǒng)中什么構(gòu)成良好的深度學(xué)習(xí)架構(gòu)。我們呼吁研究界共同尋找推薦器系統(tǒng)的最佳深度學(xué)習(xí)架構(gòu)。
我們也注意到,雖然我們只對(duì)提交的模型的性能進(jìn)行了評(píng)估,但在生產(chǎn)系統(tǒng)中還有許多其他限制。對(duì)我們來(lái)說(shuō),延遲是一個(gè)大問(wèn)題:模型需要在毫秒內(nèi)對(duì)推文進(jìn)行評(píng)分。在這種情況下,需要仔細(xì)檢查集成方法的使用。集成中每一步的附加延遲都可能會(huì)導(dǎo)致它們對(duì)我們的目標(biāo)來(lái)說(shuō)太慢。
我們感謝所有參與者和我們的同事使這得一挑戰(zhàn)成為可能。我們相信,發(fā)布大規(guī)模數(shù)據(jù)集將有助于解鎖推薦系統(tǒng)領(lǐng)域的新進(jìn)展。Twitter現(xiàn)在比以往任何時(shí)候都致力于幫助外部研究,并且最近為學(xué)術(shù)研究人員發(fā)布了新的API端口,以幫助促進(jìn)進(jìn)一步的探索和合作。
[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.
[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.
[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.
[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.
[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.
[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.
AI研習(xí)社是AI學(xué)術(shù)青年和AI開(kāi)發(fā)者技術(shù)交流的在線(xiàn)社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開(kāi)發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。