久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給知情人士
發(fā)送

0

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型

本文作者: 知情人士 2021-06-29 16:43
導(dǎo)語(yǔ):今天,AI 科技評(píng)論將為大家介紹一篇由中科院先進(jìn)所、騰訊、華南理工近日合作發(fā)表在信息檢索領(lǐng)域頂會(huì) SIGIR 2021上的一篇論文

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型

AI科技評(píng)論報(bào)道

編輯 | 陳大鑫

大家都知道,現(xiàn)有的序列推薦算法大多采用淺層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
而今天,AI 科技評(píng)論將為大家介紹一篇由中科院先進(jìn)所、騰訊、華南理工近日合作發(fā)表在信息檢索領(lǐng)域頂會(huì) SIGIR 2021上的一篇論文,這篇論文發(fā)現(xiàn)通過(guò)對(duì)殘差塊結(jié)構(gòu)進(jìn)行微小的修改,序列推薦模型能夠使用更深的網(wǎng)絡(luò)結(jié)構(gòu)以進(jìn)一步提升精準(zhǔn)度,也就是,推薦模型也能夠像計(jì)算機(jī)視覺(jué)領(lǐng)域的模型那樣擁有100層以上的深度并獲得最優(yōu)性能。
在此基礎(chǔ)上,論文提出一個(gè)高效且通用的框架 StackRec 來(lái)加速深度序列推薦模型的訓(xùn)練,并應(yīng)用到多種實(shí)際的推薦場(chǎng)景中。
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
論文地址:https://arxiv.org/pdf/2012.07598.pdf
代碼+數(shù)據(jù)地址:https://github.com/wangjiachun0426/StackRec

1

100層深的序列推薦模型

由于推薦系統(tǒng)中的數(shù)據(jù)稀疏性問(wèn)題以及深度學(xué)習(xí)中的梯度消失、梯度爆炸問(wèn)題,現(xiàn)有的序列推薦算法往往采用淺層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(一般不超過(guò)10層,例如GRU4Rec通常1層最優(yōu),SASRec通常2個(gè)殘差塊最優(yōu))。
而本文這篇StackRec論文發(fā)現(xiàn),通過(guò)對(duì)序列推薦模型的殘差塊進(jìn)行微小的修改,在殘差塊的殘差映射上添加一個(gè)權(quán)重系數(shù),極深的網(wǎng)絡(luò)也能得到有效的穩(wěn)定的訓(xùn)練,從而緩解過(guò)擬合問(wèn)題。
具體來(lái)說(shuō),如圖1所示,我們可以對(duì)殘差塊中的殘差映射添加一個(gè)系數(shù),來(lái)衡量殘差映射的權(quán)重,信號(hào)傳播公式為:
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
其中,被初始化為0,使得殘差塊在初始化階段表示為一個(gè)單位函數(shù),從而滿足動(dòng)態(tài)等距理論 [1]。論文作者在NextItNet [2]上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)訓(xùn)練數(shù)據(jù)充足時(shí),隨著網(wǎng)絡(luò)深度的增加,推薦模型的表現(xiàn)越來(lái)越好,最多可使用128層的深度并獲得最優(yōu)性能,如圖2(b)所示。
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖1 改進(jìn)后的殘差塊結(jié)構(gòu)圖
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖2 不同訓(xùn)練數(shù)據(jù)量和網(wǎng)絡(luò)深度的影響

2

StackRec算法動(dòng)機(jī)

加深序列推薦模型帶來(lái)了明顯的精準(zhǔn)度提升,但訓(xùn)練時(shí)間也會(huì)受到影響。
一方面,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練本身就需要大量的時(shí)間來(lái)進(jìn)行計(jì)算和迭代優(yōu)化;
另一方面,在現(xiàn)實(shí)應(yīng)用中,推薦系統(tǒng)承載的用戶數(shù)量和物品數(shù)量往往可達(dá)到成百上千萬(wàn),交互記錄數(shù)量可達(dá)到數(shù)百億,這樣大規(guī)模訓(xùn)練數(shù)據(jù)的使用也在一定程度上增加了特別深模型的訓(xùn)練時(shí)間。如何在不損失精準(zhǔn)度的條件下提升深度序列推薦模型的訓(xùn)練效率是一個(gè)極具學(xué)術(shù)研究意義和商業(yè)應(yīng)用價(jià)值的問(wèn)題,StackRec論文對(duì)此進(jìn)行研究和探討。
論文對(duì)現(xiàn)有的深度序列推薦算法進(jìn)行觀察,總結(jié)了一些特點(diǎn)和規(guī)律:
1、現(xiàn)有的深度序列推薦模型呈現(xiàn)為“三明治”結(jié)構(gòu),包含三個(gè)模塊,底層是用于表示交互序列的嵌入表示層,頂層是用于生成預(yù)測(cè)結(jié)果概率分布的Softmax層,中間是多個(gè)隱含層(通常為殘差網(wǎng)絡(luò))。網(wǎng)絡(luò)的深度可以通過(guò)控制殘差塊的數(shù)量來(lái)改變。
2、最近的研究工作CpRec [3]展示了深度序列推薦模型的中間層參數(shù)可以通過(guò)多種方式跨層共享。例如,CpRec頂部的層/塊使用與底部完全相同的參數(shù),從而減少參數(shù)的存儲(chǔ)空間,實(shí)現(xiàn)模型壓縮。
3、如圖3所示,在深度序列推薦模型的中間層中,每?jī)蓚€(gè)相鄰殘差塊輸出的特征圖非常相似,這潛在地表明這些塊在某種程度上具有相似的功能。
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖3 殘差塊輸出的特征圖之間的余弦相似度
這些觀察表明,中間層學(xué)習(xí)到的知識(shí)可以通過(guò)某種方式進(jìn)行共享,因?yàn)樗鼈兇嬖诟叨鹊南嗨菩浴?/span>
這啟發(fā)了論文作者思考,能否先訓(xùn)練一個(gè)淺層推薦模型,然后復(fù)制其參數(shù)并堆疊出一個(gè)更深的模型。通過(guò)添加新的層,或許能夠擴(kuò)展模型容量,提高推薦精準(zhǔn)度。
通過(guò)為新加的層賦予較好的初始化參數(shù),或許能夠加快模型收斂,減少訓(xùn)練時(shí)間,事實(shí)上這種現(xiàn)象在CV和NLP等模型上也存在。

3

StackRec算法框架

StackRec算法的非常簡(jiǎn)單,就是采用對(duì)一個(gè)淺層序列推薦模型進(jìn)行多次層堆疊(Layer Stacking),從而得到一個(gè)深層序列推薦模型。
具體來(lái)說(shuō),訓(xùn)練過(guò)程包含以下步驟:
1)預(yù)訓(xùn)練一個(gè)淺層序列推薦模型;
2)對(duì)該模型進(jìn)行層堆疊,得到一個(gè)兩倍深度的模型;
3)微調(diào)這個(gè)深層模型;
4)將深層模型作為一個(gè)新的淺層模型,重復(fù)1)至3)直到滿足業(yè)務(wù)需求。
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖4 兩種按塊進(jìn)行的堆疊方式示意圖
對(duì)于步驟2),論文提出兩種按塊進(jìn)行的堆疊方式:相鄰塊堆疊(Adjacent-block Stacking)和交叉塊堆疊(Cross-block Stacking)。假設(shè)我們有一個(gè)訓(xùn)練好的擁有塊的模型(也就是淺層模型),那么我們可以通過(guò)復(fù)制這個(gè)淺層模型的參數(shù)來(lái)構(gòu)造一個(gè)擁有塊的深層模型。我們按照以下方式進(jìn)行相鄰塊堆疊:對(duì)于,深層模型的第個(gè)塊和第個(gè)塊與淺層模型的第個(gè)塊擁有相同的參數(shù)。同理,我們按照以下方式進(jìn)行交叉塊堆疊:對(duì)于,深層模型的個(gè)塊和第個(gè)塊與淺層模型的第個(gè)塊擁有相同的參數(shù)。圖4展示了相鄰塊堆疊和交叉塊堆疊這兩種堆疊方式,假設(shè)為2。這兩種堆疊方式是可以互相替代的。它們剛好對(duì)應(yīng)了CpRec中兩種按塊進(jìn)行的參數(shù)共享機(jī)制。
通過(guò)這兩種堆疊方式,步驟1)中訓(xùn)練好的淺層模型參數(shù)可以遷移到深層模型中,這對(duì)于深層模型來(lái)說(shuō)是一種很好的熱啟動(dòng)方式。通過(guò)步驟3)的微調(diào),深層模型能夠快速收斂,達(dá)到其最優(yōu)性能。這種方式比起標(biāo)準(zhǔn)的從頭開(kāi)始訓(xùn)練方式,能夠獲得一定程度的訓(xùn)練加速效果。而且StackRec算法可以循環(huán)執(zhí)行上述堆疊過(guò)程,快速獲得一個(gè)很深的模型。
StackRec算法是一個(gè)通用的框架,可以使用NextItNet、GRec、SASRec、SSEPT等深度序列推薦模型作為基準(zhǔn)模型,提升它們的訓(xùn)練效率。論文作者使用NextItNet作為案例來(lái)闡述StackRec算法的使用,但在實(shí)驗(yàn)中也報(bào)告了StackRec算法在其它模型上的性能表現(xiàn),以證明StackRec算法的通用性。
StackRec算法在三種場(chǎng)景中的應(yīng)用
論文作者將StackRec算法應(yīng)用到持續(xù)學(xué)習(xí)、從頭開(kāi)始訓(xùn)練、遷移學(xué)習(xí)這三種常見(jiàn)的推薦場(chǎng)景中。

(1)持續(xù)學(xué)習(xí)場(chǎng)景

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖5 持續(xù)學(xué)習(xí)場(chǎng)景中StackRec算法架構(gòu)圖
在真實(shí)的生產(chǎn)環(huán)境中,推薦系統(tǒng)會(huì)經(jīng)歷兩個(gè)階段:數(shù)據(jù)匱乏階段和數(shù)據(jù)充沛階段。
在數(shù)據(jù)匱乏階段,推薦系統(tǒng)處于使用初期,缺乏訓(xùn)練數(shù)據(jù),無(wú)論是用戶和物品數(shù)量還是交互行為數(shù)量都很有限。在這個(gè)冷啟動(dòng)階段,由于訓(xùn)練數(shù)據(jù)過(guò)于稀疏,使用淺層的推薦模型就足以獲得較好的性能。若使用深層的推薦模型,可能會(huì)遇到過(guò)擬合問(wèn)題,而且還會(huì)導(dǎo)致無(wú)意義的計(jì)算成本。
推薦系統(tǒng)部署上線后,隨著新數(shù)據(jù)的產(chǎn)生,訓(xùn)練數(shù)據(jù)逐漸累積,推薦系統(tǒng)進(jìn)入數(shù)據(jù)充沛階段,原有的淺層模型表達(dá)能力不足,我們需要重新構(gòu)建并訓(xùn)練一個(gè)更深的網(wǎng)絡(luò)以獲得容量更大的模型,從而實(shí)現(xiàn)更好的推薦精準(zhǔn)度。
在這樣的場(chǎng)景中,StackRec算法就能起到很大的作用,因?yàn)樗軌驈臏\層模型中遷移有用的知識(shí)到目標(biāo)深層模型中,加速深層模型的訓(xùn)練,這使得我們不需要從頭開(kāi)始訓(xùn)練一個(gè)模型。
更具前瞻性的是,真實(shí)的推薦系統(tǒng)會(huì)持續(xù)產(chǎn)生新的訓(xùn)練樣本,最終能夠變成終身學(xué)習(xí)(Lifelong Learning)系統(tǒng)。StackRec算法能夠輕松地訓(xùn)練一個(gè)層數(shù)更多、容量更大的推薦模型,即時(shí)應(yīng)用到終身學(xué)習(xí)系統(tǒng)中。
我們將這種推薦場(chǎng)景命名為持續(xù)學(xué)習(xí)(Continual Learning,CL)場(chǎng)景
算法 1 持續(xù)學(xué)習(xí)場(chǎng)景中的逐步堆疊

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型

StackRec算法在CL場(chǎng)景中的使用如圖5所示。假設(shè)是訓(xùn)練樣本,是在系統(tǒng)上收集訓(xùn)練樣本的時(shí)間刻度。在初始時(shí)刻,我們用樣本訓(xùn)練一個(gè)隨機(jī)初始化的有個(gè)塊的淺層NextItNet,并將得到的模型部署上線。推薦系統(tǒng)處于冷啟動(dòng)狀態(tài),模型開(kāi)始提供服務(wù)。當(dāng)系統(tǒng)積累了更多的訓(xùn)練數(shù)據(jù)(包含),模型由于網(wǎng)絡(luò)較淺,無(wú)法實(shí)現(xiàn)最優(yōu)的性能。此時(shí)我們希望使用一個(gè)層數(shù)更多、表達(dá)能力更強(qiáng)的模型,于是,我們執(zhí)行StackRec的堆疊操作,將NextItNet的層數(shù)翻倍為個(gè)塊。
由于網(wǎng)絡(luò)的連接突然發(fā)生變化,深層網(wǎng)絡(luò)需要在樣本上進(jìn)行微調(diào)直到收斂,即可得到模型。真實(shí)的推薦系統(tǒng)每天都會(huì)產(chǎn)生大量新的數(shù)據(jù),上述堆疊和微調(diào)操作可以重復(fù)執(zhí)行下去。算法1展示了這樣的逐步堆疊過(guò)程。事實(shí)上,按照這樣的方式,StackRec可以被視作終身學(xué)習(xí)模型,輕松快捷地獲得一個(gè)深度模型并投入使用。
(2)從頭開(kāi)始訓(xùn)練場(chǎng)景
在具體實(shí)踐中,不同于持續(xù)學(xué)習(xí)場(chǎng)景,有時(shí)候我們需要從頭開(kāi)始訓(xùn)練一個(gè)新的深度序列推薦模型,而不利用舊模型的知識(shí)。在這種從頭開(kāi)始訓(xùn)練(Training from Scratch,TS)場(chǎng)景中,StackRec算法同樣能夠起到一定程度的訓(xùn)練加速作用。當(dāng)我們需要一個(gè)深層模型時(shí),我們可以先訓(xùn)練一個(gè)淺層模型若干步,接著使用StackRec算法將它復(fù)制并堆疊成深層模型,然后進(jìn)一步訓(xùn)練它直到收斂。
與CL場(chǎng)景相比,StackRec算法在TS場(chǎng)景中的使用有兩個(gè)不同點(diǎn):
1、淺層模型使用全部數(shù)據(jù)進(jìn)行訓(xùn)練,而非部分?jǐn)?shù)據(jù);
2、淺層模型不能訓(xùn)練直到收斂。
如果我們知道訓(xùn)練一個(gè)模型直到收斂的總步數(shù),那么我們只需要訓(xùn)練淺層模型大約其步即可。在TS場(chǎng)景中,StackRec算法能夠幫助我們減少模型訓(xùn)練時(shí)間,是因?yàn)橛?xùn)練淺層模型所需時(shí)間更少,速度更快,并且堆疊方式中的知識(shí)遷移也帶來(lái)一定的訓(xùn)練加速作用。
值得注意的是,淺層模型和深層模型使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練,如果將淺層模型訓(xùn)練直到收斂,那么深層模型會(huì)快速過(guò)擬合,無(wú)法找到更優(yōu)的參數(shù)空間。算法 2闡述了StackRec算法在從頭開(kāi)始訓(xùn)練場(chǎng)景中的使用。
算法 2 從頭開(kāi)始訓(xùn)練場(chǎng)景中的逐步堆疊

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型

(3)遷移學(xué)習(xí)場(chǎng)景
序列推薦模型可以通過(guò)無(wú)監(jiān)督/自監(jiān)督方式來(lái)訓(xùn)練,因此模型的輸出可以被視作個(gè)性化的用戶表示,并遷移到下游任務(wù)中,解決下游任務(wù)的用戶冷啟動(dòng)問(wèn)題。PeterRec是第一個(gè)展示序列推薦模型具有遷移學(xué)習(xí)能力的工作。
受此啟發(fā),StackRec論文試圖探索StackRec算法能否作為通用的預(yù)訓(xùn)練模型,有效地應(yīng)用到下游任務(wù)中。
因此,在遷移學(xué)習(xí)(Transfer Learning,TF)場(chǎng)景中,我們可以使用StackRec算法訓(xùn)練一個(gè)深度序列推薦模型作為預(yù)訓(xùn)練模型,然后應(yīng)用到下游任務(wù)中。根據(jù)實(shí)際業(yè)務(wù)需要,我們可以自由地選擇使用CL場(chǎng)景中的StackRec算法過(guò)程,或是TS場(chǎng)景中的StackRec算法過(guò)程。論文作者按照CL場(chǎng)景的算法過(guò)程來(lái)展示StackRec算法在TF場(chǎng)景中的表現(xiàn)。
事實(shí)證明,在TF場(chǎng)景中,StackRec算法同樣能夠用于加速預(yù)訓(xùn)練模型的訓(xùn)練,并且成功遷移到下游任務(wù)中,不損失預(yù)訓(xùn)練模型和目標(biāo)模型的精準(zhǔn)度。

4

實(shí)驗(yàn)

論文作者在ML20、Kuaibao和ColdRec這三個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),使用MRR@N、HR@N和NDCG@N這三個(gè)評(píng)估指標(biāo)來(lái)評(píng)估模型的推薦精準(zhǔn)度,并報(bào)告了相對(duì)于基準(zhǔn)模型的訓(xùn)練加速比Speedup以分析訓(xùn)練效率。
其中StackA-Next-k:代表使用相鄰塊堆疊方式的StackRec;StackC-Next-k:代表使用交叉塊堆疊方式的StackRec,后綴-k表示所含塊數(shù)。
(1)StackRec算法在持續(xù)學(xué)習(xí)場(chǎng)景中的表現(xiàn)
這個(gè)實(shí)驗(yàn)?zāi)M了持續(xù)學(xué)習(xí)場(chǎng)景中數(shù)據(jù)不斷增加的過(guò)程。由表1可見(jiàn),首先,在ML20和Kuaibao這兩個(gè)數(shù)據(jù)集上,NextItNet-8 () 比NextItNet-4 () 表現(xiàn)得更好,這表明當(dāng)序列推薦模型擁有更多訓(xùn)練數(shù)據(jù)時(shí),使用一個(gè)更深的網(wǎng)絡(luò)結(jié)構(gòu)能獲得更高的精準(zhǔn)度。其它設(shè)置(和)下的實(shí)驗(yàn)結(jié)果也展示了相同的情況。
然而,從頭開(kāi)始訓(xùn)練一個(gè)更深的模型需要花費(fèi)更多的計(jì)算成本和訓(xùn)練時(shí)間。而StackRec模型,包括StackC-Next-8和StackA-Next-8,實(shí)現(xiàn)了與NextItNet-8 () 同等甚至更好的推薦精準(zhǔn)度,同時(shí)獲得2.5倍的訓(xùn)練加速效果。
這表明,使用好的參數(shù)初始化方式來(lái)熱啟動(dòng)深度序列推薦模型,能使模型在微調(diào)過(guò)程中快速收斂,并保持同等的精準(zhǔn)度。圖6展示了相應(yīng)的收斂過(guò)程,很明顯,在相同的層數(shù)下,StackRec比NextItNet收斂更快,推薦精準(zhǔn)度也略高。
表1 持續(xù)學(xué)習(xí)場(chǎng)景中的實(shí)驗(yàn)結(jié)果
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖6 持續(xù)學(xué)習(xí)場(chǎng)景中的收斂過(guò)程
(2)StackRec算法在從頭開(kāi)始訓(xùn)練場(chǎng)景中的表現(xiàn)
為了獲得一個(gè)32塊的StackRec,首先可以訓(xùn)練一個(gè)8塊的NextItNet(訓(xùn)練時(shí)間用黃色線表示),然后使用相鄰塊堆疊將它加深為16塊,并執(zhí)行微調(diào)(訓(xùn)練時(shí)間用橙色線表示);而后,進(jìn)一步將它加深為32塊,并訓(xùn)練直到收斂(訓(xùn)練時(shí)間用紅色線表示)。
由圖7可見(jiàn),在ML20數(shù)據(jù)集上,StackRec總的訓(xùn)練時(shí)間縮短了40%(280分鐘相對(duì)于490分鐘),在Kuaibao數(shù)據(jù)集上則縮短了35%(480分鐘相對(duì)于740分鐘)。
StackRec能夠獲得訓(xùn)練加速的原因在于:
1、訓(xùn)練一個(gè)淺層模型需要的時(shí)間更少;
2、從淺層模型遷移參數(shù)來(lái)熱啟動(dòng)深層模型有助于訓(xùn)練收斂。
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
圖7 從頭開(kāi)始訓(xùn)練場(chǎng)景中的訓(xùn)練曲線
(3)StackRec算法在遷移學(xué)習(xí)場(chǎng)景中的表現(xiàn)
為了檢驗(yàn)StackRec算法的遷移學(xué)習(xí)能力,我們?cè)贑oldRec的源域數(shù)據(jù)集上使用StackRec算法預(yù)訓(xùn)練一個(gè)模型,然后簡(jiǎn)單地在最后一個(gè)隱含層后面增加一個(gè)新的Softmax層。原有的層使用預(yù)訓(xùn)練的參數(shù),新的層使用隨機(jī)初始化參數(shù),隨后,在目標(biāo)域數(shù)據(jù)集上微調(diào)所有參數(shù)。
從表2可以看出,StackRec相比于NextItNet-16獲得3倍的訓(xùn)練加速,并且它的精準(zhǔn)度在預(yù)訓(xùn)練和微調(diào)后沒(méi)有任何損失。在實(shí)際應(yīng)用中,預(yù)訓(xùn)練模型通常需要使用一個(gè)大規(guī)模數(shù)據(jù)集進(jìn)行長(zhǎng)時(shí)間的訓(xùn)練,對(duì)高性能硬件資源和時(shí)間成本的需求阻礙了它的應(yīng)用落地,預(yù)訓(xùn)練模型的訓(xùn)練效率成為遷移學(xué)習(xí)的關(guān)鍵問(wèn)題。StackRec算法能在這樣的遷移學(xué)習(xí)場(chǎng)景中起到很大作用。
表2 遷移學(xué)習(xí)場(chǎng)景中的實(shí)驗(yàn)結(jié)果
100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型
(4)另外,StackRec論文還進(jìn)行了大量消融分析和通用性證明實(shí)驗(yàn),包括不同堆疊方式的比較、不同堆疊塊數(shù)的比較、不同基準(zhǔn)模型的實(shí)例化等實(shí)驗(yàn),以探究StackRec算法的合理性、有效性、靈活性和通用性。
具體實(shí)驗(yàn)結(jié)果可查閱論文原文。

5

總結(jié)

StackRec論文探究了深度序列推薦模型中網(wǎng)絡(luò)深度的影響,發(fā)現(xiàn)了模型隱含層之間具有很高的相似性,然后設(shè)計(jì)了相鄰塊堆疊和交叉塊堆疊兩種堆疊方式。
并將算法實(shí)例化到NexItNet等多個(gè)序列推薦模型上,應(yīng)用到持續(xù)學(xué)習(xí)、從頭開(kāi)始訓(xùn)練、遷移學(xué)習(xí)三個(gè)推薦場(chǎng)景中,在不損失推薦精準(zhǔn)度的條件下,實(shí)現(xiàn) 2倍以上的訓(xùn)練加速效果。
值得注意的是,StackRec僅僅適用于training階段,對(duì)于線上推理階段深度序列推薦模型加速問(wèn)題,可以參考同時(shí)期工作SkipRec [4]發(fā)表在AAAI2021。
參考文獻(xiàn):
[1] Dynamical isometry and a mean field theory of cnns: How to Train 10,000- Layer Vanilla Convolutional Neural Networks. Xiao et al, ICML2018
[2] A Simple Convolutional Generative Network for Next Item Recommendation. Yuan et al. WSDM2019
[3] A Generic Network Compression Framework for Sequential Recommender Systems. Sun et al. SIGIR2020
[4] SkipRec: A User-Adaptive Layer Selection Framework for Very Deep Sequential Recommender Models. Chen et al. AAAI2021

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

100層序列推薦模型也能被加速訓(xùn)練!這篇頂會(huì)論文帶你探索Very Deep RS模型

分享:
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)