久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給奕欣
發(fā)送

1

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

本文作者: 奕欣 2018-03-06 15:14
導語:在WSDM 2018上,阿里集團 AliOS 算法團隊獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績

雷鋒網(wǎng) AI 科技評論按:在 2 月份舉行的第 11 屆網(wǎng)絡搜索與數(shù)據(jù)挖掘國際會議(WSDM 2018)上,阿里集團 AliOS 算法團隊獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績,這是中國企業(yè)首次在該賽事上取得的最高名次。

WSDM 被譽為信息檢索領域最頂級的會議之一,會議的關注點為搜索、數(shù)據(jù)檢索、數(shù)據(jù)挖掘、算法設計、算法分析、經(jīng)濟影響方面的實際且嚴謹?shù)难芯?,以及對準確率和運行速度的深入實驗探究。今年已經(jīng)是 WSDM 的第十一屆會議。

本次 WSDM Cup 有來自全球 575 支隊伍參賽。會議共收到論文投稿 514 篇,接受論文 84 篇,接受率約 16%。

此次比賽出題方是一家名為 KKBOX 的流媒體音樂公司,賽題內(nèi)容是預測 3 月訂閱到期的用戶中,哪些會流失。為解決該題,阿里巴巴使用了兩層 Stacking Model,第一層采用邏輯回歸、隨機森林、XGBoost 算法,第二層又采用 XGBoost 算法把第一層的結(jié)果融合。流失用戶預測,對有會員體系的業(yè)務場景都可以使用,其中會員付費為主要收入的業(yè)務就更為關鍵,比如像 Apple Music、蝦米音樂。多層 Stacking Model 由 AliOS 神燈研發(fā),極大提升了分類預測的準確率,已廣泛應用于 AliOS 多項業(yè)務中。

以下為阿里集團的論文解讀。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

1. 介紹

KKBOX 是亞洲一家音樂流媒體公司,其業(yè)務模式與 Spotify 和 Apple Music 類似。對于音樂流媒體業(yè)務來說,付費會員非常重要,不僅直接影響訂閱收入,還會間接影響廣告收入。

本次比賽的目標是利用 KKBOX 真實的用戶行為數(shù)據(jù),預測會員是否會流失。比賽中我們面臨了很多挑戰(zhàn),如正負樣本不均衡、臟數(shù)據(jù)等問題。我們采取了一些列措施來解決這些問題,比如建立數(shù)據(jù)清洗和交叉驗證機制,使用 Stacking Model 來提升準確率。

2. 問題定義

本次比賽的目標是預測當月會員到期的用戶中哪些會流失。這里「流失」的定義是會員到期后 30 天內(nèi)沒有續(xù)費。

本次比賽的結(jié)果采用 Log Loss 進行評估,Log Loss 的計算公式如下:

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

公式中,N 表示測試樣本數(shù),表示測試樣本最終是否流失(1 表示流失,0 表示沒有流失),為模型預測用戶是否會流失的概率(取值 0-1)。

3. 方法

考慮到模型的數(shù)據(jù)量和開發(fā)效率,我們采用了阿里云的 DataWorks 作為開發(fā)平臺。

3.1 數(shù)據(jù)預處理

比賽提供了三份數(shù)據(jù),分別是用戶的訂單明細、聽歌日志和人口統(tǒng)計學信息。見下表:

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

臟數(shù)據(jù)問題例如年齡數(shù)值小于 0 或者大于 100,注冊時間和支付金額中的極端異常值。我們處理臟數(shù)據(jù)的方式包括根據(jù)分布將異常值轉(zhuǎn)換為合理取值,刪除無法解釋且不包含重要信息的數(shù)據(jù)。

訓練樣本中,is_churn 是樣本的 label,訓練樣本取自 2017 年 2 月和 3 月訂閱到期的用戶。訓練數(shù)據(jù)的正負樣本極不均衡,以 2 月份訂閱到期的訓練樣本為例,在總共 992931 條數(shù)據(jù)中,is_churn = 1 的樣本只有 63471,占比 6.4%。

傳統(tǒng)的分類算法比如決策樹和邏輯回歸都是對正負樣本比例有要求。我們使用欠采樣的方式對訓練樣本進行了處理,分別嘗試了 1:3,1:5,1:8 的正負樣本配比,在最終模型中,我們根據(jù)交叉驗證的結(jié)果選擇了最優(yōu)配比。

3.2 特征工程

特征工程階段,我們從計算邏輯、時間窗、額外條件三個維度將數(shù)據(jù)進行組合。如下圖,右邊特征列表中 last_7_auto_tran_cnt 表示最近 7 天(時間窗)自動完成的(額外條件)訂單筆數(shù)(計算邏輯)。特征組合完成后,我們對特征還要一系列的處理,如 log 轉(zhuǎn)換、one-hot 編碼。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

我們通過交叉驗證來測試特征的有效性。在交叉驗證中我們發(fā)現(xiàn),最有效的特征包括:1. 最近 60 或 90 天自動完成的訂單筆數(shù) 2. 最近一筆交易是否被取消或自動完成 3. 賬號注冊的方式。最終,我們提取了 300 多個特征,并根據(jù)交叉驗證的結(jié)果留下了 204 個特征。

3.3 模型

我們使用了一個兩階段模型來預測最終的流失情況。如下圖,在第一階段,提取出的特征會輸入邏輯回歸、隨機森林、XGBoost 三個模型,而第一階段模型的輸出會被當做第二階段的特征,最終組成一個 Stacking Model。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

如下圖,我們采用了 5-fold stacking 策略。

在第一階段,將訓練數(shù)據(jù)均勻地分成 5 份,使用「留一法」訓練 5 個邏輯回歸模型,用這 5 個模型分別去預測剩下的一份訓練數(shù)據(jù)和測試數(shù)據(jù),將 5 份預測的訓練數(shù)據(jù)合并,可以得到一份新的訓練數(shù)據(jù) NewTrainingData,將 5 份預測的測試數(shù)據(jù)采用均值法合并,得到一份新的測試數(shù)據(jù) NewTestData。用同樣的方法再分別訓練隨機森林和 XGBoost,新的訓練和測試數(shù)據(jù)上,就可以得到 3 個模型的分數(shù)。

第二階段,將上一階段的 NewTraningData 作為訓練數(shù)據(jù),NewTestData 作為測試數(shù)據(jù),重新訓練一個 XGBoost 模型,得到最終的預測分數(shù)。這種方法可以避免過擬合,學習出特征之間組合的信息,還能提高預測的準確率。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

3.4 模型評估

交叉驗證不僅可以做特征篩選,在模型階段,還給調(diào)參、Stacking Model 策略的調(diào)整提供依據(jù)。下圖可以看到我們每一步的優(yōu)化帶來的提升,最初的 LR 模型可以得到 0.2106 的分數(shù),XGBoost 和特征提取技術可以把分數(shù)提升到 0.1151,最終 Stacking Model 和調(diào)參讓我們得到 0.0934 的分數(shù)。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

4. 結(jié)論

本文我們介紹了在參加 WSDM Cup 2018 中所做的實踐,最終我們獲得了第二名的成績。對幾個關鍵的優(yōu)化技術在文中做了闡述,如數(shù)據(jù)預處理階段的欠采樣、特征提取方式、Stacking Model。通過分析和測試,我們發(fā)現(xiàn)這些方法都可以提升預測的準確率,后續(xù)我們還將測試更多的超參數(shù),并引入深度學習進行優(yōu)化。

論文原文地址:

https://wsdm-cup-2018.kkbox.events/pdf/7_A_Practical_Pipeline_with_Stacking_Models_for_KKBOXs_Churn_Prediction_Challenge.pdf


現(xiàn)在關注“雷鋒網(wǎng)”微信公眾號(leiphone-sz),回復關鍵詞【2018】,隨機抽送價值 3999 元的參會門票 3 張

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎論文全解讀

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說