久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給MrBear
發(fā)送

0

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

本文作者: MrBear 編輯:汪思穎 2018-04-16 09:59
導(dǎo)語(yǔ):僅僅通過(guò)精確率就能真正判斷一個(gè)分類(lèi)模型的性能優(yōu)劣嗎?當(dāng)然不是這樣

雷鋒網(wǎng) AI 研習(xí)社按:為你的分類(lèi)器選擇正確的評(píng)價(jià)指標(biāo)十分關(guān)鍵。如果選不好,你可能會(huì)陷入這樣的困境:你認(rèn)為自己的模型性能良好,但實(shí)際上并非如此。

近日,towardsdatascience 上的一篇文章就深入介紹了分類(lèi)器的評(píng)價(jià)指標(biāo),以及應(yīng)該在什么場(chǎng)景下使用,雷鋒網(wǎng) AI 研習(xí)社將內(nèi)容編譯整理如下:

在本文中,你將了解到為什么評(píng)價(jià)分類(lèi)器比較困難;為什么在大多數(shù)情況下,一個(gè)看起來(lái)分類(lèi)準(zhǔn)確率很高的分類(lèi)器性能卻沒(méi)有那么理想;什么是正確的分類(lèi)器評(píng)價(jià)指標(biāo);你應(yīng)該在何時(shí)使用這些評(píng)價(jià)指標(biāo);如何創(chuàng)造一個(gè)你期望的高準(zhǔn)確率的分類(lèi)器。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

目錄

  • 評(píng)價(jià)指標(biāo)為什么如此重要?

  • 混淆矩陣

  • 準(zhǔn)確度和召回率

  • F-Score

  • 精確率和召回率的折衷

  • 精確率和召回率的曲線

  • ROC、AUC 曲線和 ROC、AUC 值

  • 總結(jié)

評(píng)價(jià)指標(biāo)為什么如此重要?

通常來(lái)說(shuō),評(píng)價(jià)一個(gè)分類(lèi)器要比評(píng)價(jià)一個(gè)回歸算法困難得多。著名的 MNIST 數(shù)據(jù)集是一個(gè)很好的例子,它包含多張從 0 到 9 的手寫(xiě)數(shù)字圖片。如果我們想要構(gòu)建一個(gè)分類(lèi)器來(lái)判斷數(shù)值是否為 6,構(gòu)建一個(gè)算法將所有的輸入分類(lèi)為非 6,然后你將在 MNIST 數(shù)據(jù)集中獲得 90% 的準(zhǔn)確率,因?yàn)閿?shù)據(jù)集中只有大約 10% 的圖像是 6。這是機(jī)器學(xué)習(xí)中一個(gè)主要的問(wèn)題,也是你需要多用幾個(gè)評(píng)價(jià)指標(biāo)測(cè)試你的分類(lèi)器的原因。

混淆矩陣

首先,你可以了解一下混淆矩陣,它也被稱(chēng)為誤差矩陣。它是一個(gè)描述監(jiān)督學(xué)習(xí)模型在測(cè)試數(shù)據(jù)上的性能的表格,其中真實(shí)的值是未知的。矩陣的每一行表示預(yù)測(cè)出的類(lèi)中的實(shí)例,而每一列則表示實(shí)際類(lèi)別中的實(shí)例(反之亦然)。它被稱(chēng)之為「混淆矩陣」的原因是,利用它你很容易看出系統(tǒng)在哪些地方將兩個(gè)類(lèi)別相混淆了。

你可以在下圖中看到在 MNIST 數(shù)據(jù)集上使用 sklearn 中的「confusion_matrix()」函數(shù)得到的輸出:

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)


每一行表示一個(gè)實(shí)際的類(lèi)別,每一列表示一個(gè)預(yù)測(cè)的類(lèi)別。

第一行是實(shí)際上「非 6」(負(fù)類(lèi))的圖像個(gè)數(shù)。其中,53459 張圖片被正確分類(lèi)為「非 6」(被稱(chēng)為「真正類(lèi)」)。其余的 623 張圖片則被錯(cuò)誤地分類(lèi)為「6」(假正類(lèi))。

第二行表示真正為「6」的圖像。其中,473 張圖片被錯(cuò)誤地分類(lèi)為「非 6」(假負(fù)類(lèi)),5445 張圖片被正確分類(lèi)為「6」(真正類(lèi))。

請(qǐng)注意,完美的分類(lèi)器會(huì) 100% 地正確,這意味著它只有真正類(lèi)和真負(fù)類(lèi)。

精確率和召回率

一個(gè)混淆矩陣可以給你很多關(guān)于你的(分類(lèi))模型做的有多好的信息,但是有一種方法可以讓你得到更多的信息,比如計(jì)算分類(lèi)的精確率(precision)。說(shuō)白了,它就是預(yù)測(cè)為正的樣本的準(zhǔn)確率(accuracy),并且它經(jīng)常是和召回率(recall,即正確檢測(cè)到的正實(shí)例在所有正實(shí)例中的比例)一起看的。

sklearn 提供了計(jì)算精確率和召回率的內(nèi)置函數(shù):

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

現(xiàn)在,我們有了一個(gè)更好的評(píng)價(jià)分類(lèi)器的指標(biāo)。我們的模型將圖片預(yù)測(cè)為「6」的情況有 89% 是正確的。召回率告訴我們它將 92% 的真正為「6」的實(shí)例預(yù)測(cè)為「6」。

當(dāng)然,還有更好的評(píng)價(jià)方法。

F-值

你可以把精確率和召回率融合到一個(gè)單獨(dú)的評(píng)價(jià)指標(biāo)中,它被稱(chēng)為「F-值」(也被稱(chēng)為「F1-值」)。如果你想要比較兩個(gè)分類(lèi)器,F(xiàn)-值會(huì)很有用。它是利用精確率和召回率的調(diào)和平均數(shù)計(jì)算的,并且它將給低的數(shù)值更大的權(quán)重。這樣一來(lái),只有精確率和召回率都很高的時(shí)候,分類(lèi)器才會(huì)得到高 F-1 值。通過(guò) sklearn 很容易就能計(jì)算 F 值。

從下圖中,你可以看到我們的模型得到了 0.9 的 F-1 值:

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

不過(guò) F-值并不是萬(wàn)能的「圣杯」,精確率和召回率接近的分類(lèi)器會(huì)有更好的 F-1 分?jǐn)?shù)。這是一個(gè)問(wèn)題,因?yàn)橛袝r(shí)你希望精確率高,而有時(shí)又希望召回率高。事實(shí)上,精確率越高會(huì)導(dǎo)致召回率越低,反之亦然。這被稱(chēng)為精確率和召回率的折衷,我們將在下一個(gè)章節(jié)討論。

精確率和召回率的折衷

為了更好地解釋?zhuān)覍⑴e一些例子,來(lái)說(shuō)明何時(shí)希望得到高精確率,何時(shí)希望得到高召回率。

高精確率:

如果你訓(xùn)練了一個(gè)用于檢測(cè)視頻是否適合孩子看的分類(lèi)器,你可能希望它有高的精確率。這意味著,這個(gè)你希望得到的分類(lèi)器可能會(huì)拒絕掉很多適合孩子的視頻,但是不會(huì)給你包含成人內(nèi)容的視頻,因此它會(huì)更加保險(xiǎn)。(換句話說(shuō),精確率很高)

高召回率:

如果你想訓(xùn)練一個(gè)分類(lèi)器來(lái)檢測(cè)試圖闖入大樓的人,這就需要高召回率了??赡芊诸?lèi)器只有 25% 的精確率(因此會(huì)導(dǎo)致一些錯(cuò)誤的警報(bào)),只要這個(gè)分類(lèi)器有 99% 的召回率并且?guī)缀趺看斡腥嗽噲D闖入時(shí)都會(huì)向你報(bào)警,但看來(lái)是一個(gè)不錯(cuò)的分類(lèi)器。

為了更好地理解這種折衷,我們來(lái)看看隨機(jī)梯度下降(SGD)的分類(lèi)器如何在 MNIST 數(shù)據(jù)集上做出分類(lèi)決策。對(duì)于每一個(gè)需要分類(lèi)的圖像,它根據(jù)一個(gè)決策函數(shù)計(jì)算出分?jǐn)?shù),并將圖像分類(lèi)為一個(gè)數(shù)值(當(dāng)分?jǐn)?shù)大于閾值)或另一個(gè)數(shù)值(當(dāng)分?jǐn)?shù)小于閾值)。

下圖顯示了分?jǐn)?shù)從低(左側(cè))到高(右側(cè))排列的手寫(xiě)數(shù)字。假設(shè)你有一個(gè)分類(lèi)器,它被用于檢測(cè)出「5」,并且閾值位于圖片的中間(在中央的箭頭所指的地方)。接著,你會(huì)在這個(gè)閾值右邊看到 4 個(gè)真正類(lèi)(真正為「5」的實(shí)例)和 1 個(gè)假正類(lèi)(實(shí)際上是一個(gè)「6」)。這一閾值會(huì)有 80% 的精確率(五分之四),但是它僅僅只能從圖片中所有的 6 個(gè)真正的「5」中找出 4 個(gè)來(lái),因此召回率為 67%(六分之四)。如果你現(xiàn)在將閾值移到右側(cè)的那個(gè)箭頭處,這將導(dǎo)致更高的精確率,但召回率更低,反之亦然(如果你將閾值移動(dòng)到左側(cè)的箭頭處)。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

精確率/召回率曲線

精確率和召回率之間的折衷可以用精確率-召回率曲線觀察到,它能夠讓你看到哪個(gè)閾值最佳。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

另一種方法是將精確率和召回率以一條曲線畫(huà)出來(lái):

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

在上圖中,可以清晰地看到,當(dāng)精確率大約為 95% 時(shí),精準(zhǔn)率升高,召回率迅速下降。根據(jù)上面的兩張圖,你可以選擇一個(gè)為你當(dāng)前的機(jī)器學(xué)習(xí)任務(wù)提供最佳精確率/召回率折衷的閾值。如果你想得到 85% 的精確率,可以查看第一張圖,閾值大約為 50000。

ROC、AUC 曲線和 ROC、AUC 值

ROC 曲線是另一種用于評(píng)價(jià)和比較二分類(lèi)器的工具。它和精確率/召回率曲線有著很多的相似之處,當(dāng)然它們也有所不同。它將真正類(lèi)率(true positive rate,即recall)和假正類(lèi)率(被錯(cuò)誤分類(lèi)的負(fù)實(shí)例的比例)對(duì)應(yīng)著繪制在一張圖中,而非使用精確率和召回率。


機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

當(dāng)然,在這里也有所折衷。分類(lèi)器產(chǎn)生越多的假正類(lèi),真正類(lèi)率就會(huì)越高。中間的紅線是一個(gè)完全隨機(jī)的分類(lèi)器,分類(lèi)器的曲線應(yīng)該盡可能地遠(yuǎn)離它。

通過(guò)測(cè)量 ROC 曲線下方的面積( AUC),ROC 曲線為比較兩個(gè)分類(lèi)器的性能提供了一種方法。這個(gè)面積被稱(chēng)作 ROC AUC值,100% 正確的分類(lèi)器的 ROC AUC 值為 1。

一個(gè)完全隨機(jī)的分類(lèi)器 ROC AUC 為 0.5。下圖中是 MNIST 模型的輸出:

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

總結(jié)

通過(guò)以上介紹,大家將學(xué)習(xí)到如果評(píng)價(jià)分類(lèi)器,以及用哪些工具去評(píng)價(jià)。此外,還能學(xué)到如何對(duì)精確率和召回率進(jìn)行折衷,以及如何通過(guò) ROC AUC 曲線比較不同分類(lèi)器的性能。

我們還了解到,精確率高的分類(lèi)器并不像聽(tīng)起來(lái)那么令人滿意:因?yàn)楦呔_率意味著低召回率。

下次當(dāng)你聽(tīng)到有人說(shuō)一個(gè)分類(lèi)器有 99% 的精確率或準(zhǔn)確率時(shí),你就知道你應(yīng)該問(wèn)問(wèn)他這篇帖子中討論的其它指標(biāo)如何。

資源鏈接

https://en.wikipedia.org/wiki/Confusion_matrix

https://github.com/Donges-Niklas/Classification-Basics/blob/master/Classification_Basics.ipynb

https://www.amazon.de/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=sr_1_1?ie=UTF8&qid=1522746048&sr=8-1&keywords=hands+on+machine+learning

via towardsdatascience

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái),帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)