機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

本文作者： MrBear

編輯：汪思穎

2018-04-16 09:59

導(dǎo)語(yǔ)：僅僅通過(guò)精確率就能真正判斷一個(gè)分類(lèi)模型的性能優(yōu)劣嗎？當(dāng)然不是這樣

雷鋒網(wǎng) AI 研習(xí)社按：為你的分類(lèi)器選擇正確的評(píng)價(jià)指標(biāo)十分關(guān)鍵。如果選不好，你可能會(huì)陷入這樣的困境：你認(rèn)為自己的模型性能良好，但實(shí)際上并非如此。

近日，towardsdatascience 上的一篇文章就深入介紹了分類(lèi)器的評(píng)價(jià)指標(biāo)，以及應(yīng)該在什么場(chǎng)景下使用，雷鋒網(wǎng) AI 研習(xí)社將內(nèi)容編譯整理如下：

在本文中，你將了解到為什么評(píng)價(jià)分類(lèi)器比較困難；為什么在大多數(shù)情況下，一個(gè)看起來(lái)分類(lèi)準(zhǔn)確率很高的分類(lèi)器性能卻沒(méi)有那么理想；什么是正確的分類(lèi)器評(píng)價(jià)指標(biāo)；你應(yīng)該在何時(shí)使用這些評(píng)價(jià)指標(biāo)；如何創(chuàng)造一個(gè)你期望的高準(zhǔn)確率的分類(lèi)器。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

評(píng)價(jià)指標(biāo)為什么如此重要？
混淆矩陣
準(zhǔn)確度和召回率
F-Score
精確率和召回率的折衷
精確率和召回率的曲線
ROC、AUC 曲線和 ROC、AUC 值
總結(jié)

評(píng)價(jià)指標(biāo)為什么如此重要？

通常來(lái)說(shuō)，評(píng)價(jià)一個(gè)分類(lèi)器要比評(píng)價(jià)一個(gè)回歸算法困難得多。著名的 MNIST 數(shù)據(jù)集是一個(gè)很好的例子，它包含多張從 0 到 9 的手寫(xiě)數(shù)字圖片。如果我們想要構(gòu)建一個(gè)分類(lèi)器來(lái)判斷數(shù)值是否為 6，構(gòu)建一個(gè)算法將所有的輸入分類(lèi)為非 6，然后你將在 MNIST 數(shù)據(jù)集中獲得 90% 的準(zhǔn)確率，因?yàn)閿?shù)據(jù)集中只有大約 10% 的圖像是 6。這是機(jī)器學(xué)習(xí)中一個(gè)主要的問(wèn)題，也是你需要多用幾個(gè)評(píng)價(jià)指標(biāo)測(cè)試你的分類(lèi)器的原因。

混淆矩陣

首先，你可以了解一下混淆矩陣，它也被稱(chēng)為誤差矩陣。它是一個(gè)描述監(jiān)督學(xué)習(xí)模型在測(cè)試數(shù)據(jù)上的性能的表格，其中真實(shí)的值是未知的。矩陣的每一行表示預(yù)測(cè)出的類(lèi)中的實(shí)例，而每一列則表示實(shí)際類(lèi)別中的實(shí)例（反之亦然）。它被稱(chēng)之為「混淆矩陣」的原因是，利用它你很容易看出系統(tǒng)在哪些地方將兩個(gè)類(lèi)別相混淆了。

你可以在下圖中看到在 MNIST 數(shù)據(jù)集上使用 sklearn 中的「confusion_matrix（）」函數(shù)得到的輸出：

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

每一行表示一個(gè)實(shí)際的類(lèi)別，每一列表示一個(gè)預(yù)測(cè)的類(lèi)別。

第一行是實(shí)際上「非 6」（負(fù)類(lèi)）的圖像個(gè)數(shù)。其中，53459 張圖片被正確分類(lèi)為「非 6」（被稱(chēng)為「真正類(lèi)」）。其余的 623 張圖片則被錯(cuò)誤地分類(lèi)為「6」（假正類(lèi)）。

第二行表示真正為「6」的圖像。其中，473 張圖片被錯(cuò)誤地分類(lèi)為「非 6」（假負(fù)類(lèi)），5445 張圖片被正確分類(lèi)為「6」（真正類(lèi)）。

請(qǐng)注意，完美的分類(lèi)器會(huì) 100% 地正確，這意味著它只有真正類(lèi)和真負(fù)類(lèi)。

精確率和召回率

一個(gè)混淆矩陣可以給你很多關(guān)于你的（分類(lèi)）模型做的有多好的信息，但是有一種方法可以讓你得到更多的信息，比如計(jì)算分類(lèi)的精確率（precision）。說(shuō)白了，它就是預(yù)測(cè)為正的樣本的準(zhǔn)確率（accuracy），并且它經(jīng)常是和召回率（recall，即正確檢測(cè)到的正實(shí)例在所有正實(shí)例中的比例）一起看的。

sklearn 提供了計(jì)算精確率和召回率的內(nèi)置函數(shù)：

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

現(xiàn)在，我們有了一個(gè)更好的評(píng)價(jià)分類(lèi)器的指標(biāo)。我們的模型將圖片預(yù)測(cè)為「6」的情況有 89% 是正確的。召回率告訴我們它將 92% 的真正為「6」的實(shí)例預(yù)測(cè)為「6」。

當(dāng)然，還有更好的評(píng)價(jià)方法。

F-值

你可以把精確率和召回率融合到一個(gè)單獨(dú)的評(píng)價(jià)指標(biāo)中，它被稱(chēng)為「F-值」（也被稱(chēng)為「F1-值」）。如果你想要比較兩個(gè)分類(lèi)器，F(xiàn)-值會(huì)很有用。它是利用精確率和召回率的調(diào)和平均數(shù)計(jì)算的，并且它將給低的數(shù)值更大的權(quán)重。這樣一來(lái)，只有精確率和召回率都很高的時(shí)候，分類(lèi)器才會(huì)得到高 F-1 值。通過(guò) sklearn 很容易就能計(jì)算 F 值。

從下圖中，你可以看到我們的模型得到了 0.9 的 F-1 值：

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

不過(guò) F-值并不是萬(wàn)能的「圣杯」，精確率和召回率接近的分類(lèi)器會(huì)有更好的 F-1 分?jǐn)?shù)。這是一個(gè)問(wèn)題，因?yàn)橛袝r(shí)你希望精確率高，而有時(shí)又希望召回率高。事實(shí)上，精確率越高會(huì)導(dǎo)致召回率越低，反之亦然。這被稱(chēng)為精確率和召回率的折衷，我們將在下一個(gè)章節(jié)討論。

精確率和召回率的折衷

為了更好地解釋?zhuān)覍⑴e一些例子，來(lái)說(shuō)明何時(shí)希望得到高精確率，何時(shí)希望得到高召回率。

高精確率：

如果你訓(xùn)練了一個(gè)用于檢測(cè)視頻是否適合孩子看的分類(lèi)器，你可能希望它有高的精確率。這意味著，這個(gè)你希望得到的分類(lèi)器可能會(huì)拒絕掉很多適合孩子的視頻，但是不會(huì)給你包含成人內(nèi)容的視頻，因此它會(huì)更加保險(xiǎn)。（換句話說(shuō)，精確率很高）

高召回率：

如果你想訓(xùn)練一個(gè)分類(lèi)器來(lái)檢測(cè)試圖闖入大樓的人，這就需要高召回率了?？赡芊诸?lèi)器只有 25% 的精確率（因此會(huì)導(dǎo)致一些錯(cuò)誤的警報(bào)），只要這個(gè)分類(lèi)器有 99% 的召回率并且?guī)缀趺看斡腥嗽噲D闖入時(shí)都會(huì)向你報(bào)警，但看來(lái)是一個(gè)不錯(cuò)的分類(lèi)器。

為了更好地理解這種折衷，我們來(lái)看看隨機(jī)梯度下降（SGD）的分類(lèi)器如何在 MNIST 數(shù)據(jù)集上做出分類(lèi)決策。對(duì)于每一個(gè)需要分類(lèi)的圖像，它根據(jù)一個(gè)決策函數(shù)計(jì)算出分?jǐn)?shù)，并將圖像分類(lèi)為一個(gè)數(shù)值（當(dāng)分?jǐn)?shù)大于閾值）或另一個(gè)數(shù)值（當(dāng)分?jǐn)?shù)小于閾值）。

下圖顯示了分?jǐn)?shù)從低（左側(cè)）到高（右側(cè)）排列的手寫(xiě)數(shù)字。假設(shè)你有一個(gè)分類(lèi)器，它被用于檢測(cè)出「5」，并且閾值位于圖片的中間（在中央的箭頭所指的地方）。接著，你會(huì)在這個(gè)閾值右邊看到 4 個(gè)真正類(lèi)（真正為「5」的實(shí)例）和 1 個(gè)假正類(lèi)（實(shí)際上是一個(gè)「6」）。這一閾值會(huì)有 80% 的精確率（五分之四），但是它僅僅只能從圖片中所有的 6 個(gè)真正的「5」中找出 4 個(gè)來(lái)，因此召回率為 67%（六分之四）。如果你現(xiàn)在將閾值移到右側(cè)的那個(gè)箭頭處，這將導(dǎo)致更高的精確率，但召回率更低，反之亦然（如果你將閾值移動(dòng)到左側(cè)的箭頭處）。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

精確率/召回率曲線

精確率和召回率之間的折衷可以用精確率-召回率曲線觀察到，它能夠讓你看到哪個(gè)閾值最佳。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

另一種方法是將精確率和召回率以一條曲線畫(huà)出來(lái)：

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

在上圖中，可以清晰地看到，當(dāng)精確率大約為 95% 時(shí)，精準(zhǔn)率升高，召回率迅速下降。根據(jù)上面的兩張圖，你可以選擇一個(gè)為你當(dāng)前的機(jī)器學(xué)習(xí)任務(wù)提供最佳精確率/召回率折衷的閾值。如果你想得到 85% 的精確率，可以查看第一張圖，閾值大約為 50000。

ROC、AUC 曲線和 ROC、AUC 值

ROC 曲線是另一種用于評(píng)價(jià)和比較二分類(lèi)器的工具。它和精確率/召回率曲線有著很多的相似之處，當(dāng)然它們也有所不同。它將真正類(lèi)率（true positive rate，即recall）和假正類(lèi)率（被錯(cuò)誤分類(lèi)的負(fù)實(shí)例的比例）對(duì)應(yīng)著繪制在一張圖中，而非使用精確率和召回率。

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

當(dāng)然，在這里也有所折衷。分類(lèi)器產(chǎn)生越多的假正類(lèi)，真正類(lèi)率就會(huì)越高。中間的紅線是一個(gè)完全隨機(jī)的分類(lèi)器，分類(lèi)器的曲線應(yīng)該盡可能地遠(yuǎn)離它。

通過(guò)測(cè)量 ROC 曲線下方的面積（ AUC），ROC 曲線為比較兩個(gè)分類(lèi)器的性能提供了一種方法。這個(gè)面積被稱(chēng)作 ROC AUC值，100% 正確的分類(lèi)器的 ROC AUC 值為 1。

一個(gè)完全隨機(jī)的分類(lèi)器 ROC AUC 為 0.5。下圖中是 MNIST 模型的輸出：

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)

總結(jié)

通過(guò)以上介紹，大家將學(xué)習(xí)到如果評(píng)價(jià)分類(lèi)器，以及用哪些工具去評(píng)價(jià)。此外，還能學(xué)到如何對(duì)精確率和召回率進(jìn)行折衷，以及如何通過(guò) ROC AUC 曲線比較不同分類(lèi)器的性能。

我們還了解到，精確率高的分類(lèi)器并不像聽(tīng)起來(lái)那么令人滿意：因?yàn)楦呔_率意味著低召回率。

下次當(dāng)你聽(tīng)到有人說(shuō)一個(gè)分類(lèi)器有 99% 的精確率或準(zhǔn)確率時(shí)，你就知道你應(yīng)該問(wèn)問(wèn)他這篇帖子中討論的其它指標(biāo)如何。

資源鏈接

https://en.wikipedia.org/wiki/Confusion_matrix

https://github.com/Donges-Niklas/Classification-Basics/blob/master/Classification_Basics.ipynb

https://www.amazon.de/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=sr_1_1?ie=UTF8&qid=1522746048&sr=8-1&keywords=hands+on+machine+learning

via towardsdatascience

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

11人收藏

相關(guān)文章

MrBear

知情人士

發(fā)私信

當(dāng)月熱門(mén)文章

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

機(jī)器學(xué)習(xí)小白看過(guò)來(lái)，帶你全面了解分類(lèi)器評(píng)價(jià)指標(biāo)