「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

本文作者：楊曉凡

編輯：郭奕欣

2018-02-11 15:40

導(dǎo)語(yǔ)：結(jié)合知識(shí)庫(kù)的實(shí)體辨別

雷鋒網(wǎng) AI 科技評(píng)論按：語(yǔ)言詞匯的多義性已經(jīng)是一個(gè)越發(fā)讓人頭疼的問(wèn)題。比如女生對(duì)男朋友說(shuō)：“生日禮物我想要MAC”，本來(lái)心懷期待地揣測(cè)他買(mǎi)來(lái)的唇彩會(huì)是什么色，結(jié)果收到的可能是一臺(tái)蘋(píng)果筆記本電腦…… 蘋(píng)果電腦本身當(dāng)然并沒(méi)有哪里不好，但詞語(yǔ)指代弄混的時(shí)候還是挺讓人難受的。

人類尚且有理解不對(duì)詞語(yǔ)類別的時(shí)候，人工智能自然也還沒(méi)能攻克這個(gè)問(wèn)題。不過(guò)雷鋒網(wǎng) AI 科技評(píng)論了解到，OpenAI 近期新設(shè)計(jì)的 AI 在結(jié)合上下文的詞語(yǔ)判別上做出了突破，測(cè)試中的表現(xiàn)相比已有的其它 AI 也有了大幅提升。

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「The prey saw the jaguar across the jungle」（獵物看到了穿越叢林的美洲豹）

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「The man saw a Jaguar speed on the highway」（這個(gè)人看到美洲豹奔馳在高速公路上）

OpenAI 在近期的一篇論文中介紹了自己新設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò) Type，它可以嘗試?yán)斫饩渥又械膯卧~，把它歸類到大約一百個(gè)自動(dòng)學(xué)到的非獨(dú)占性類別中。OpenAI 想到的典型例子是「jaguar」或者「美洲豹」，比如對(duì)于上面兩個(gè)句子，這個(gè)系統(tǒng)不會(huì)立即把兩個(gè)「jaguar」都統(tǒng)一判定為跑車(chē)、動(dòng)物或者別的東西中的某一種，而是依據(jù)預(yù)選擇的類別解一組 20 個(gè)貝葉斯問(wèn)題，推理得到判斷結(jié)果。相比之前的系統(tǒng)，Type 在數(shù)個(gè)實(shí)體分辨（entity disambiguation）數(shù)據(jù)庫(kù)上的測(cè)試結(jié)果都有大幅提升。

在 OpenAI 的訓(xùn)練數(shù)據(jù)中，「jaguar」這個(gè)詞大概有 70% 的情況是指跑車(chē)，29% 的情況是指動(dòng)物，還有 1% 的情況是指美洲豹攻擊機(jī)。根據(jù) Type 判斷，「The man saw a Jaguar speed on the highway」中的「jaguar」的各種語(yǔ)義出現(xiàn)的可能性變化并不大，看起來(lái)模型覺(jué)得一只大貓?jiān)诟咚俟飞吓懿揭矝](méi)什么不妥；但「The prey saw the jaguar across the jungle」中，模型的判斷就發(fā)生了很大變化，非?？隙ㄟ@是一只大貓，畢竟捷豹跑車(chē)根本不適合在森林里開(kāi)。

模型在 CoNLL（YAGO）數(shù)據(jù)集上的測(cè)試準(zhǔn)確率為 94.88%，此前的頂級(jí)模型的表現(xiàn)為 91.5% 和 91.7%；在 TAC KBP 2010 挑戰(zhàn)賽數(shù)據(jù)集上的準(zhǔn)確率為 90.85%，此前的頂級(jí)模型的表現(xiàn)為 87.2% 和 87.7%。之前的這些方法使用的是分布式表征，OpenAI 的 Type 在這些任務(wù)中都有顯著的提升，距離完美的類別預(yù)測(cè)準(zhǔn)確率 98.6% 到 99% 越來(lái)越近。

Type 總體介紹

這個(gè)系統(tǒng)以如下的步驟運(yùn)行：

從單詞的維基百科頁(yè)面提取所有的內(nèi)鏈，確定這個(gè)詞可能指代的實(shí)體都有什么。比如，對(duì)于 https://en.wikipedia.org/wiki/Jaguar 這個(gè)維基百科的鏈接，經(jīng)過(guò)分析之后確定這個(gè)頁(yè)面的內(nèi)容確實(shí)是「jaguar」這個(gè)詞的一個(gè)意思。
爬維基百科的分類樹(shù)（借助 Wikidata 的知識(shí)圖），從而確定每一個(gè)實(shí)體都能被歸入哪些類別。比如在 https://en.wikipedia.org/wiki/Jaguar_Cars 捷豹汽車(chē)的頁(yè)面底部，有下面「英國(guó)品牌」、「汽車(chē)品牌」、「捷豹汽車(chē)」幾個(gè)類別分類（而且每個(gè)類別都還有自己所屬的類別，比如屬于汽車(chē)）
選出大約 100 個(gè)類別作為模型的類別系統(tǒng)，然后優(yōu)化對(duì)類別的選擇，以便讓它們可以完全覆蓋到任何實(shí)體。我們已經(jīng)知道了從實(shí)體到類別的映射，所以對(duì)于任意給定的類別系統(tǒng)，都可以把每個(gè)實(shí)體表征為一個(gè)大約 100 維的二進(jìn)制向量，其中的每一維就對(duì)應(yīng)著是否屬于某個(gè)類別。
根據(jù)每個(gè)維基百科的內(nèi)鏈和上下文文本生成訓(xùn)練數(shù)據(jù)，其中會(huì)把單詞和文本內(nèi)容映射到剛才提到的大約 100 維的二進(jìn)制向量，然后訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)這種映射。這一步就把前面的幾步聯(lián)系起來(lái)了，維基百科的鏈接可以把單詞映射到一個(gè)實(shí)體，然后從第二步知道每個(gè)實(shí)體的類別，第三步選出了這個(gè)分類系統(tǒng)里面要用的類別。
到了測(cè)試的時(shí)候，給定一個(gè)詞和上下文，這個(gè)神經(jīng)網(wǎng)絡(luò)的輸出就可以看作是這個(gè)詞屬于每個(gè)類別的概率。如果確切知道了類別系統(tǒng)的內(nèi)容，就可以縮小范圍，確定到某一個(gè)實(shí)體（假設(shè)類別是經(jīng)過(guò)精心選擇好的）。不過(guò)也必須經(jīng)過(guò)基于概率的一組 20 個(gè)問(wèn)題組成的判斷過(guò)程，通過(guò)貝葉斯理論計(jì)算出這個(gè)詞被分辨為各個(gè)可能的類別的概率分別是多少。

一些類別分辨的例子

「藍(lán)莓是一種可以食用的水果，又屬杜鵑花科越橘屬植物產(chǎn)出?！?/p>

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「在 2013 財(cái)年的第二季度，黑莓售出了 680 萬(wàn)臺(tái)手持設(shè)備，但同時(shí)也首次被競(jìng)爭(zhēng)對(duì)手諾基亞的 Lumia 系列的銷(xiāo)量超越?！?/p>

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「在 Python 中可以可以操作 string。」

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「Python 一般是無(wú)毒的?！?/p>

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

數(shù)據(jù)清洗

Wikidata 的知識(shí)圖經(jīng)過(guò)轉(zhuǎn)換后可以作為實(shí)體到類別映射的細(xì)粒度訓(xùn)練數(shù)據(jù)源。OpenAI 的研究人員們遞歸使用其中的「instance of」（是 xxx 的一個(gè)實(shí)例）關(guān)系以確定任意給定的實(shí)體都可以屬于哪些類型，比如，每個(gè)「人類」下面的有效節(jié)點(diǎn)都屬于「人類」類型。維基百科也可以通過(guò)「category link」功能提供實(shí)體到類別的映射。

從維基百科的內(nèi)部鏈接得到的統(tǒng)計(jì)結(jié)果可以很好地預(yù)測(cè)特定的詞匯指代某個(gè)實(shí)體的概率如何。不過(guò)數(shù)據(jù)里有很多噪聲，因?yàn)榫S基百科經(jīng)常會(huì)鏈接到類型的某個(gè)實(shí)例而不是這個(gè)類型本身，比如會(huì)把「國(guó)王」鏈接到「英國(guó)查爾斯王子一世」（回指），或者鏈接到一個(gè)昵稱上去（轉(zhuǎn)喻）。這就讓有聯(lián)系的實(shí)體的數(shù)量大爆炸，也讓鏈接出現(xiàn)的頻率變得混亂（比如「國(guó)王」有 974 個(gè)相關(guān)的實(shí)體，「皇后」鏈接到皇后樂(lè)隊(duì)有 4920 次，鏈接到伊麗莎白二世有 1430 次，而鏈接到君主只有 32 次）。

最簡(jiǎn)單的處理方法是對(duì)不經(jīng)常出現(xiàn)的鏈接剪枝，不過(guò)這也會(huì)帶來(lái)丟失信息的問(wèn)題。所以 OpenAI 的研究人員們轉(zhuǎn)而使用 Wikidata 的屬性圖，啟發(fā)式地把鏈接轉(zhuǎn)換為它們的「一般」意思，像下圖這樣。

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

經(jīng)過(guò)這樣處理之后，「國(guó)王」相關(guān)的實(shí)體就從 974 大幅下降到了 14 個(gè)，同時(shí)「皇后」到「君主」的鏈接數(shù)目也從 32 個(gè)增加到了 3553 個(gè)。

學(xué)習(xí)一個(gè)好的類別系統(tǒng)

我們希望學(xué)到最好的類別系統(tǒng)和參數(shù)，這樣才能讓分辨單詞的準(zhǔn)確率最大化?？赡艿念悇e種類組合有無(wú)數(shù)多種，找到一個(gè)精確解似乎難以實(shí)現(xiàn)。所以 OpenAI 的研究人員們使用了啟發(fā)式搜索或者隨機(jī)優(yōu)化（演化算法）的方法選出一個(gè)類別系統(tǒng)，然后用梯度下降訓(xùn)練出一個(gè)類別分類器，用來(lái)預(yù)測(cè)類別系統(tǒng)的表現(xiàn)。

在這里，理想的類型系統(tǒng)應(yīng)當(dāng)有足夠的區(qū)分度（這樣可以快速減小可能的實(shí)體分布），同時(shí)還應(yīng)當(dāng)易于學(xué)習(xí)（這樣單詞的上下文可以包含足夠的信息，足以讓神經(jīng)網(wǎng)絡(luò)推測(cè)適合什么類型）。OpenAI 的研究人員們用了兩種啟發(fā)式方法進(jìn)行類別系統(tǒng)的搜索，一種是基于可學(xué)習(xí)性的（訓(xùn)練出的分類器預(yù)測(cè)類別所在的平均 AUC），另一種是先見(jiàn)準(zhǔn)確率（如果網(wǎng)絡(luò)預(yù)測(cè)對(duì)了所有類型，那么辨別實(shí)體的能力如何）。

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

類型系統(tǒng)的進(jìn)化

OpenAI 的研究人員們?yōu)閿?shù)據(jù)集中最常見(jiàn)的 15 萬(wàn)個(gè)類別分別訓(xùn)練了二分類分類器，分類器的輸入就是上圖中文本窗口對(duì)應(yīng)的一段。分類器的 AUC 就看作為這個(gè)類型的「可學(xué)習(xí)性」分?jǐn)?shù)。高 AUC 表示表示很容易從上下文中推測(cè)出所屬類型，不好的表現(xiàn)就意味著訓(xùn)練數(shù)據(jù)不夠，又或者設(shè)定的文本窗口并沒(méi)有起到什么幫助（在 ISBN 之類的非自然類型預(yù)測(cè)中很容易發(fā)生）。完整的模型需要好幾天才能訓(xùn)練好，所以他們也同步設(shè)計(jì)了一個(gè)小得多的模型作為「可學(xué)習(xí)性」分?jǐn)?shù)的代理模型，只需要 2.5 秒就可以完成訓(xùn)練。

「可學(xué)習(xí)性」分?jǐn)?shù)和計(jì)數(shù)統(tǒng)計(jì)都可以用來(lái)估計(jì)把某一組類別作為類別系統(tǒng)之后的模型表現(xiàn)。交叉熵方法的優(yōu)化示意圖如下。

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

每步優(yōu)化中使用了 100 個(gè)樣本。更多的樣本可以讓優(yōu)化結(jié)果更準(zhǔn)確，但花費(fèi)的時(shí)間也更長(zhǎng)、模型大小也更大。圖示的優(yōu)化得到的結(jié)果如下圖

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

整個(gè)模型的交叉熵如下

「我想要MAC」說(shuō)的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

神經(jīng)類型系統(tǒng)

根據(jù)類型系統(tǒng)優(yōu)化得到的最好結(jié)果，OpenAI 的研究人員們接下來(lái)就可以用類型系統(tǒng)生成的標(biāo)簽給維基百科的數(shù)據(jù)做標(biāo)注。得到了這樣的數(shù)據(jù)后（在 OpenAI 的實(shí)驗(yàn)中，他們共用了英語(yǔ)和法語(yǔ)的各 4 億句）就可以訓(xùn)練雙向 LSTM，獨(dú)立地預(yù)測(cè)每個(gè)單詞的所有類型的符合情況。在維基百科的源文本上只有網(wǎng)站內(nèi)鏈?zhǔn)强梢源_認(rèn)使用的，然而這也已經(jīng)足以訓(xùn)練出一個(gè)類別預(yù)測(cè)首位預(yù)測(cè)準(zhǔn)確率超過(guò) 0.91 的深度神經(jīng)網(wǎng)絡(luò)。

有趣的是，在束搜索得到的某個(gè)分類系統(tǒng)中，除了包含了典型的航空、衣著、游戲之類的分類之外，還令人意外地包含了一些非常具體的分類，比如「1754 年在加拿大」，意味著 1754 年在用來(lái)訓(xùn)練網(wǎng)絡(luò)的一千多篇維基百科文章中是非常充實(shí)有趣的一年。

下一步研究

OpenAI 表示自己的這項(xiàng)研究和以往嘗試解決這個(gè)問(wèn)題的方法有許多的不同，他們也很感興趣分布式表征的端對(duì)端學(xué)習(xí)相比他們開(kāi)發(fā)的基于類別推理的系統(tǒng)最好能有什么樣的表現(xiàn)。而且論文中的分類系統(tǒng)只是用了維基百科數(shù)據(jù)集的很小的一部分創(chuàng)建出的，如果擴(kuò)展到整個(gè)維基百科的規(guī)模，有可能可以建立出有更廣闊應(yīng)用空間的分類系統(tǒng)。

論文地址：https://arxiv.org/abs/1802.01021

開(kāi)源地址：https://github.com/openai/deeptype

via OpenAI，雷鋒網(wǎng) AI 科技評(píng)論編譯

AI能看懂英文，阿里巴巴奪實(shí)體發(fā)現(xiàn)測(cè)評(píng)全球第一

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。