久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

本文作者: 楊曉凡 2017-10-31 09:57
導(dǎo)語(yǔ):模仿人類(lèi)語(yǔ)言的生成思路帶來(lái)良好的結(jié)果

雷鋒網(wǎng) AI 科技評(píng)論按:文本生成是自然語(yǔ)言處理NLP領(lǐng)域的重要問(wèn)題,許多知名學(xué)者都提出了自己的方法,改善現(xiàn)階段文本生成中豐富性不足、句法語(yǔ)意不自然、長(zhǎng)句生成困難等問(wèn)題,比如不久之前我們做過(guò)報(bào)道的上海交通大學(xué)俞勇、張偉楠聯(lián)合UCL汪軍發(fā)表的“LeakGAN”、Percy Liang的ICML2017最佳論文「Understanding Black-box Predictions via Influence Functions」。

Percy Liang是NLP領(lǐng)域的著名研究者,師從Michael I. Jordan,現(xiàn)為斯坦福大學(xué)教授;除了論文得到廣泛認(rèn)可之外,Percy Liang還拿下了 IJCAI 2016 計(jì)算機(jī)和思想獎(jiǎng)(Computers and Thought Award)。

近期,Percy Liang團(tuán)隊(duì)的一篇新論文提出了一種新的文本生成新方法,「Generating Sentences by Editing Prototypes」(用修改草稿的方式生成句子),這個(gè)方法不僅符合直覺(jué),生成的效果也非常好,引起了很多研究者的注意和贊譽(yù)。以下雷鋒網(wǎng) AI 科技評(píng)論對(duì)這篇論文做簡(jiǎn)單介紹。

論文內(nèi)容

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)


這篇論文中提出了一種新的句子生成模型。它首先從樣本語(yǔ)料庫(kù)中隨機(jī)采樣一個(gè)句子作為“草稿”(論文中prototype),然后再把這個(gè)草稿編輯為一個(gè)新的句子(如下圖)

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

此前表現(xiàn)較好的系統(tǒng)大多數(shù)都是基于循環(huán)神經(jīng)語(yǔ)言模型(NLM)的,它們“從零開(kāi)始”生成句子,順序往往從左到右。這類(lèi)模型中很容易觀察到生成通用化應(yīng)答的問(wèn)題,比如“我不知道”這樣。為了提高生成文本的豐富性,目前采用的比較直白的策略都會(huì)導(dǎo)致語(yǔ)法準(zhǔn)確性的降低,表明目前的NLM模型可能并不具備對(duì)復(fù)雜應(yīng)答的各種可能性做完全表征的能力。

論文作者們由此想到了人類(lèi)寫(xiě)作時(shí)常常有先打草稿、再逐漸把它修改為一篇精美文章的做法,由此提出了文中的模型。模型首先會(huì)從訓(xùn)練語(yǔ)料庫(kù)中隨機(jī)采樣一個(gè)草稿句子,然后激活一個(gè)神經(jīng)網(wǎng)絡(luò)編輯器;這個(gè)編輯器會(huì)生成隨機(jī)的“編輯向量”,然后根據(jù)編輯向量對(duì)草稿句子做條件編輯,從而生成新的句子。

這個(gè)思路的出發(fā)點(diǎn)在于,語(yǔ)料庫(kù)中的句子提供了一個(gè)高質(zhì)量的起點(diǎn):它們語(yǔ)法正確,天然地具有復(fù)雜性,而且不會(huì)對(duì)長(zhǎng)短和模糊性有任何偏好。編輯器中的注意力機(jī)制就會(huì)從草稿中提取出豐富的文本信息,然后把它泛化為新的句子。

模型的訓(xùn)練方式是最大化估計(jì)生成模型的對(duì)數(shù)最大似然。這個(gè)目標(biāo)函數(shù)是訓(xùn)練集中具有相似詞法的句子對(duì)的和,從而可以用局部敏感哈希(Locality Sensitive Hashing)做量化估計(jì)。論文中同時(shí)用實(shí)證方法表明,多數(shù)詞法相同的句子同時(shí)在語(yǔ)義上也是相似的,這樣給神經(jīng)編輯器的語(yǔ)義結(jié)構(gòu)方面帶來(lái)了額外的益處。比如,作者們可以讓一個(gè)神經(jīng)編輯器從一個(gè)種子句子出發(fā),探索很大一片語(yǔ)義空間。

作者們從兩個(gè)方面對(duì)比了這個(gè)“先打草稿再優(yōu)化”的模型和以往從零生成的模型:語(yǔ)言生成質(zhì)量以及語(yǔ)義屬性。對(duì)于語(yǔ)言生成質(zhì)量,人類(lèi)評(píng)價(jià)者給論文中的模型打了更好的分?jǐn)?shù),在Yelp語(yǔ)料庫(kù)上把復(fù)雜度(perplexity)提升了13分,在One Billion Word Benchmark中提升了7分。對(duì)于語(yǔ)義屬性,論文中表明隱編輯向量在語(yǔ)義相似性、局部控制文本生成和句子模擬任務(wù)中優(yōu)于標(biāo)準(zhǔn)的句子可變編碼器。

下圖是一組草稿句子和修改后句子的對(duì)比,有顯著的不同,并且保持了高質(zhì)量

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

社交網(wǎng)絡(luò)上的評(píng)價(jià)

論文公布并經(jīng)過(guò)轉(zhuǎn)推擴(kuò)散開(kāi)來(lái)后,許多研究者都在推特上表示了對(duì)這篇論文的認(rèn)可

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

(Percy Liang實(shí)驗(yàn)室?guī)?lái)的聰明的句子生成方法:從語(yǔ)料庫(kù)中的例子開(kāi)始,學(xué)習(xí)加上有模有樣的變化)

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

(下面網(wǎng)友說(shuō):“這看起來(lái)很像我學(xué)英語(yǔ)的方法”)

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

更多論文細(xì)節(jié)請(qǐng)閱讀原文 https://arxiv.org/abs/1709.08878 

雷鋒網(wǎng) AI 科技評(píng)論編譯

相關(guān)文章:

如何讓對(duì)抗網(wǎng)絡(luò)GAN生成更高質(zhì)量的文本?LeakGAN現(xiàn)身說(shuō)法:“對(duì)抗中,你可能需要一個(gè)間諜!”

強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色(Role of RL in Text Generation by GAN)(下)

強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色(Role of RL in Text Generation by GAN)(上)

《安娜卡列尼娜》文本生成——利用 TensorFlow 構(gòu)建 LSTM 模型

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽(yù)

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)