Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

本文作者：我在思考中

2022-09-20 10:53

導語：?AI 作畫很牛，但它并不理解圖像背后的世界。

AI 作畫很牛，但它并不理解圖像背后的世界。

作者 | 李梅、黃楠

編輯 | 陳彩嫻

自從 DALL-E 2 問世以來，很多人都認為，能夠繪制逼真圖像的 AI 是邁向通用人工智能（AGI）的一大步。OpenAI 的 CEO Sam Altman 曾在 DALL-E 2 發(fā)布的時候宣稱“AGI is going to be wild”，媒體也都在渲染這些系統(tǒng)對于通用智能進展的重大意義。

但真的是如此嗎？知名 AI 學者（給 AI 潑冷水愛好者） Gary Marcus 表示“持保留意見”。

最近，他提出，在評估 AGI 的進展時，關鍵要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 這樣的系統(tǒng)是否真正理解世界，從而能夠根據這些知識進行推理并進行決策。

在判斷這些系統(tǒng)之于 AI （包括狹義和廣義的 AI）的意義時，我們可以提出以下三個問題：

圖像合成系統(tǒng)能否生成高質量的圖像？

它們能否將語言輸入與它們產生的圖像關聯起來？
它們了解它們所呈現出的圖像背后的世界嗎？

AI 不懂語言與圖像的關聯

在第一個問題上，答案是肯定的。區(qū)別只在于，在用 AI 生成圖像這件事兒上，經過訓練的人類藝術家能做得更好。

在第二個問題上，答案就不一定了。在某些語言輸入上，這些系統(tǒng)能表現良好，比如下圖是 DALL-E 2 生成的“騎著馬的宇航員”：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

但在其他一些語言輸入上，這些 AI 就表現欠佳、很容易被愚弄了。比如前段時間 Marcus 在推特上指出，這些系統(tǒng)在面對“騎著宇航員的馬”時，難以生成對應的準確圖像：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

盡管深度學習的擁護者對此進行了激烈的反擊，比如 AI 研究員 Joscha Bach 認為“Imagen 可能只是使用了錯誤的訓練集”，機器學習教授 Luca Ambrogioni 反駁說，這正表明了“Imagen 已經具有一定程度的常識”，所以拒絕生成一些荒謬的東西。

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

還有一位谷歌的科學家 Behnam Neyshabur 提出，如果“以正確的方式提問”，Imagen 就可以畫出“騎著宇航員的馬”：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

但是，Marcus 認為，問題的關鍵不在于系統(tǒng)能否生成圖像，聰明的人總能找到辦法讓系統(tǒng)畫出特定的圖像，但這些系統(tǒng)并沒有深刻理解語言與圖像之間的關聯，這才是關鍵。

不知道自行車輪子是啥

怎么能稱是AGI？

系統(tǒng)對語言的理解還只是一方面，Marcus 指出，最重要的是，判斷 DALL-E 等系統(tǒng)對 AGI 的貢獻最終要取決于第三個問題：如果系統(tǒng)所能做的只是以一種偶然但令人驚嘆的方式將許多句子轉換為圖像，它們可能會徹底改變人類藝術，但仍然不能真正與 AGI 相提并論，也根本代表不了 AGI。

讓 Marcus 對這些系統(tǒng)理解世界的能力感到絕望的是最近的一些例子，比如平面設計師 Irina Blok 用 Imagen 生成的“帶有很多孔的咖啡杯”圖像：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

正常人看了這張圖都會覺得它違反常識，咖啡不可能不從孔里漏出來。類似的還有：

“帶有方形輪子的自行車”

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

“布滿仙人掌刺的廁紙”

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

說“有”容易說“無”難，誰能知道一個不存在的事物應當是什么樣？這也是讓 AI 繪制不可能事物的難題所在。

但又或許，系統(tǒng)只是“想”繪制一個超現實主義的圖像呢，正如 DeepMind 研究教授 Michael Bronstein 所說的，他并不認為那是個糟糕的結果，換做是他，也會這樣畫。

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠

那么如何最終解決這個問題呢？Gary Marcus 在最近同哲學家 Dave Chalmers 的一次交談中獲得了新的靈感。

為了了解系統(tǒng)對于部分和整體、以及功能的認識， Gary Marcus 提出了一項對系統(tǒng)性能是否正確有更清晰概念的任務，給出文本提示“Sketch a bicycle and label the parts that roll on the ground”（畫出一輛自行車并標記出在地面上滾動的部分），以及“Sketch a ladder and label one of the parts you stand on”（畫出一個梯子并標記出你站立的部分）。

這個測試的特別之處在于，并不直接給出“畫出一輛自行車并標記出輪子”、“畫出一個梯子并標記出踏板”這樣的提示，而是讓 AI 從“地面上滾動的部分”、“站立的部分”這樣的描述中推理出對應的事物，這正是對 AI 理解世界能力的考驗。

但 Marcus 的測試結果表明，Craiyon（以前稱為 DALL-E mini）在這種事情上做得一塌糊涂，它并不能理解自行車的輪子和梯子的踏板是什么：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠