科技 新浪科技 AI詩人的十四行詩,能賽過莎翁的嗎?

AI詩人的十四行詩,能賽過莎翁的嗎?

原標題:AI詩人的十四行詩,能賽過莎翁的嗎?

原創 J.L T.C T.B&A.H 神經現實 來自專輯深度 | Deep-diving

8868-ivrxcex1326910.jpg

人工智慧創作簡史

這是莎士比亞第18首十四行詩中的一個詩節:

780a-ivrxcex1326906.jpg

Shall I compare thee to a summer's day?

thou art more lovely and more temperate:

rough winds do shake the darling buds of May,

and summer's lease hath all too short a date

我可能把你和夏天相比擬?

你比夏天更可愛更溫和:

狂風會把五月的花苞吹落地,

夏天也嫌太短促,匆匆而過*

*譯者注

本文中出現的莎士比亞十四行詩中文譯作除非特別說明,均為梁實秋譯本。

5b50-ivrxcex1327516.jpg

- John Burningham -

這是由人工智慧程序Deep-speare創作的十四行詩:

0bdc-ivrxcex1327096.jpg

Yet in a circle pallid as it flow,

by this bright sun, that with his light display,

roll'd from the sands, and half the buds of snow,

and calmly on him shall infold away

它流淌,在蒼白的旋渦中

路過明媚的陽光,他的光輝閃耀

終於滾落在細沙上,雪般的花蕾含苞待放

輕覆其身,悄然而逝

仔細閱讀Deep-speare寫的詩,你可能會察覺到一絲荒謬,不過它倒確實遵循章法,用英文老師的話來說就是,乍看之下這首詩歌每一行的節奏、韻律和基本語法都還挺像那麼一回事。正如我們的研究團隊發現的那樣,當我們向全世界展示AI創作的詩歌時,不少人都被糊弄過去了——大多數讀者無法區分開AI生成的詩和人類作者寫出的作品。

我們的團隊由三位機器學習研究人員和一名文學學者組成,我們使用古騰堡工程在線圖書館(Project Gutenberg)收錄的2700首十四行詩來訓練AI詩人。我們的AI詩人利用被稱為深度學習的AI方法,對訓練資料庫中的詩歌進行挖掘,不斷地「冥思苦想」出與樣本匹配的詩句,自己學會作詩的。我們並沒有像以往類似的項目一樣,給AI詩人輸入韻律、發音方面的字典等資源,然而,Deep-speare靠著摸索,自己學會了十四行詩寫作的三大要素:節奏、韻律,和自然語言的基本原理(即如何將詞彙流暢地銜接在一起)。

*譯者注

古騰堡工程(Project Gutenberg),是一項志願工作,致力於將文化作品的數字化和歸檔,以「鼓勵創作和發行電子書」為其宗旨。該工程肇始於1971年,是最早的數字圖書館。截至2012年7月,古騰堡工程聲稱超過40,000件館藏。

我們的目標是探索深度學習在生成自然語言上能做到何種程度,以及如何充分利用詩歌的有趣特質。尤其是像十四行詩這樣的詩歌,其節奏和韻律有著刻板和規整的模式,我們想知道我們是否可以通過設計系統體系,讓Deep-speare自主學習此類模式。

我們的努力離不開計算創造力領域的蓬勃發展。一幅由AI創作出的肖像畫曾在紐約佳士得(Christie』s)拍賣行以43.2萬美元的價格成交;AI作曲項目DeepBach創作的巴赫風格音樂作品足以讓人信以為真;而在雕塑和舞蹈的領域,也能看見AI的身影。除此之外,在語言和文學方面,來自OpenAI實驗室的GPT-2文本生成系統憑實力證明了人工智慧可以僅通過開頭句,就能生產出相當流暢的文本段落。

*譯者注

計算創造力(computatinal creativity, 也稱為人工智慧創造力,機器創造力或創造力計算學)是一項跨學科的研究領域,位於人工智慧,認知心理學,哲學和藝術領域的交匯處。

f2e7-ivrxcex1327787.jpg

- Fran Horne -

在過去的十年裡,正是深度學習的蓬勃發展才使得這些關於計算創造力的實驗成為可能。深度學習具有創作追求的幾個關鍵優勢:對初學者來說,它非常靈活,而且也能相對容易地訓練出能執行各種任務的深度學習系統(我們稱之為模型)。這些模型擅長發現模式,並從中進行總結歸納——有時候甚至會產生令人驚奇的結果,而這種優勢也被稱為「偶發創造力」。同時,深度學習演算法內在因素的隨機性會導致輸出結果的千變萬化。這種結果上的千變萬化如果能夠被人類協作者耐心地篩出,那麼這種可變性將非常適合創造性應用。不僅如此,深度演算法還能相對容易地建立可處理不同類型數據的模型,包括文本、語音、文字和視頻等。

一首詩是如何被寫出來的?

關於自然語言處理模型

十四行詩最主要有兩個特點:14行的長度,和由兩部分組成的「論證」結構。後者指的是詩人一般會在詩歌的前半部分提出一個問題,然後用結尾的部分來解答這個疑惑。在十六世紀,英國詩人採用「五步抑揚格」(iambia pentameter)的節奏方式來創作詩歌,即一行詩歌擁有10個音節(5個音步)的輕重音節奏。通常,一首十四行詩由三個用來提出「問題」的四行詩(quatrain)和末尾的對偶句(couplet)構成,詩歌的韻律常為「ABAB CDCD EFEF GG」。在莎士比亞手裡,此種韻律形式使用到了最純熟的地步,以至於今天我們都稱其為「莎士比亞體之十四行詩」。

在Deep-speare項目組中,我們試圖生成莎士比亞十四行詩前半部分的「發問」段落中的一段四行詩。因此,相比于簡單複製詩歌的十四行形式或者結尾的兩行「論證」的詩句,我們更專註于生成遵循「五步抑揚格」和韻律的文本。我們也許會在未來的某天繼續攻克這個更難的挑戰,但目前我們更需要證明的是AI詩人具備產生一段單獨的四行詩的能力。

Deep-speare採用了三種自然語言處理模型進行創作,它們分別是通過評估備選單詞的概率選擇合適單詞的語言模型、評估每行詩歌的節奏的節奏模型,以及確保每行詩歌都遵循韻律的韻律模型。

AI詩人會隨機選擇一種經典韻律來創作詩節。比如下圖這個例子,它就採用了「ABBA」的押韻方式,即在一個四行的詩節當中,首尾兩行押韻,中間兩行押韻。在掌握這個模版之後,它以一個令人驚訝的方式開始生成這首詩歌——從最後一行的最後一個單詞開始,從右到左生成符合規律的文本。

53e3-ivrxcex1327593.jpg

1. 在上圖的例子「from pardon to him, who will stand and wait」中,Deep-speare首先從句末的「wait」這個單詞開始生成文本,利用上述提到的概率處理模型,對於詞語的選擇,它先考慮了所有英文詞彙出現在該位置的可能性,選出其中排名前五的候選單詞。然而,模型並不會直接使用概率最大的單詞,而是從五個單詞裏面隨機選擇一個。

2. 以退為進,AI詩人通過對每個詞倒推來進行文本生成,而每一個候選單詞的概率得分顯示了單詞之間相鄰關係和出現在同一句子中的概率(如下圖所示)。

37ea-ivrxcex1327835.jpg

3. 利用這樣的方法,AI詩人生產了許多候選詩句,接下來節奏模型會給它們打分,找出符合「五步抑揚格」節奏規律的詩句。

741b-ivrxcex1327836.jpg

Shall I behold him in his cloudy state

for just but tempteth me to stay and pray

a cry: if it will drag me, find no way

怎麼忍心看他愁雲慘霧傷悲

耿耿於懷的我駐足祈禱安慰

只怕眼淚來襲 我無法應對

4. 以退為進、從后往前,AI詩人不斷重複這樣的步驟,以從最後一句到第一句的方式,繼續生成文本。

5. 在尋找合適的單詞來給第二句和第一句詩結尾時(「pray」 和 「state」),AI詩人會給候選單詞的「押韻度」評分,找到與「way」和 「wait」押韻的辭藻。

總的來說,我們的系統由三個部分組成:一個學會了「五步抑揚格」的節奏模型,一個學會了詞彙押韻的模型,以及一個學會了詞與詞之間的經典搭配的語言模型,其中語言模型是能夠逐字生成十四行詩的最主要部分。

3336-ivrxcex1327894.jpg

- Vera Molnar -

語言模型會通過概率評分的方法,對任意語句進行排名,判斷哪些語句在某種語言之中是正確的 (在我們的例子中是英語)。經過適當訓練的語言模型會賦予流利的句子較高的概率分,給無意義的句子較低的概率分。考慮到語言生產和理解方式一般是逐詞進行,這個原理實際上允許我們把更複雜的、句子層面上的問題分解成單詞層面的簡單問題。因此,語言模型的工作就是通過部分句子預測下一個單詞是什麼。為了進行這種預測,模型會查找所有可能的單詞並給予它們概率分數,而這些分數取決於目前句子中已有的詞彙。

語料庫

通常,自然語言模型會通過語料庫的單詞和句子判斷文本的出現概率,而語料庫的內容可以來自維基百科詞條,Reddit中的討論,或者專門用於訓練語言處理的語料庫。從文字型檔中,人工智慧可以學習哪些單詞是最常一起出現的。而在我們的Deep-speare項目中,AI詩人先是從在線圖書館Project Gutenberg收錄的全部詩歌中學會了語言運用的基本課程,然後再通過包含了36.7萬個單詞的2700首莎士比亞十四行詩來進一步打磨它的十四行詩寫作能力。

人們對下一個單詞的「驚奇」程度可以被用於衡量一個語言模型的質量。如果下一個單詞被賦予了很高的概率分數,這說明這個單詞的出現比較符合規律,所以並不會讓人感到驚訝;但如果被賦予了很低的概率分數,那麼人們在讀到這個單詞的時候,會感到非常不自然。這種驚奇程度在訓練模型的過程中被當成重要的信號。因此,當我們每次都通過大量文本來處理每一個詞彙,而且模型不會對連在一起的詞彙感到驚訝,那麼我們便可以認為,這個模型已經很大程度上掌握了語言的複雜性了。而這就包括能夠正確運用「San ­Francisco」這樣由多單詞構成的片語而不拆開它們、遵循一定句式和語法結構,以及判斷較為複雜的語義和邏輯信息(例如,咖啡常常用「濃」和「淡」,而不會用「強壯」和「輕便」來修飾)等原則。

一旦語言模型被訓練好了,無中生有地生成單句或多條詩句就不再是難事了。

acd4-ivrxcex1327892.jpg

- Tom Phillips -

接下來,我們讓節奏模型遵守每行詩歌要有10個以輕音重音的模式結合音節的規律,然後,它會檢查每個單詞的字母和句子的標點符號,通過字母決定音節該如何分配,哪一個音節要歸類為重音。比如「summer」一詞有兩個音節,「sum」是重音,「mer」是輕音,當Deep-speare在寫四行詩時,語言模型會生成候選詩句,節奏模型會從中選出符合「五步抑揚格」的一句,然後再重複這一過程,生成下一行詩句。

韻律模型也是從過去的十四行詩集中含英咀華學會的,但它只會看每行最後一個單詞的字母。在訓練過程中,我們告訴模型,在四行詩中的每句詩的最後一個詞都需要押韻,然後我們讓它找出那些詞中最相似的詞,越是相似的單詞,就越有可能押韻。以莎士比亞的詩歌為例子,「day」和「May」的押韻分數很高,「temperate」和「date」也是如此。

一旦Deep-speare被訓練好並準備創作,我們會給它提供莎士比亞十四行詩中三個最經典的韻律模版來從中選擇:AABB, ABBA, ABAB。在寫作過程中,語言模型會先隨機選取其中一個模板,再逐詞地產生詩句,當寫到了應該押韻的單詞時,它會為押韻模型提供多個候選單詞。

下面有兩個例子可以很好地解釋Deep-speare生產文本的過程。第一篇文本是由稍微訓練過的模型所創作的,它初步掌握了韻律,但尚未找到節奏,且詩歌讀起來並不是很通順。

by complex grief』s petty nurse. had wise upon

along

came all me』s beauty, except a nymph of song

to be in the prospect, he th of forms i join

and long in the hears and must can god to run

由複雜的悲傷的美麗小護士

來吧我所有的美麗,除了一首歌

在光明的未來里,我加入的形式

長時間聆聽,必須讓上帝奔跑

第二篇文本則是由訓練臻於完善的模型生成的,相較第一篇可以看出,它取得了很大的進步。它ABBA的韻律是正確的,遵循了「五步抑揚格」,語言不僅流暢,還頗有詩意!

shall i behold him in his cloudy state

for just but tempteth me to stop and pray

a cry: if it will drag me, find no way

from pardon to him, who will stand and wait

怎麼忍心看他愁雲慘霧傷悲

耿耿於懷的我駐足祈禱安慰

只怕眼淚,來襲我無法應對

誰得寬恕,誰又將駐足等待

AI詩人寫的詩到底好不好?

在檢驗Deep-speare的輸出結果時,我們首先要確保它沒有複製語料庫里的原句。我們發現,它作品中的詩句並未和訓練數據有很大重疊,因此,我們相信AI詩人不是單靠複製粘貼產生作品的,它的詩歌可以說都是原創的。

不過 ,原創並不是質量好的代名詞,為了檢驗作品質量,我們請了人類評委進行分析,他們來自兩個不同的背景。第一組評委是亞馬遜Mechanical Turk平台雇傭的眾包工人,他們只會基礎的英語,沒有詩歌方面的專業知識。我們向他們同時展示AI詩人和人類詩人寫的十四行詩,並讓他們指出哪一首是人類寫的。

1af9-ivrxcex1328222.jpg

- Camilo Huinca -

但第一次的檢驗結果令我們感到大失所望,因為工人們可以近乎完美指出哪首是人類詩歌!看上去機器學習的結果顯然不符合人們的鑒賞標準。那這麼一來,我們AI詩人的研究之路是不是就到此為止了?

接著,我們思考了這近乎百分百識別率背後的原因或許是——第一組評委作弊了。我們的語料庫來自古騰堡工程在線圖書館,因而文本都是可以被搜到的,於是我們在想,會不會是他們複製了待判斷的詩歌,再到網上去搜是誰寫的?抱著這種猜測,我們的研究人員也依葫蘆畫瓢,測試了一番,事實證明我們是對的——人類詩歌作品總是可以搜到一些結果,達到百分百鑒別率是輕而易舉的事情。

為了防止評委們耍小技巧作弊,我們把所有的待鑒別詩歌都轉換為圖像,再讓他們指出哪首是人類詩歌作品。看!這次他們的正確率從近乎百分百下降到了百分之五十,這說明他們無法準確地區分人類和機器人的詩歌作品。儘管我們還是無法阻止所有人不去手動輸入詩歌再谷歌一下結果,但手動查找確實需要花費不少時間。總的來說,這次正確率的下降說明了AI詩人的作品在某種程度上,確實可以以假亂真。

我們的第二位評委是多倫多大學文學助理教授亞當·哈蒙德(Adam Hammond)。與第一組評委的測試過程不同,第二次質量檢驗不再是猜測遊戲。相反,哈蒙德將會收到混合著人工和機器創作的詩歌,並從韻律、節奏、可讀性和情感影響力這四個維度對它們進行打分。

他給了Deep-speare十四行詩很高的韻律分和節奏分,實際上,與人類寫作的十四行詩相比,它們在韻律和節奏上的評分更高。對這個結果,哈蒙德也並不感到驚訝,他認為人類詩人經常打破規律來取得一些詩歌效果。反倒是在可讀性和情感影響力上,AI詩人則明顯遜色了不少,文學專家可以輕易通過這兩個方面指出哪首是機器的創作。

AI寫詩的能力是幻想?

Deep-speare項目最有趣的地方之一是它造成的轟動。我們在2018年計算語言學學術會議上做完報告之後,世界各地的新聞媒體報道了這個成果。很多文章都引用了以下的詩節,以證明AI詩人Deep-speare能夠創造像人類創造的詩歌:

With joyous gambols gay and still array,

no longer when he 』twas, while in his day

at first to pass in all delightful ways

around him, charming, and of all his days.

當哈蒙德在BBC廣播電台接受採訪的時候,主持人朗讀了這個段落並問他的看法,哈蒙德則反問主持人是否有注意到詩歌中明顯的語法錯誤「he 』twas」來作為「he it was」(不成立的表達)的縮寫,主持人表示她並沒注意到。

社會科學家雪莉·特克爾(Sherry Turkle)把人們忽視人工智慧的明顯錯誤,卻依然感慨其成就的現象稱為「伊莉莎效應」(the Eliza effect)。換句話說,人們可以過度解讀機器產生的結果,甚至讀出來原本不存在的意義。這個現象最早可以追溯到十九世紀六十年代,在麻省理工大學,計算機科學家約瑟夫·維森鮑姆(Joseph Weizenbaum)開發了第一個聊天機器人伊莉莎(Eliza),它會模仿心理治療師的說話方式。儘管這個程序相當粗糙,還有很大的局限性,但維森鮑姆驚訝地發現用戶輕易地就被機器人「欺騙」了。在七十年代,作為維森鮑姆同事的特克爾發現,甚至那些明知伊莉莎程序有缺陷的研究生也會向機器拋出問題,並期待它以近似正常人類的方式去回答。

特克爾把伊莉莎效應稱為「數字幻想中的人類同謀」,而這看起來也可以解答人們對Deep-speare詩歌作品的讚歎反應。公眾太希望這些十四行詩可以用於證明人工智慧的力量,以至於忽略了那些與之相悖的證據。

這種蓄意的誤解可能會對AI詩人真正的能力發展造成阻礙。我們還在持續進行AI詩人的項目,目標之一就是提升我們AI詩人作品的可讀性和情感影響力。而要想提升整體的流暢度,其中一個策略是利用大範圍的語料庫(例如整個維基百科)去「預訓練」語言模型,讓它可以在一段較長的敘述中更好掌握詞彙出現的規律。在這個基礎上,我們再進一步對它進行十四行詩文本生成的訓練。

d846-ivrxcex1328217.jpg

- Tomasz Woźniakowski -

我們同樣也在思考,人類詩人是如何創作詩歌的:他們總不會在桌子旁正襟危坐,思考著「我第一個單詞應該是什麼」,然後冥思苦想,思考下一個單詞該接什麼好。相反,他們都是心中先構思出一個主題或者一段故事,再通過單詞和句子表達所思所想。其實在Deep-speare項目中,我們已經做到了讓AI詩人根據給定的主題來生成相關的文本,比如讓它創作主題是「愛」或「失去」的詩句。讓機器按照一定的主題,也許會提升詩歌的流暢度,但與此同時,它的詞彙選擇將不會那麼豐富,因為它總要先學習哪些詞彙符合某些主題。之後,我們計劃使用更多分層的語言模型進行實驗,先為詩歌生成高級敘事,再在這個框架下生成每一個詞彙——就如人類思考的路徑一樣。

確實,這是一個宏偉的目標,但我們希望Deep-speare項目可以在將來達到這樣的標準,就算不能變成真正的AI莎士比亞,那也要儘力成為莎士比亞在《情女怨》曾描述過的樣子:

He had the dialect and different skill,

Catching all passions in his craft of will.

「他有豐富的詞彙和無數技巧,

隨心所欲讓所有人為之傾倒。」

作者:Jey Han Lau, Trevor Cohn, Timothy Baldwin and Adam Hammond | 封面:Karolis Strautniekas