《機器學習時代的藝術創作》(Art in the Age of Machine Learning)這書名讓人不得不聯想到班雅明 1935 年經典文章〈機械複製時代的藝術作品〉(The Work of Art in the Age of Mechanical Reproduction),攝影技術讓消滅了藝術品原本具宗教崇拜性質的靈光,機器學習則不僅是複製內容本身或將其重新組合,而是讓整個內容生產的過程都能被複製、修改、混合。當然 20 世紀初的技術與今日已不可同日而語,過去對於技術、文化工業與政治的批判也不再適用。基於電腦科技發展出的演算法、網路與各式軟硬體,龐雜的系統對於一般使用者而言,完全超乎能夠理解的範圍,一方面讚嘆這些未知事物之偉大,將搜尋引擎封為「大神」,另一方面又心懷恐懼,擔心如 Midjourney 和 DALL·E 2 的 AI 製圖模型會讓藝術家和設計師丟了工作。那麼我們該如何理解這個時代裡,藝術與科技的關係?或許還是得從一些實際案例與基礎知識入手。
《機器學習時代的藝術創作》是一本寫給非資訊科學背景者的書,兼論非常入門的機器學習觀念,以及大量用相關技術製作的藝術作品。作者索非安.奧德里(Sofian Audry)是一名藝術家、研究者,目前是魁北克大學蒙特婁分校(University of Quebec in Montreal, UQAM)媒體學院的教授。從他的學術養成歷程來看,便能理解他為何能深入淺出地書寫這個題目:大學主修電腦科學,接著分別攻讀了機器學習與互動媒體這兩個領域的碩士,並在康考迪亞大學(Concordia University)取得跨領域人文學博士學位。其中為本書作序的約書亞.班吉歐(Yoshua Bengio)——2018 年圖靈獎得主之一、深度學習領域的先行者——正是奧德里碩士時期的指導教授。
作者經過 10 幾年的資訊工程訓練,一開始對於藝術創作也抱有誤解。但漸漸發現比起「解決問題」的工程思維,當代藝術更是在提出問題、為觀眾創造體驗。全書結構分成三個部分:訓練(training)、模型(model)與資料(data),正好對應到機器學習的三個要素。以極為簡略的方式來說,機器學習必須要先有一定數量的資料,經過訓練的過程,最後才能產生出可以運作的模型。不過在本書正式進入具體的作品案例與技術解說前,奧德里提出在機器學習的藝術創作方面,最常見的四大迷思:
迷思一:人工智慧、機器學習、深度學習是一樣的東西
三者應該是不同層次的。人工智慧涵蓋多種研究路徑,像是專注在設計演算法、讓電腦可以自己學習的機器學習;深度學習則是其中機器學習的其中一種取徑,使用人工神經網絡(artificial neural network)作為訓練的系統。迷思二:機器學習的藝術是新玩意
機器學習的概念可以追溯到 1940 年代控制論(cybernetics)的發展,但「機器學習」這個稱呼與「人工智慧」差不多同時在 1950 年代出現。至於在藝術創作中的機器學習,究竟是從何開始的就比較難追溯了,因為大多數的作品並不是真的用到那些技術,更多時候是把機器學習當作一個隱喻。迷思三:機器學習可以自己創作而不需要藝術家
雖然有些機器學習系統可以產出令人驚艷的結果,但至少這本書討論的範圍內,機器學習依然需要許多人的「勞動」,例如建立大規模資料庫、微調訓練的演算法。更重要的是,就算機器負擔了一些選擇的任務,但依然有一些只能交給創作者的決策。迷思四:機器學習將會很快引發超人類智能與創造力
作者認為這與其說是對於機器學習的迷思,這更像是對整體科技的誤解,如同 20 世紀初期的未來主義認為機械科技會取代人性一樣。除了破除迷思之外,奧德里談到將機器學習技術用於藝術創作時會面臨到的根本矛盾,以及一些可能的突破點。比如,最佳化(optimize)是機器學習甚或電腦科學中的很普遍且傳統的研究與應用方向,但這樣的思維在藝術創作中卻不適用。藝術是無法被最佳化的(nonoptimizable),原因在於藝術創作不是為了解決問題或提供答案,而且必須在特定背景或脈絡中解讀才有意義。也正因為這兩者間的衝突,藝術家創作時面對高度自動化的系統,選擇不同的模型也會產出截然不同的視覺/聲音效果,他們得試圖「扳彎」系統以符合創作上的美學需求,不論是在機器學習的過程中直接給予回饋(feedback)來擾動整個學習過程,或者建立一個目標函數(objective function),間接地影響、觀察系統會如何回應。兩種作法的共通點在於,都把機器學習的過程本身當作美學經驗的核心。
但又在某些時候,人們必須放下徹底了解整個過程是怎麼回事的念頭,而關於這一點作者特別花篇幅釐清了傳統的程式編寫與機器學習的差異。前者由工程師設計好程式,將資料輸入(input)程式,再由程式產出(output)結果,工程師得同時觀察輸入與產出;後者則是讓資料經過學習才產出程式,也就是說程式本身並不完全由人類寫出,而這樣可以被「訓練」的程式被稱作「模型」——用數學方式再現真實世界。
書中也平行梳理了當代藝術與人工智慧的發展歷程,試圖解釋為何這樣的機器訓練的過程能被接受為一種創作方式。1960-70 年代,當代藝術關注的重點在藝術創作的過程、行為,而不是僅是物質上最後完成的作品實體;另一方面,奠基於 1940 年代以來控制論發展的人工智慧,到了 1980-90 年代出現了 nouvelle AI 等自下而上(bottom-up)的類型被提出,像是機器人研究者羅德尼.布魯克斯(Rodney Brooks)發表的文章〈大象不會下棋〉(Elephants don’t play chess)正是這個研究方向的重要論述,其主要觀點是,應該讓外在環境的因素成為讓機器學習的對象,如同動物在大自然中生存需要具備敏銳的反應能力,而不僅是照著預先設定好棋步走。
這些能自我組織的奇特機器,讓人與機器的角色出現了微妙的換位。像是這本書中經常作為說明案例的機器樂隊《The Three Sirens》,藝術家尼可拉斯.巴金斯基(Nicolas Baginsky)說道自己將基本參數設定完成之後,就任由機器接收真實世界的刺激以演奏音樂,在這個情況下,機器不再是人的智慧助理,而人彷彿變成機器的創作助理。
書的最後一部分著重在機器學習的原料:資料(data)。機器學習需要大量的資料來訓練模型,拜網際網路之賜,相較於幾十年前,現在巨型科技公司更容易透過網路從使用者那邊搜集來大量的資料,也因此這些公司成了最有條件發展機器學習的組織。但藝術家們可就沒辦法這麼做了,這也是除了編寫程式的能力門檻之外,要用機器學習來創作的難點之一。奧德里舉了幾個例子,說明目前幾個藝術家蒐集資料的方法:例如拉蒂蒂亞.蘇納米(Laetitia Sonami)和蘇珊.凱特(Suzanne Kite)以他們自己的飛行紀錄用開源軟體 Wekinator 訓練模型並訂製樂器;鍾愫君(Sougwen Chung)則用他過去 20 多年的繪畫當作資料,訓練機械手臂 DOUG 跟他一起作畫;當然也可以從頭慢慢累積起,像安娜.里德勒(Anna Ridler)在花季時拍攝 10,000 張鬱金香照片去訓練對抗式生成網絡(generative adversarial networks, GANs);群眾外包也是一招,例如布萊恩.豪斯(Brain House)在《Everything That Happens Will Happen Today》這件作品中,請志願者連續一年用 app 匿名記錄下他們在紐約市的移動軌跡作為資料。
總結來說,雖然《機器學習時代的藝術創作》整本書幾乎沒有數學公式,但對於完全不懂機器學習技術的人如我,閱讀起來仍然有一點點難。此外,書中對於現狀提出的批判顯得有些無能為力,像是在第八章論及Google DeepDream 計畫的段落,作者對科技巨頭主持的藝術家資助、駐村計畫抱持懷疑,認為這些科技公司用過低的條件,從藝術家身上獲取發展機器學習的靈感。創作/生產工具與知識似乎離創作者愈來愈遠,甚至已經不是花錢升級器材就能解決的了。
作者Sofian Audry發表這本書的影片:https://vimeo.com/677506809
__李佳霖
畢業於台大外文系、中國美術學院策展研究所。關注數位時代的文化研究、媒體理論與藝術創作,製作相關的出版與展覽等計畫。