蘇黎／馴聲記

▋一名音樂大叔

對唱片工業的碎念

「在像我們這樣的時代，當工程師的天才達到如此令人難以想像的程度時，我們能夠像買一杯啤酒一樣輕鬆地聆聽名曲。當任何人都可以隨意喚醒這被保留在唱片中的魔力，我們難道不應該擔憂這種對聲音的馴化（domestication du son）嗎？這難道不意味著，一向被認為堅不可摧的藝術之神祕力量，終將消失嗎？」

——克勞德·德布西（Claude Debussy），於La Revue S. I. M.（1913）

逛書店

NT$

德布西寫下這些隨筆文字時，已經是他人生的最後幾年了。此後地球上出現的新音樂和新科技，固非他所能判斷，我們不能用這「一名音樂大叔對唱片工業的碎念」印證什麼未來趨勢。但特別的是，這名憂心的音樂大叔正處於歷史上音樂人首度面對現代聲音科技的時刻，因此他所提到的這些，關於在1913年所回不去、必須來的種種，相當適合作為2023年討論當代音樂人工智慧（artificial intelligence, AI）技術的起點。

「聲音的馴化」一詞，可理解為人類對於被馴化的聲音擁有絕對的、能輕易使用的儲藏、複製、取用、繁殖、改良、汰選和奴役的能力。唱片和留聲機即是人類對音樂訊號的馴化史的濫觴。此後出現的音訊處理技術、壓縮技術、網路通訊技術，逐漸使全世界大多數的音樂必須陳列於各大線上音樂串流牧場，等待任何人自由取得並反覆播放。

此後，你不一定要與眾人排隊走進音樂廳，不一定要踮起腳尖擠在搖滾區的後面，你不用融入音樂現場。聽音樂從高度社交的活動，轉為內向者的心靈出口。你可以獨自聽著最愛的歌，如撫摸著你最愛的貓；你可以用一生聽著最愛的歌，如最忠實的貓奴。但此時你的征服慾卻不能被滿足：你發現單憑自己一人的力量無法有效經營這些音樂牧場。世界上的曲子那麼多，你不可能逐一聆聽以找到最愛的歌。人類又有回味舊曲的習性：大多數的人願意用整個後半生懷念舊曲，有多少人能夠終其一生持續認識時下最新的音樂？

為滿足這樣的需求，在過去二十年中，音樂資訊檢索（music information retrieval）這個領域興起，各式各樣駕馭音樂資料的技術陸續問世。如今，各大音樂牧場上的音樂推薦服務徹底改變了人類聽音樂的方式。德布西必想不到今天，他甚至能夠像買一杯啤酒一樣輕鬆地上網搜尋甘美朗（Gamelan）音樂。你可以邂逅而深愛某種音樂而無涉其文化背景，你不用融入文化現場。

錄音技術、個人化的聆聽設備、自動音樂推薦系統相續接力，消除了聆聽者愛上某首曲子原本必要的社會與文化的門檻。最後是音樂推薦系統反過來控制了聆聽者：我們的網路足跡，那麼多有意或無意地點連結、聽音樂、反覆播放、按讚、給星、分享、留言的紀錄，無意識中累積成可觀的數據，而音樂推薦模型早已透過這些數據而掌握了我們的品味。推薦系統比你更了解你自己，令你每天觀看「您可能會感興趣」的影片而無所排斥，將你牢牢豢養於社群網路之中。人類馴化音樂一百年，我們見證音樂推薦系統馴化了人類。

▋自己的絕響自己聽

我可以為自己買一束花

在沙灘上寫自己的名字

與自己說很久的話

說那些你不懂的事

——Miley Cyrus，〈Flowers〉（2022）

再過不久，或許人人都可以像買一杯啤酒一樣為自己寫一首歌了。在本文寫作的當下，以關鍵字、旋律線甚至是自然語言作為提示詞（prompt）生成音樂的人工智慧模型已經陸續問世。幾周前發表的MusicGen模型和幾天前發表的WavJourney模型都在技術圈激起了廣泛討論。將會有音樂的ChatGPT：寫下你的詩句、你幻想的新歌的樣子，讓人工智慧替你腦補。甚至你也不用寫——你的網路足跡已經足夠刻畫你偏好的音樂的模樣——未來的音樂牧場可以產地直送「只為你而作」「唯你能作」的創作服務。只屬於你，自由的nineteen’s kitsch。

建立這樣的人工智慧模型，也就是所謂大型的神經網路（neural network）模型，需要大量現有的音樂資料（最好是全人類的音樂資料），以及人類對這些音樂資料的文字描述。在訓練模型的過程中，大量參數等待接受這些資料的優化，資訊遵照梯度下降法（gradient descent）和反向傳播（backpropagation）流動，目標是把音樂與其文字描述編碼（encode）到某個隱空間（latent space）中的同一點，這個點可以再解碼（decode）回原本的音樂和文字。打通了這道程序後，我們便可輸入任意文字而得到任意音樂了。

在隱空間中造訪那些未被現有音樂編碼的點，便能製造「新的」音樂。所謂的新，就是舊有資料在隱空間上的內插（interpolation），是一種大規模改編、混合歷史音樂資料的手段，一種大規模的致敬。文字和音樂的關係可以如此表述，那作者與作品的關係、和弦與旋律的關係、上個樂句和下個樂句的關係，大概也都可以是這樣。

隨著模型繼續精進，嘗試創作的我們終將不用再經歷那種長路漫漫、上下而求索的心理狀態了。我們的生活品質若因此提升，那這就是所謂的進步。假如未來的人工智慧都能夠驅動一億次用戶的音樂創作體驗，那一首點閱數一億的歌曲算什麼呢？屬於你的新歌有可能成為網路迷因，但沒有也罷；一首歌預設的聽眾可以只有一個人，就是那與眾不同的你。小國寡民，人工智慧將為你打造一個人的文化圈，自己的絕響自己聽。

你可以存疑。但用運算的方式製造音樂真的沒有不可能。音樂是由所謂規則主導的（rule-based）思維模式、可自動化的作業程序以及部分的隨機性所描述。音樂就是運算思維的產物，所有音樂理論的發展都必然涉及「演算法」（algorithm）的建構。自動作曲堪稱是最古老的音樂科技之一，從風鈴（已知最早的自動音樂生成技術）到和聲學，再到〈初音未來的消失〉，演算法無所不在。適當地「安排」這些歷史所累積的音樂理論知識，早就能產生夠強的音樂作品。

電腦音樂家David Cope開發的EMI（Experiments in Musical Intelligence）演算法作曲系統在1990年代就曾打過一場傳奇性的擂台。此役乃由音樂學大師Steve Larson發起，規則是請EMI系統作一首仿巴哈風格的曲子，並與他自己作的一首仿巴哈風格曲子，以及一首巴哈本人作的曲子匿名公開演出，讓聽眾投票，猜這三首曲子的真實作者。David Cope接受挑戰。三腳督投票，結果顯示，大多數的聽眾以為EMI系統的作品是巴哈所作，巴哈的作品是Steve Larson所作，Steve Larson的作品是EMI系統所作。傷害不大，汙辱性極強。

▋不要讓藝術的捍衛者

被天才工程師

拋在後面

（以下命題何者正確？（A）繆思是神（B）繆思是人（C）繆思是軟體（D）繆思是塑膠做的）

EMI系統的核心思想是重組（recombinant）。它利用了音樂理論家分析音樂的程序，將音樂階層化地切割成有意義的碎片，然後將各類碎片再利用，適當重組、重編成新的曲子。這相當合理也有效，至少切下德布西〈月光〉（Clair de lune）的前三個音都可以神乎其技地契合華歌爾廣告的聲音商標（sonic branding）。持平而論，EMI系統的成功與其說是電腦軟體在音樂創作的首勝，不如說是反映了人類音樂理論知識體系的成熟。至於我們在2023年見證的大型神經網路技術，反而揭示了此一知識體系的片面與殘缺。

大型神經網路模型的核心思想是跳過知識，直接控制資料。數億、數千億個參數的編碼／解碼網路，並不基於任何音樂理論知識。它就是聽遍世界上所有的曲子，並持續認識新曲，對各種文化、語言、樂種的音樂詞彙進行完整的建模，終而貫穿所有音樂理論可以預測的範圍以及這些理論的例外，即使我們無從解釋每一個被訓練好的參數的意義。當一個模型的效能越好，我們往往就越無法解釋它為什麼好，這是大型的神經網路的特性。可解釋人工智慧（explainable AI）這個研究領域，即是圍繞這個看似悖論的特性而興。

人類的音樂知識終須基於特定的文化和社會背景，人類又必須藉由音樂知識而學習音樂，藉由音樂知識而理解、賞析、評價音樂。大型神經網路模型沒有這些先天限制，它在目前的訓練模式下，不曾融入音樂現場。我們將面對一個音樂知識可以跟音樂產生機制無關的時代。知者不言，言者不知，人類對音樂訊號的馴化史將走向一個嶄新的、絕聖棄智的方向。是故依我拙見，音樂人工智慧技術的特性終不能消滅本文開頭引述的「堅不可摧的藝術之神祕力量」，反而是彰顯它更神祕而超然的一面了。且看德布西繼續寫道：

「……不要輕易得出任何一代不如一代的結論，但我們必須注意那已經吞噬了許多美好事物的機器。如果我想滿足這頭怪獸，就把舊的曲目丟給它吧！」

「為什麼他們不明白，我們身後已有這麼多世紀的音樂，從這一偉大的知識遺產中受益而幼稚地設法改寫歷史，真的不值得。相反，我們的責任難道不是找到我們這個時代所需要的，進步、勇敢和勝利所需要的交響樂公式嗎？……不要讓藝術的捍衛者排在研究人員大軍的最後而裹足不前；願他們不會被天才的工程師拋在後面。」

加入琅琅悅讀 Google News 按下追蹤，精選好文不漏接！