《資料煉金術》web3.0時代 每個人都需要具備的「資料素養」

書名:《資料煉金術:開放資料存取權,重燃創新之火》
作者:麥爾荀伯格、蘭姆格
出版社:天下文化  
出版日期:2022年5月26日
書名:《資料煉金術:開放資料存取權,重燃創新之火》
作者:麥爾荀伯格、蘭姆格
出版社:天下文化
出版日期:2022年5月26日

文/麥爾荀伯格Viktor Mayer-Schönberger、蘭姆格Thomas Ramge

科技巨擘沒透露的祕密

Google內部如何運作?

2014年,時任執行長的施密特與產品資深副總羅森柏格在《Google模式》一書給出了答案。在這本超過三百頁的書裡,他們用各種有趣的軼事介紹了Google的企業文化、絕頂聰明的員工如何進行敏捷團隊合作與發揮創意合作,以及大家如何以求新若渴的態度,追求典型的下一次創新飛躍。施密特與羅森伯格描繪出一幅生動場景,讓我們看到Google如何吸引來自世界各地的人才。他們讚揚各種決策都以證據為基礎,也進而發展出一種根深柢固的心態——喜歡做實驗、喜歡做測試。

《Google模式》出版時,搭配有兩位作者深具啟發性的YouTube介紹影片,甚至還提供可免費下載的PPT,方便組織顧問與提倡「新工作」的人演講使用。《Google模式》是一場行銷的大勝仗,傳達出一項清楚的訊息:Google成為全球數一數二的大企業,是因為有兩位年輕天才在正確的時機,找出了如何打造一套更優秀的搜尋演算法;接著在怡人的環境中,將一群聰明的年輕人,以網路結構連結起來,讓他們的合作更有創意,表現優於數位化之前舊世界那種上下結構嚴謹的企業當中的員工。

故事說得好聽,並不代表說的只是童話故事。理論上,書裡大部分的軼事都所言不虛,而矽谷職場文化也一直是蘋果、Google、臉書等科技龍頭崛起和成功的重要因素。然而,故事說得好聽,也不代表講的就是完整的故事全貌。在《Google模式》中,幾乎完全沒提到資訊不對稱,也沒說到Google獨占了大批寶貴的資料。

並不是只有Google採取了這套策略。基本上,所有科技巨星公司都遵照這份劇本行事,會開放出來的知識與技術,都不屬於那些會影響他們爭奪數位主宰地位的領域。例如蘋果,清楚知道有哪些用戶、在哪個時候、在iPhone上安裝了哪些應用程式,但絕不會把這些資訊告知應用程式開發者。Apple News上的媒體內容也是如此。而一旦無法取得這種資料,內容供應商就會淪為商品服務供應商,只能任由蘋果擺布。

Spotify的方法也非常類似。這個瑞典音樂平臺很清楚自己為數約三億五千萬的用戶在什麼時候聽什麼音樂,但Spotify保護這些資料的態度,就像可口可樂保護原始配方,一樣極其謹慎。也是靠著這種資訊不對稱的狀況,讓Spotify與供應商的談判得以掌握優勢。

至於Booking.com雖然會告訴我們許多住宿房源的資訊,但還是有些資料由他們獨門掌握,例如:平臺天天都會觀察訂房狀況,因此就能掌握旅館如何根據空房數與時段而調整定價演算法。這份資料他人別想染指,因為這正是Booking.com資訊權力的來源。

同樣的狀況也可見於(WeChat),這是騰訊在中國推出的社群媒體應用程式,廣受歡迎。在微信平臺上,只要從某項服務得到了資料,就會廣泛運用來改善平臺上的其他服務,從傳訊、社群媒體、到支付,無所不包。與此同時,微信也小心守護著自己蒐集到的資料,對於這些資料帶來的巨大資訊優勢再清楚不過。就這種意義而言,微信同樣是遵照著大家所熟悉的腳本,而中國許多其他科技龍頭企業也不在話下。

為人作嫁的「笨水管」

回想起來,似乎創新者在成為巨星企業的路上,都是靠著放出一片修辭的煙幕,來混淆視聽,把自己促成破壞性成功的真正因素隱藏起來,直到現有企業恍然大悟,為時已晚。而為了要解釋自己如何發展並鞏固自身的資訊能力,創新者已經發展出一套特別會造成誤導的故事。故事是這麼說的:「數位化讓全世界得到了令人難以置信的資料量。從圖表看來,(據稱)全球資料量呈現指數成長,已經來到以ZB為單位(1 ZB 可是足足有21個0)。」

當然,這件事本身就難以想像,但這種敘述卻有助於造成誤解:會讓聽眾覺得,顯然傳統企業完全無力應對這股資料的洪流。畢竟,傳統企業可沒有能夠處理到ZB的超級電腦。而且更慘的是,傳統企業又沒有那種「聰明」人,像是人工智慧專家、資料科學家、量化分析專家之類,因為這些人瞭解演算法的祕密,才能看穿並掌握大數據深藏不露的見解。根據這種說法,一般人就會覺得:運算能力及所需的人類智慧,在當代經濟體系當中的分布並不平均,大半已集中在那些數位龍頭的手中。正因為這種雙重不平等,才讓這些龍頭企業占據了資訊科技的主宰地位。

這個故事聽起來很有道理,但其實就是個騙局。整套說法對於科技的理解,至少在三個方面大有問題。

第一,今日想要發展資訊的力量,所需的運算能力並不需要太高的成本,絕不是只有少數大公司與富裕政府能夠負擔。感謝摩爾定律所言不虛,機器的運算能力在過去六十年間大幅提升,儲存與傳輸資訊的能力也顯著提高。我們現在不但能夠運算更多資料,運算速度也加快甚多。而摩爾定律最重要的一點,在於成本的降低。這個持續幾十年的趨勢在貝佐斯定律的輔助下,更是得到增強。從貝佐斯定律可以看出,在亞馬遜網路服務(AWS)成功的激進定價策略下,雲端運算是如何及為何讓高速、大量的資訊處理成為人人都做得到的事。

要在AWS進行雲端運算,所需的成本大約每十八個月就會砍半。就整體而言,這件事的意義是:在1960年代,全世界只有幾臺電腦而已,當時的硬體高度集中。但這種情況已經過去了。如今不但每個人口袋裡都有智慧型手機,而且所有的智慧型手機、平板電腦、筆記型電腦,以及最重要的是各種規模大小的企業電腦網路,都能連上雲端,以最低的成本取得幾乎無限的運算能力。

這件事的重要性還不是人人都能夠體會。像是談到GAIA-X(一項新興的歐洲雲端運算基礎建設)的開發,就會發現大家對於運算能力的角色和重要性,存有各種錯誤認知。GAIA-X的建設經費是來自歐盟的稅收,一開始大家認為這會直接成為矽谷雲端服務業者的競爭對手(雖然AWS和微軟其實是位於西雅圖和普吉特海灣),但是隨著各項公共補助遭到削減,GAIA-X的支持者意識到,要自己建立一套歐洲的雲端基礎建設或許並不合時宜,於是開始邀請美國雲端服務業者加入。

雲端服務的問題,絕不在於世界上的業者太少,反而恰恰相反:雲端服務的業者已經太多。

在這項議題上,中國也學到了慘痛教訓。中國公私部門投入大筆資金(單單2019年就超過一百三十億美元)扶植雲端服務業者,還希望積極邁向國際,特別是在亞洲和南方世界。

我們從經濟學知道,基礎建設服務的提供就是兩種形式,第一種是由寡頭壟斷,於是十分昂貴,除非國家介入;第二種則是有多家業者,競爭激烈,於是服務成為一種商品,而利潤空間也受到壓縮。現在的雲端運算服務就是第二種,業者幾乎無處不在,但很多業者就是扮演著一種「笨水管」的角色——雖然協助處理資料,但對於資料在自家的伺服器上處理所產生的價值,這些業者卻無從取得一絲半毫。如果耗費公帑卻只是建出「笨水管」,會是一大錯誤,也無益於促進「數位主權」。

演算法大多不是私有智慧財

說到那些數位巨星企業為何能取得優勢,第二個普遍的誤解在於:搞錯了演算法扮演的角色。在那些故事中,總是把演算法吹捧得像是數位巨星企業和那些優秀工程師的智力精華結晶,是必須全力保護的智慧財產,要比克里姆林宮衛兵守護列寧遺體更為慎重。

另外還說,現在只有Google、蘋果、臉書、亞馬遜,以及百度、阿里巴巴、騰訊這幾座互相競爭的萬神殿,才擁有足夠的數學巫術,能夠碰觸到資料的無上智慧。但事實是:這純粹就是胡說八道!許多在資料分析上廣泛使用的演算法,都是出自於學界,常常最早就是公布在開源的演算法資料庫裡,人人都能免費存取。例如「R」這套廣受愛用的資料分析軟體,就是一項開源專案的成果,能夠免費下載。這項專案的背後,是由主要來自各大學的開發者結成聯盟,共同監督,並付出心力。

許多常見的法也是如此。有些最重要的機器學習演算法都是直接公諸於世,早已為人所知多年。而對應的工具與應用程式也都可以在GitHub(目前屬於微軟旗下)等開放平臺取得。

事實上,講到演算法,巨星企業其實是意外的樂於助人。就算這些企業確實是自行開發演算法,通常也是只要過了一小段時間,就會解除專利保護。而在某些地方,矽谷甚至是朝著開放的方向,更邁進了一步。像是馬斯克(Elon Musk)這樣的人,正在出資創辦OpenAI的平臺,希望讓人人都能免費下載各種廣受好評的機器學習工具,實際投入使用。

數位革命必需的原物料

關於數位顛覆如何導致資訊權力轉移,主流故事裡的第三個、或許聽來也最令人肅然起敬的元素,就是號稱這些成功的真正原因在於人類的聰明才智。通俗科幻小說有個傳統套路,就是出現某個天才、有某項驚人的發明,就這樣改變了一切。而在數位時代足以做為這種角色代表的,就是經典喜劇《宅男行不行》裡面的超高智商宅宅夫妻艾美和薛爾登這兩位博士。根據那套巨星企業的故事,他們的企業園區裡到處都是小艾美和小薛爾登,才智堪比愛因斯坦,把資料點石成金。

但事實是,雖然前面談到的資料煉金術或許真的存在,但可沒有什麼資料煉金術士組成的祕密集團。各大數位企業的資料科學家與量化分析專家,用的數學與統計材料都與一般人完全相同。那些矽谷龍頭企業之所以能占據主導地位,並不是因為真的聘到了什麼人類最頂尖非凡的頭腦。如果要講關於各種方法與模型的科學與知識,無論在美國、歐洲或亞洲,各家企業(包括新創企業)都有能力迎頭趕上,也都絕對能請到訓練有素的資料科學家。

這代表著什麼意義?那些在數位時代輸人一截的企業,並不是因為缺乏運算能力、無力發展雲端應用。而各種資料分析的工具或機器學習的演算法也不難取得。此外,雖然數位巨星企業或怨天尤人的落後者總掛在嘴上,但數位人才在全球的分布其實十分廣泛,並不像他們說的那麼集中。落後者之所以無法得到在數位上重大的飛躍,其實是因為無法取得資料,而那才是數位革命必需的原物料。

Google、臉書、亞馬遜、蘋果、微軟。Netflix、PayPal、Spotify、Uber、Booking.com、百度、阿里巴巴、騰訊、字節跳動、商湯科技、依圖科技……這些數位龍頭在各自的領域,打造各種機制、機會與應用程式,蒐集大量只掌握在他們自己手中的資料。就這點而言,「資料」和「石油」確實有些相似之處。不論是誰擁有油田,可不會想把石油拱手讓人。而對資料龍頭來說,也只有在特殊情況下,才會與他人分享自己的原物料。這種態度從策略角度來看並不難理解,因為「取用權」能夠轉化為競爭優勢;這正是企業估值時的基礎,而且這能讓競爭對手苦思、苦惱、苦無解方。

混淆視聽的騙局

數位創新者白手起家、成就霸權地位,完全有理由把自己崛起的故事講得像是令人嘆服的寓言,謳歌人類的才智、讚頌他們所創造的演算法。這套關於他們成就的故事,就為他們現在握有的權力提供了道德上的正當性,而不用擔心被批評是造成資訊不對稱的元凶,也能躲過一些尖銳的質問。畢竟,有誰會想看到政府用法規蠻橫介入,搶走天才企業家努力的成就?

至於在數位巨星企業上班的高薪工程師,也都相信自己是在推動資訊科技的進步,常常是真心希望眾人都能共享其勞動成果。在科學研討會上,他們看起來是又聰明又令人有好感,散發著巨星的光芒。至於公司的管理階層,也很熱中派出這些「艾美」和「薛爾登」去參加學術活動,因為這些人的態度與才智,讓整套故事聽起來更為可信可靠。一直以來,那些掌管數位龍頭企業的人,總是大肆吹噓著他們的科技多先進、員工多高明,但對於資料的取用權卻是噤聲不語。

這早就不是新鮮事了。以愛迪生為例,他是直流電的愛好者,於是用盡各種詭計、故事與籌謀,詆毀交流電的技術。他甚至曾經主張,該用交流電舉行公開電刑處決。一次又一次,掌權者總是運用那些乍聽之下再合理不過的故事,不讓大家注意到他們權力真正的來源。而隨著目前資料化的潮流,歷史也正在重演。只是這次牽涉的除了經濟權力,還有資訊權力——而這正是能夠主導現代社會的力量。

也正因如此,這套大有問題的故事、讓人以為這些企業的資訊權力都是誠實取得,才會如此危險。用熊彼德的話來說,這套故事是保護那些握有權勢的人,讓那些資訊龍頭靠著創造性破壞而掌權之後,得以不用擔心輪到自己面對創造性破壞。

●本文摘選自出版之《資料煉金術:開放資料存取權,重燃創新之火》,未經同意禁止轉載。


加入 琅琅悅讀 Google News 按下追蹤,精選好文不漏接!
矽谷 微信 機器學習 天下文化 閱讀風向球

逛書店

延伸閱讀

聊天冷場茶總能打開話匣子 探索西方與東方的茶葉史

面對中年迷惘該怎麼走?呂秋遠10點建議,下半場人生更自由

「重生17次還是討厭死掉」羅伯派汀森最新電影《米奇17號》改編自小說《米奇7號》

日劇《爛漫》改編自真實人生:奠定日本植物學分類基礎的植物學家──牧野富太郎

猜你喜歡

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。