大數據與數位分析:兼論人文權威話語權轉向

以前我寫過一篇利用資料庫和大數據所得出的「科學家殿堂排名」。該名由哈佛大學數學系的團隊設計並刊載於《Science》上:他們首先與利用包含 Google Books 在內的各類型英文資料庫,分析從 1800-2000 年這兩百年間出現過的五千億個詞彙變化趨勢,然後以編寫《物種原始》的達爾文為基準點,

達爾文這個人名第一次被紀錄在書中是 1839 年,研究團隊進而創造出 milli-Darwin(mD) 這個單位,mD 表示達爾文這個人名出現在 1800-2000 這兩百年間的圖書、期刊中的千分比率。所以在這兩百年間的英文圖書中,達爾文就是 1000mD,換言之,在這兩百年間,被引用、討論、介紹的次數比達爾文高者,其 mD 就會高於 1000,反之則低於1000,以此列出排名。(詳細參考:http://blog.xuite.net/tuyu/MIYU/42071618)

這樣利用統計數據和資料庫所得出的排名是否公允?當於這一排名便引發了一些科學家之間的爭議,若將其思維極限上推則可導出:我們是否認同「編寫完善的大數據資料庫下得出的數字結果」將勝過人類的主觀意識取決判斷

或者換句話說,量化數字結果在嚴謹的設計下必然有難以否認的客觀理性,雖然常言球是圓的,但最後要決定絲毫之差的金牌銀牌得主時,依舊使用象徵理性、科學和精確客觀的「數字」。今年車展的模特兒哪個腿最長這是公開客觀的數據,但哪個腿最美則是主觀的喜好意識,但是否我們可以透過網路巨量資訊中,極限多數的無特定群眾意見中,來制定出一套放諸四海皆準的數字標準呢

最近,美國的電腦學家 Steven Skiena 和 Google 的資深工程師 Charles Ward 合作編寫,牛津大學出版的《Who’s Bigger: Where Historical Figures Really Rank》,便是一本利用巨量數據來探討誰是影響人類歷史最深遠的人物的作品。

過去這樣的書籍也不少,還可以海納到「全世界最偉大的十本小說」、「本世紀最重要的一百部電影」等等,你要什麼排名都有,《時代雜誌》在進入二十一世紀時,也挑選了影響二十世紀人類的一百人,奪冠的是愛因斯坦。但是就算是具有指標象徵意義的《時代雜誌》,排名還是具有爭議;或者說,任何關係到「人」或「歷史」的排名都難以絕對客觀嗎?

而我會想要提到這本書的原因是:這本利用大數據(Big Data)來進行研究撰寫的書籍並不歸類放於電腦或資訊科學,而被歸類為「歷史學著作」之中,這使我好奇,牛津大學出版社認同這樣的數據研究可以作為一定程度的信史嗎?抑或是其實這象徵某種學術氛圍的轉變?

 

該研究的巨量資訊以 Wikipedia 為基礎,透過全球使用者的查閱資料、編寫、瀏覽與修改次數、佔用流量空間為底本,另外再加上 Google rank 的排列,將時間線比重進行等比調整削減(最近火紅的新聞人物可能會比遠古人物具有更多的被檢索率,但重要性可能不高),最後加權比重,得出了下列的排名:

1.耶穌
2.拿破崙
3.莎士比亞
4.穆罕默德
5.林肯
6.華盛頓
7.希特勒
8.亞里斯多德
9.亞歷山大
10.傑佛遜
這樣的排名如何?我想認可的人應該會比那項 The Science Hall of Fame 更低,因為這影響人類世界最深遠的十個人之中,竟然沒有一個非西方人,另外就是女性的大量缺席。

第一個主要的原因當然是因為他們採取的數據是英文版的維基百科和相關的資料庫,而女性的缺乏(在一百名之中只有三位女性)也見證了所謂 “His” tory 中 Her- Story 的從屬地位。不過兩名作者對於自己的數據研究則相對有信心。雖然承認以英文作為數據資料庫有不完整性,但是他們認為這樣的研究是非常新穎且有價值的。在訪談中,作者回答道:

 

We do not answer these questions as historians might, through a principled assessment of their individual achievements. Instead, we evaluate each person by aggregating the traces of millions of opinions in a rigorous and principled manner… We measure meme strength, how successfully is the idea of this person being propagated through time.

 

也就是作者認為自身和所謂的傳統「歷史學家」評價人物的方式是不同的,這樣的作法更精確,更能反應大多數民眾(那些所謂沒辦法發出自己發出聲音)的沉默喜好,透過時間和查閱的縱深,更能凸顯哪些歷史人物歷久彌新、跨越時代,
這些因為興趣、筆戰或課業寫報告而查閱的「資料」,都是客觀且沒有隱晦地真實日常生活數據,就好像你的網路搜索歷程會反應你的特定喜好和性向,這絕非不是傳統人文學者所能觀察到「真正的大多數」,

雖然前十名都是西方人,但作者的言下之意或許是:這固然有語言資料庫的偏頗瑕疵,但是對「世界上大多數的人而言」,這十個人的數據在今天現實計算中是最多的,比起其他的非西方人更大。對於女性的缺乏,作者也認為,其實女性的比重相對來說成長很多,尤其在近三百年的數據中,女性的能見度比男性更高,故未來隨著這一現象將可消除。

在這個研究方法中,你會質疑的是為什麼拿破崙排歷史上第二?他們是怎麼計算出來的?

能否同意這本書的數據分析是一個問題,

我想說的是:但這或許也象徵著另外一種的氛圍變化(尚不能言典範轉移),也就是資料庫的應用,乃至於數據的使用,已經從資料檢索與作為分析之註腳,擴展到分析的主角層面。

金觀濤和劉青峰曾編寫《觀念史研究:中國現代重要政治術語的形成》一大書,利用資料庫的分析數據為底本,再加上文本史料來探討包含「科學」、「人權」等詞彙在近代中國的興起,是本成就斐然的作品;但是我認為這只是上述的第一層次的應用,

他們將數據資料庫作為背景和材料,但真正利用材料來說話、提出評論與分析的還是作者,而不是創造出一套整體性的分析工具。更直白地說,任何人只要擁有那套資料庫,得出來的結論不會和金、劉的結論有很大的落差。

但是《Who’s Bigger: Where Historical Figures Really Rank》一書則不同,你可以徹底否定這個排名,但你否定的條件必然是質疑他們的計算方式和加權比重,而不是作者的個人分析。你可挑戰他們對於數據運用的瑕疵,甚至創造一個全新的計算公式來重新排出新的名次,而這爭論的重點將集中在算法與資料庫系統本身的合理性限度,而不再是個人學識涵養上品茶論人物,煮酒話英雄的月旦談。

舉例而言,前十名唯一的哲人是亞里斯多德。當然亞里斯多德非常重要,但為何不是柏拉圖?蘇格拉底抑或是其他的哲學家?如果數據算法沒有問題,這項研究是否凸顯了對當代大多數而言,亞里斯多德更被重視?

若人文學者只用傳統的「人文性權威話語」來反駁上述的資訊學家入侵(本質來說,這和新聞人哀怨嚴肅新聞沒落與自媒體的氾濫有異曲同工之嘆)我覺得將很難施力迎擊,因為這有費邊主義之譏,而無跨盧比康河之勇,最終僅逐漸面對能曲高和寡的自我調侃。

舉例言之,在電子出版的爭議中,擁護紙本書的論者必須找出一些實際且具體的方式來論證紙本書確實有比電子書更方便、有價值之處,而不能只把焦點放在「紙張擁有難以比較的觸摸感」、「連結歷史、神遊古人」之類的充滿浪漫懷舊氣息的紙本迷思主義上。
短時間內,它不會構成傳統學者話語權威上的任何「威脅」,但未來十數年,這一現象可能會越來越顯著,所謂的數位典藏人文研究在近年來蔚為主流,但坦白地說:我覺得風行正在向資訊學家傾倒,而不是社會人文學者這一邊。下一篇我想談一下另外一個轉變的學術現象,也與此有點相牽。