大數(shù)據(jù)與數(shù)據(jù)無關* Gary King**
* 本文根據(jù)Gary King教授2017年1月4日在上海交通大學國際與公共事務學院所做的專題學術報告整理而成。
** Gary King,哈佛大學教授,定量社會科學研究所主任 (Directorofthe Institutefor Quantitative Social Scienceat Harvard University)。
“大數(shù)據(jù)”,也就是數(shù)據(jù)科學(Data Science),在不同領域有很多名稱:在化學中,它被稱為“化學計量學”;在生物學中,則被稱為“生物統(tǒng)計”;在經(jīng)濟學中,是“計量經(jīng)濟學”;在政治科學中則是“政治學方法論”。實際上,“大數(shù)據(jù)”是媒體向社會公眾報道數(shù)據(jù)科學領域的相關信息時提出的詞匯。與上述專業(yè)術語相比,這一稱謂出色地指明了數(shù)據(jù)科學的精髓:大數(shù)據(jù)的重點在于分析方法而非數(shù)據(jù)本身。如果沒有合理的分析方法,大數(shù)據(jù)不僅不能讓事情變得更容易,甚至會讓問題變得更加棘手。但是,大數(shù)據(jù)為我們創(chuàng)造了新的機會,如果把握好這些機會,我們就能在眾多領域取得豐碩的研究成果。特別是在社會科學領域,作為研究人類自身的重要方法,大數(shù)據(jù)的研究意義更是非比尋常。
一、大數(shù)據(jù)對當代社會生活的影響
問大家一個問題,對于你及你家人的生活方式影響最大的科學研究是什么? 我們可以列出一長串的研究成果。例如基因革命,它研究人體的結構和運行方式并為我們治愈一些疾病提供了支持;基本粒子的發(fā)現(xiàn)(如希格斯粒子);天文學對地外星系的觀測和對類地行星的探索;還有就是過去一兩個世紀內(nèi)由于醫(yī)療條件改善而帶來的人類壽命的成倍增長。這些都可以列入偉大的發(fā)明研究中。但我認為定量社會科學也是這一系列的偉大發(fā)明之一。為什么這樣說? 不論你稱它為大數(shù)據(jù)、數(shù)據(jù)科學還是數(shù)據(jù)分析學,它都在使我們的生活迅速數(shù)據(jù)化。如果感興趣的話,你會發(fā)現(xiàn)我們周邊的一切都在生產(chǎn)數(shù)據(jù)。鐘表、攝像機、手機都在生產(chǎn)數(shù)據(jù);在公司內(nèi),大量有效信息被收集并錄入人力資源或財務系統(tǒng),管理人員不僅通過分析數(shù)據(jù)來制定決策,而且還通過觀測反饋數(shù)據(jù)調(diào)整其運營策略。大數(shù)據(jù)不僅提升了公司的數(shù)據(jù)生產(chǎn)和運用能力,而且?guī)椭蠖鄶?shù)公司從傳統(tǒng)運行模式轉(zhuǎn)向更具效率的大數(shù)據(jù)運營模式;此外,大數(shù)據(jù)的產(chǎn)生和發(fā)展還催生了大量新興產(chǎn)業(yè)。例如社交媒體,它創(chuàng)造并改變了我們的社交網(wǎng)絡,空前提升了人們的表達能力;它還改變了競選方式,推動了經(jīng)濟、司法和公共醫(yī)療等領域的諸多變革。大數(shù)據(jù)甚至改變了體育運動,《點球成金》這部電影便是一部將大數(shù)據(jù)應用于體育的案例。在當今社會,體育運動也能利用數(shù)據(jù)去分析評價。很多有趣的公共政策問題都可以通過大數(shù)據(jù)進行分析。大數(shù)據(jù)對這一領域的影響力與日俱增。盡管手機、攝像機或其他數(shù)據(jù)采集設備在推動現(xiàn)代社會數(shù)據(jù)化的過程中功不可沒,但沒有定量研究,我們就難以對數(shù)據(jù)進行有效分析,之前提到的種種產(chǎn)業(yè)變革便不會發(fā)生。與數(shù)據(jù)相比,數(shù)據(jù)分析方法才是未來大數(shù)據(jù)發(fā)展的重中之重。
二、大數(shù)據(jù)的價值在于分析方法——基于不同案例的說明
那么,大數(shù)據(jù)的價值在哪里呢? 大數(shù)據(jù)的價值不僅與信息技術和數(shù)據(jù)采集設備無關,而且也與數(shù)據(jù)本身無關。如前所述,數(shù)據(jù)實際上是信息技術發(fā)展的副產(chǎn)品。例如,學校設立新的信息系統(tǒng)是為了方便學生注冊,但該系統(tǒng)在使注冊工作更加方便高效的同時,也收集了大量數(shù)據(jù)。所以說,數(shù)據(jù)可能是不經(jīng)意間產(chǎn)生的。隨著大量高校引入此類信息系統(tǒng),由于市場競爭,其價格也會不斷下降。于是,即使高校與為其提供相應服務的公司沒有去刻意收集數(shù)據(jù),其積累的數(shù)據(jù)也會與日俱增。由此可見,數(shù)據(jù)的獲取并非難事,只要付出一點努力,你的數(shù)據(jù)收集量就會不斷增長。然而,實現(xiàn)數(shù)據(jù)的價值有賴于相應的分析方法。只有我們能夠合理運用分析方法,才能從數(shù)據(jù)中有所收獲,并知道如何以完全不同的方式利用這些數(shù)據(jù)。接下來,我將通過我或我的同事在研究中遇到的各種案例,來說明分析方法對大數(shù)據(jù)應用的重要性。
首先,讓我們了解一下數(shù)據(jù)分析方法在提升數(shù)據(jù)運算效率中的顯著作用。眾所周知,根據(jù)摩爾定律,計算機的運算速度和性能每18個月便會翻倍。但與數(shù)據(jù)學家花費一下午的時間通過優(yōu)化算法所提升的運行速度相比,它也只能甘拜下風。我有一位同事每過幾天就要收集并處理一些數(shù)據(jù),隨著時間的推移,他積累的數(shù)據(jù)越來越多。終于有一天,他的計算機已經(jīng)不能處理如此龐大的數(shù)據(jù)。所以他向?qū)W校IT部門咨詢道:“告訴我,要買多大的計算機才能運行我的數(shù)據(jù)?”他得到的回答是:“需要一臺價值兩百萬美元的超級計算機?!北M管他的確可以找人來贊助這筆費用,但是我讓兩名研究生花一小時改進了一下算法,就使之前需要超級計算機才能完成的運算僅需要一臺筆記本電腦和20分鐘便可解決。由此可見,通過分析方法提升大數(shù)據(jù)運算效率的效費比要遠高于硬件設備。隨著分析方法不斷改進,它對大數(shù)據(jù)的發(fā)展將產(chǎn)生更為顯著和深遠的影響。大數(shù)據(jù)令人興奮,但是如果沒有分析方法,大數(shù)據(jù)便會毫無價值。
那么,與傳統(tǒng)社科問題相比,大數(shù)據(jù)又需要面對怎樣的新問題呢? 我有一位已經(jīng)退休的哈佛同事,為了研究積極參與者如何影響公共政策。他隨機調(diào)查了15000名美國人,向他們詢問諸如“你是否是一名政治積極分子?”“你是否花費時間去影響政策與政治?”之類的問題。然后,他將15000個調(diào)查對象縮減到2000人,對他們做了更為詳細的調(diào)查,并基于調(diào)查結果寫了一本關于政治實踐主義(Political Activism)的學術名作。其主要結論是,建設高效國家的前提,是擁有通過各種方式積極參與公共政策的公民。這本重要的政治學專著對社會科學也存在重要意義,因為它告訴我們想要了解政府和社會如何運轉(zhuǎn),就必須去與人們接觸互動。然而當今社交媒體中關于政治觀點和公共政策意見的信息多達兆億。事實上,全球每天都有六億五千萬條社交媒體信息。你要如何去處理這些數(shù)據(jù)? 回到家中寫到卡片紙上然后疊放在你的公寓里? 當數(shù)據(jù)量從六億五千萬變成七億五千萬的時候,數(shù)據(jù)會更有用嗎? 當然不會,這會變得更棘手。但是,如果我們能弄明白如何分析這些數(shù)據(jù)的話,其中蘊藏的機遇也是不可限量的。我們根本不需要2000個訪談就能知道整個社交網(wǎng)絡上數(shù)以億計的用戶的觀點。如前所述,這其中有巨大的潛力,當然難度也是空前的。相比之下,分析2000個結構化的訪談信息可比分析這六億五千萬條內(nèi)容多樣,語言也不盡相同的留言容易多了。但挑戰(zhàn)越多,潛力越大。更多數(shù)據(jù)并不能讓事情簡化,而需要文本分析方法從旁協(xié)助。以鍛煉為例,如果公共衛(wèi)生人員通過詢問來測量人們的運動量,例如他們上周運動的次數(shù),但作為調(diào)查對象的我們真能如實回答這個問題嗎? 也許你回答的是自己的跑步次數(shù)而不是運動的次數(shù),也許你認為自己是一個只喜歡看電視的人,所以你的回答可能不真實。那我們又如何能使用這些信息呢? 所幸現(xiàn)在我們有諸如手機和應用軟件等現(xiàn)代數(shù)據(jù)收集設備,可用于記錄我們的位置和運動量。即使如此,如何正確地處理這些數(shù)據(jù)中的內(nèi)在聯(lián)系仍然是一項挑戰(zhàn)。同樣以上文中的運動問題為例,身處高速行駛的列車上,即使我靜止不動,手機中的應用也會持續(xù)記錄運動里程。想厘清此類關聯(lián)并不容易,但這正是我們能發(fā)揮作用的部分。下面,我會通過自己的一系列研究來向大家進一步說明這個問題。
在此之前,我們先來通過一些醫(yī)學和文本分析方面的案例了解一下現(xiàn)行分析方法的局限以及改進方向。在醫(yī)療注冊系統(tǒng)健全的國家,公共衛(wèi)生部門可以通過尸檢來確定逝者的死因,并統(tǒng)計不同死亡原因的死亡人數(shù)與比例,進而采取措施預防疾病或疫情。然而,世界上大多數(shù)欠發(fā)達國家并沒有相關記錄。一種解決方法就是口頭驗尸,找到死亡現(xiàn)場的其他目擊者詢問他們一系列簡單問題,例如,病患死亡前是否肚子疼痛? 是否在流血? 然后將這些問題的答案交給醫(yī)生,醫(yī)生就會對死亡原因作出判斷。但這種做法的問題在于,不同醫(yī)生可能會對同一病例產(chǎn)生分歧和誤判,而這種謬誤可能會因為各種外在因素而放大。例如,上海的醫(yī)生未必能準確診斷坦桑尼亞等地的常見病例,因為上海幾乎沒有瘧疾等當?shù)爻R姴?;而坦桑尼亞甚至缺乏足夠的醫(yī)療人員。我們用相同的方法再來看看另一個案例。蘋果公司收集了社交媒體中對“i Phone”的所有公開評價,并統(tǒng)計了與蘋果手機相關的積極詞匯和消極詞匯的詞頻,如“蘋果手機真棒,太好了?!被颉疤O果手機爛死了,不如扔到廁所里。”但這種看似高端的做法實際上和“口頭驗尸”別無二致。幾個月前我在新加坡,當?shù)卣M私馊藗儗δ男┕舱吒信d趣,所以他們檢索了社交媒體中關于公共政策的關鍵字,發(fā)現(xiàn)人們對于教育尤為關注,如學校教育(schooling)、上課、教科書等詞匯出現(xiàn)非常多。據(jù)此,政府官員認為有必要在教育領域投入更多的精力。但他們忽略了一點,彼時正值夏季奧運會期間,新加坡產(chǎn)生了第一位奧林匹克金牌獲得者:Joseph Schooling。他的姓氏與網(wǎng)絡搜索的關鍵詞schooling恰好重疊,但是政府官員并沒注意到這一點,相應的分析結果自然也宣告無效。類似的案例不勝枚舉,由此可見,語句分析中的詞頻統(tǒng)計在很多情況下存在明顯局限?;氐街瓣P于“口頭驗尸”的問題,我們在上海重新討論了這一問題并得出結論:公共衛(wèi)生領域的工作人員無須專注于個體病例,而是要將逝者的死因進行歸類。若90%的死亡都是由于心臟病引起的,剩下10%是其他疾病,當你在為某一位逝者進行死因歸類時,選擇心臟病的正確率便有90%。此時,多數(shù)人會追求90%的正確率。盡管正確的目標應該是實事求是地分類,但是少數(shù)錯誤的分類帶來的偏差并不會產(chǎn)生明顯的負面影響。所以,我們的方法不是要準確分類,而是要提升整體分類準確率。實際上,我們不僅用以上觀點在世界衛(wèi)生組織上海會議中說服了與會者,而且還將其應用到社交媒體的文本分析中。畢竟,我們不必關注每個人在推特或微信上說了什么,而是要設法弄清作為整體的“人們”在社交媒體中關注的議題類型。由我協(xié)助創(chuàng)辦的Chimson Hexagon公司便是一家使用這套方法的媒體數(shù)據(jù)分析公司,該公司目前在全球十大創(chuàng)新公司排名第七。同一臺電腦,同一套編碼,同樣的分析方法,雖然數(shù)據(jù)不同,但效果依然不錯。
那么這種分析方法有沒有進一步改進的空間呢? 當然有。接下來我將通過電腦輔助閱讀與國會議員發(fā)言記錄分析的案例向各位說明這一點。大家是否還記得幾年前的波士頓馬拉松爆炸案? 我們對43名本科生做了一個實驗,讓他們從一萬條關于波士頓馬拉松爆炸案的推特和微博中篩選出與兇手相關的關鍵詞。學生們篩選出的關鍵詞數(shù)的中位數(shù)是8條,那學生們一共總結出多少個不同的關鍵詞呢?149條。這意味著如果我們只讓一名學生去完成這項工作,那么他遺漏其他人找到的關鍵詞的概率幾乎高達三分之二! 人類在關鍵詞分類這個問題上是靠不住的。盡管我們每時每刻都在使用搜索引擎,在網(wǎng)上搜索關鍵詞,但實際上我們并不擅長這件事情,這不是很奇怪么? 盡管我們能判斷某些關鍵詞是否具有實際意義,但我們卻很難記住所有的詞匯。然而,我們可以讓程序幫助我們彌補這項缺陷,而這正是其優(yōu)勢所在。我的團隊研發(fā)了名為“Concilience”的系統(tǒng),該系統(tǒng)可以使用技術推薦50或100個關鍵詞,并由研究人員人工判定保留的詞匯。這個系統(tǒng)可以閱讀100億條文件,并迅速將大量的文件分成少數(shù)幾類。這一系統(tǒng)在針對美國國會議員發(fā)言記錄的文本分析中發(fā)揮了明顯作用。眾所周知,美國的政客們會通過宣揚政績(Credit Claiming),如申明政治立場、為選取做出的貢獻來爭取選票。一直以來,政治學都在對政客們的發(fā)言進行研究,并試圖對其中的議題進行歸類。但是面對浩如煙海的新聞文本,即使最勤勉的學者也無能為力。然而,我們使用上文中提到的新系統(tǒng)分析了64000篇參議院議員的新聞稿,并發(fā)現(xiàn)了一個獨立于經(jīng)濟和外交政策等傳統(tǒng)議題的新議題:黨派嘲諷(Partisan Taunting),即一個政黨總是會拿另一個政黨開玩笑。例如,國會參議員Lautenberg用一幅畫著身著軍服的雞的漫畫炮轟共和黨人是“雞鷹”,或共和黨人在奧巴馬的國情咨文會議上站起來說:“他在撒謊。”盡管這些內(nèi)容看上去似乎別有深意,但它們的確與經(jīng)濟、政治還有外交等傳統(tǒng)議題無關,只是為了取笑對方。我甚至認為2016年的美國大選基本上就是一場黨派嘲諷。實際上,分析結果表明,大選期間27%的新聞稿都是關于黨派嘲諷的,即每四篇新聞中就有一篇屬于這一議題。然而,這一議題甚至是之前我們都沒有考慮到的類型。所以說,分析方法不僅能幫助我們解決問題,甚至可以幫助我們發(fā)現(xiàn)還沒有意識到的問題。
那么除學術研究以外,數(shù)據(jù)分析與大數(shù)據(jù)對社會和民生又產(chǎn)生了何種影響呢? 現(xiàn)在讓我通過大數(shù)據(jù)在提升學生閱讀能力和美國社保政策決策輔助方面的案例說明它對宏觀政策和人們的日常生活帶來的影響。首先,讓我們來看一看大數(shù)據(jù)在現(xiàn)代高等教育中的應用。請問在座的各位學生,你們有多少人會花錢購買教材? 又有多少人會按時完成老師布置的課前閱讀作業(yè)? 在西方國家,前者的數(shù)量低于50%,而后者只有20%到30%。這不僅使隨堂測驗變成了學生的夢魘,而且還使教學質(zhì)量變得慘不忍睹。為什么學生群體難以獨立完成他們的學習任務呢? 這是因為教育仍然是一個集體性經(jīng)歷的過程,而不是一個獨自學習的過程。打個比方,盡管i Tunes上的音樂質(zhì)量很好,但人們在自身集體行動的本能的驅(qū)使下,還是會花大價錢去聽音樂會。有鑒于此,我們發(fā)明了一款具有分析功能的電子閱讀器——Perusall。該系統(tǒng)不僅具有文獻閱讀、重點標記和成績記錄等傳統(tǒng)功能,而且還與我們創(chuàng)立的集體學習平臺相關聯(lián)。在平臺上,不僅學生們可以提出疑問或與其他同學交流觀點,而且教授也可以根據(jù)系統(tǒng)對學生討論記錄的分析結果,發(fā)現(xiàn)教學過程中存在的普遍問題,并在課堂教學時直入重點。這一系統(tǒng)在提升學生的學習效率、增加師生互動之余,也有效改善了現(xiàn)代高校的學習環(huán)境和教學質(zhì)量。然后,讓我們了解一下大數(shù)據(jù)和數(shù)據(jù)分析在公共政策制定過程中的輔助決策功能。
當前,社會保險是美國政府的一項主要開支。它不僅幫人們脫離貧困,而且也為退休和殘障人士等社會弱勢群體提供保障。美國社?;饘嵭鞋F(xiàn)收現(xiàn)付制度,也就是說,你繳納的費用被支付給已經(jīng)退休的人們,而當你退休時,彼時的年輕人也會為你買單。這意味著如果人們的預期壽命增長或退休人口激增,社?;鹁蜁媾R失衡的風險。在過去的85年里,社保管理機構每年都會通過質(zhì)性預測方法預測資金需求量,但收效甚微。然而,在大數(shù)據(jù)時代,算法的改進使得更精準的預測成為可能。我們通過測算發(fā)現(xiàn),社?;鸬氖罩胶廪D(zhuǎn)折點大約出現(xiàn)在2000年。盡管相關部門矢口否認并宣稱整個系統(tǒng)運作良好,但實際上社保失衡的問題正是從那時起不斷惡化,并為政府帶來了不少麻煩。由此可見,當前大多數(shù)政策中都存在諸多不可預期的變量,所以及時評估政策并采取措施還是非常必要的?;氐缴绫栴}上,我們的進一步預測顯示,當前社會基金大約存在80億美元的赤字。這次,政府管理部門就開始據(jù)此調(diào)整政策了。這就是運用大數(shù)據(jù)分析的意義。
三、終結定性與定量之爭
盡管隨著信息技術和統(tǒng)計方法的進步,大數(shù)據(jù)為我們處理之前不曾或者不能處理的數(shù)據(jù)提供了可能,但我們?nèi)匀恍枰庾R到,定性研究不僅離我們并不遙遠,而且比我們想象的更重要。定性與定量研究的對立存在于各個科研領域,而且這兩種研究往往是彼此交融的。實際上,不僅定性研究需要定量研究來幫助其驗證各種觀點,定量研究也需要定性研究為其提供數(shù)據(jù)量化的理論依據(jù)。得益于現(xiàn)代科技,文本、影像等大量研究資料既可以用于定性研究,也可以用于定量研究,這意味著二者的聯(lián)系變得更加緊密而非疏離。在未來的大數(shù)據(jù)時代,定性研究和定量研究唯有攜手共進,才能有所突破。如果我們將數(shù)據(jù)比作一輛汽車,那定量研究便是車輛的引擎,而定性研究則是汽車的方向盤??傊?,唯有兩種研究通力合作,才能研制出人類可控的計算機技術,讓人們在信息高速公路上縱橫馳騁。這就是我今天想展示給你們的內(nèi)容。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內(nèi)容。