大數(shù)據(jù)分析的光榮與陷阱
【摘要】本文從谷歌流感趨勢2009年前后表現(xiàn)差異談起,討論了大數(shù)據(jù)分析容易面臨的大數(shù)據(jù)自大、算法演化、看不見的動機導(dǎo)致數(shù)據(jù)生成機制變化等陷阱,以及對我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的借鑒。本文認(rèn)為,為健康發(fā)展大數(shù)據(jù)產(chǎn)業(yè),我國需要防范大數(shù)據(jù)自大風(fēng)險、推動大數(shù)據(jù)產(chǎn)業(yè)和小數(shù)據(jù)產(chǎn)業(yè)齊頭并進,并強化提高大數(shù)據(jù)透明度、審慎評估大數(shù)據(jù)質(zhì)量等方面的努力。
一、谷歌流感趨勢:未卜先知?
“谷歌流感趨勢”(Google Flu Trends,GFT)未卜先知的故事,常被看做大數(shù)據(jù)分析優(yōu)勢的明證。2008年11月谷歌公司啟動的GFT項目,目標(biāo)是預(yù)測美國疾控中心(CDC)報告的流感發(fā)病率。甫一登場,GFT就亮出十分驚艷的成績單。2009年,GFT團隊在《自然》發(fā)文報告,只需分析數(shù)十億搜索中45個與流感相關(guān)的關(guān)鍵詞,GFT就能比CDC提前兩周預(yù)報2007-2008季流感的發(fā)病率。
也就是說,人們不需要等CDC公布根據(jù)就診人數(shù)計算出的發(fā)病率,就可以提前兩周知道未來醫(yī)院因流感就診的人數(shù)了。有了這兩周,人們就可以有充足的時間提前預(yù)備,避免中招。多少人可以因為大數(shù)據(jù)避免不必要的痛苦、麻煩和經(jīng)濟損失啊。
此一時,彼一時。2014年, Lazer等學(xué)者在《科學(xué)》發(fā)文報告了GFT近年的表現(xiàn)。2009年,GFT沒有能預(yù)測到非季節(jié)性流感A-H1N1;從2011年8月到2013年8月的108周里,GFT有100周高估了CDC報告的流感發(fā)病率。高估有多高呢?在2011-2012季,GFT預(yù)測的發(fā)病率是CDC報告值的1.5倍多;而到了2012-2013季,GFT流感發(fā)病率已經(jīng)是CDC報告值的雙倍多了。這樣看來,GFT不就成了那個喊“狼來了”的熊孩子了么。那么不用大數(shù)據(jù)會如何?作者報告,只用兩周前CDC的歷史數(shù)據(jù)來預(yù)測發(fā)病率,其表現(xiàn)也要比GFT好很多。
2013年,谷歌調(diào)整了GFT的算法,并回應(yīng)稱出現(xiàn)偏差的罪魁禍?zhǔn)资敲襟w對GFT的大幅報道導(dǎo)致人們的搜索行為發(fā)生了變化。Lazer等學(xué)者窮追不舍。他們的估算表明,GFT預(yù)測的2013-2014季的流感發(fā)病率,仍然高達CDC報告值的1.3倍。并且,前面發(fā)現(xiàn)的系統(tǒng)性誤差仍然存在,也就是過去犯的錯誤如今仍然在犯。因為遺漏了某些重要因素,GFT還是病得不輕。
為什么傳說中充滿榮光的大數(shù)據(jù)分析會出現(xiàn)如此大的系統(tǒng)性誤差呢?從大數(shù)據(jù)的收集特征和估計方法的核心,我們可以探究一二。
二、新瓶裝舊酒:過度擬合
大數(shù)據(jù)時代的來臨,為數(shù)據(jù)收集帶來了深刻變革。海量數(shù)據(jù)、實時數(shù)據(jù)、豐富多樣的非結(jié)構(gòu)數(shù)據(jù),以前所未有的廣度進入了人們的生活。但是不變的是,在統(tǒng)計分析方法上,數(shù)據(jù)挖掘(Data mining)仍然是統(tǒng)計分析的主要技術(shù)。而數(shù)據(jù)挖掘中最引人注目的過度擬合(overfitting)問題,由于下文提到的各類陷阱的存在,遠(yuǎn)遠(yuǎn)沒有解決。
我們先用一個故事來解釋何為過度擬合。假設(shè)有一所叫做象牙塔的警官學(xué)校致力于培養(yǎng)抓小偷的警察。該校宣稱,在他們學(xué)校可以見到所有類型的普通人、也能見到所有類型的小偷;到他們學(xué)校來學(xué)習(xí)就能成為世界上最厲害的警察。但是這所學(xué)校有個古怪,就是從不教授犯罪心理學(xué)。
象牙塔的教學(xué)方式是這樣的:將人群隨機分為十組,每組都是既有普通人又有小偷。學(xué)員可以觀察到前九組所有人,也知道誰是普通人誰是小偷。學(xué)員要做的是,根據(jù)自己從前九組中了解到的小偷特征,從第十組中找出小偷。比如學(xué)員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒,那么在第十組觀察到有人在買尿布時也買啤酒,就作為一個嫌疑條件。完成這個過程之后,學(xué)校再將人群打散重新分成十組,如此循環(huán)往復(fù),之后學(xué)校進行測試。測試方式就是再次將人群隨機分為十組,看誰能最快最準(zhǔn)根據(jù)前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察,可以派到社會上抓小偷了。
一段時間后,問題來了:象牙塔最棒警察在象牙塔校內(nèi)總能迅速找到小偷,可一旦出了象牙塔, 該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現(xiàn),甚至比從來沒有來象牙塔學(xué)習(xí)的人還要差。
在這個故事里,象牙塔最棒警察就相當(dāng)于根據(jù)大數(shù)據(jù)的數(shù)據(jù)挖掘方法、機器學(xué)習(xí)之后挑選出來的最優(yōu)模型。小偷相當(dāng)于特定問題需要甄選出的對象,比如得流感的人、不干預(yù)就會自殺的人、賴賬的人。前九組的人就相當(dāng)于用于訓(xùn)練模型的訓(xùn)練數(shù)據(jù);第十組人則相當(dāng)于檢驗訓(xùn)練結(jié)果的檢驗數(shù)據(jù)。不教授犯罪心理學(xué)就意味著抓小偷并不需要理解小偷為什么會成為小偷,類似于在數(shù)據(jù)分析中只關(guān)心相關(guān)關(guān)系而不關(guān)注因果關(guān)系。訓(xùn)練最佳警察的過程,就類似于運用機器學(xué)習(xí)技術(shù), 采用訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,然后采用檢驗數(shù)據(jù)來選擇模型,并將預(yù)測最好的模型作為最佳模型,用于未來的各類應(yīng)用中 。
最后,警察在象牙塔內(nèi)能快速抓小偷而校外不能,就是過度擬合問題。由于在學(xué)校通過多次重復(fù)練習(xí),學(xué)員小偷的特征已經(jīng)爛熟于心,因此無論怎么隨機分,都能快速找到小偷并且不出錯;這就相當(dāng)于訓(xùn)練模型時,由于已經(jīng)知道要甄選人群的特征,模型能夠?qū)颖緝?nèi)觀測值作出很好的擬合。由于象牙塔學(xué)校判斷小偷的標(biāo)準(zhǔn)主要看外部特征而不去理解內(nèi)在原因,比如小偷常戴鴨舌帽,那么當(dāng)社會人群里的小偷特征與象牙塔人群有很大差別時,比如社會上的小偷更常戴禮帽,在象牙塔內(nèi)一抓一個準(zhǔn)的鴨舌帽標(biāo)準(zhǔn),到社會就變成一抓一個錯了。也就是說,在樣本內(nèi)預(yù)測很好的模型,到樣本外預(yù)測很差。 這,就是過度擬合的問題。
從過度擬合角度,可以幫助我們理解為什么GFT在2009年表現(xiàn)好而之后表現(xiàn)差。在2009年,GFT已經(jīng)可以觀察到2007-2008年間的全部CDC數(shù)據(jù),也就是說GFT可以清楚知道CDC報告的哪里發(fā)病率高而哪里發(fā)病率低。這樣,采用上述訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)尋找最佳模型的方法時標(biāo)準(zhǔn)就很清晰,就是不惜代價高度擬合已經(jīng)觀察到的發(fā)病率。 Lazer 等人發(fā)現(xiàn),GFT在預(yù)測2007-2008年流感流行率時,存在丟掉一些看似古怪的搜索詞,而用另外的5000萬搜索詞去擬合1152個數(shù)據(jù)點的情況。
2009年之后,該模型面對的數(shù)據(jù)就真正是未知的,這時如果后來的數(shù)據(jù)特征與2007-2008年的數(shù)據(jù)高度相似,那么GFT也該可以高度擬合CDC估計值。但現(xiàn)實是無情的,系統(tǒng)性誤差的存在,表明GFT在一些環(huán)節(jié)出了較大偏差而不得不面對過度擬合問題。
從上面的故事可以看到,產(chǎn)生過度擬合有三個關(guān)鍵環(huán)節(jié)。第一,象牙塔學(xué)校認(rèn)定本校知道所有普通人與所有小偷的特征,也就等于知道了社會人群特征。第二,象牙塔學(xué)校訓(xùn)練警察,不關(guān)心小偷的形成原因,而關(guān)注細(xì)致掌握已知小偷的特征。第三,象牙塔學(xué)校認(rèn)為,不論時間如何變化,本校永遠(yuǎn)能保證掌握的普通人和小偷的行為特征不會發(fā)生大規(guī)模變動、特別是不會因為本校的訓(xùn)練而發(fā)生改變。
在大數(shù)據(jù)這個新瓶里,如果不避開下面的三個陷阱,就仍然可能裝著數(shù)據(jù)挖掘帶來的過度擬合舊酒:大數(shù)據(jù)自大、算法演化、看不見的動機導(dǎo)致的數(shù)據(jù)生成機制變化。
三、大數(shù)據(jù)分析的挑戰(zhàn)
(一)陷阱一:“大數(shù)據(jù)自大”
Lazer等學(xué)者提醒大家關(guān)注 “大數(shù)據(jù)自大(big data hubris)”的傾向,即認(rèn)為自己擁有的數(shù)據(jù)是總體,因此在分析定位上,大數(shù)據(jù)將代替科學(xué)抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)(后文稱為“小數(shù)據(jù)”)、而不是作為小數(shù)據(jù)的補充。
如今,大數(shù)據(jù)確實使企業(yè)或者機構(gòu)獲取每一個客戶的信息、構(gòu)成客戶群的總體數(shù)據(jù)成為可能,那么說企業(yè)有這樣的數(shù)據(jù)就不需要關(guān)心抽樣會有問題嗎?
這里的關(guān)鍵是,企業(yè)或者機構(gòu)擁有的這個稱為總體的數(shù)據(jù),和研究問題關(guān)心的總體是否相同。《數(shù)據(jù)之巔》一書記載了下面這個例子:上世紀(jì)三十年代,美國的《文學(xué)文摘》有約240萬讀者。如果《文學(xué)文摘》要了解這個讀者群的性別結(jié)構(gòu)與年齡結(jié)構(gòu),那么只要財力人力允許,不抽樣、直接分析所有這240萬左右的數(shù)據(jù)是可行的。但是,如果要預(yù)測何人當(dāng)選1936年總統(tǒng),那么認(rèn)定“自己的讀者群”這個總體和“美國選民”這個總體根本特征完全相同,就會差之毫厘謬以千里了。事實上,《文學(xué)雜志》的訂戶數(shù)量雖多,卻集中在中上層,并不能代表全體選民。與此相應(yīng),蓋洛普根據(jù)選民的人口特點來確定各類人群在樣本中的份額,建立一個5000人的樣本。在預(yù)測下屆總統(tǒng)這個問題上,采用這個小數(shù)據(jù)比采用《文學(xué)文摘》的大數(shù)據(jù),更準(zhǔn)確地把握了民意。
在GFT案例中,“GFT采集的搜索信息”這個總體,和“某流感疫情涉及的人群”這個總體,恐怕不是一個總體。除非這兩個總體的生成機制相同,否則用此總體去估計彼總體難免出現(xiàn)偏差。
進一步說,由于某個大數(shù)據(jù)是否是總體跟研究問題密不可分,在實證分析中,往往需要人們對科學(xué)抽樣下能夠代表總體的小數(shù)據(jù)有充分認(rèn)識,才能判斷認(rèn)定單獨使用大數(shù)據(jù)進行研究會不會犯“大數(shù)據(jù)自大”的錯誤。
(二)陷阱二:算法演化
相比于“大數(shù)據(jù)自大”問題,算法演化問題(algorithm dynamics)就更為復(fù)雜、對大數(shù)據(jù)在實證運用中產(chǎn)生的影響也更為深遠(yuǎn)。我們還是借一個假想的故事來理解這一點。假定一個研究團隊希望通過和尚在朋友圈發(fā)布的信息來判斷他們對風(fēng)險的態(tài)度,其中和尚遇到老虎的次數(shù)是甄別他們是否喜歡冒險的重要指標(biāo)。觀察一段時間后該團隊發(fā)現(xiàn),小和尚智空原來遇到老虎的頻率大概是一個月一次,但是從半年前開始,智空在朋友圈提及自己遇到老虎的次數(shù)大幅增加、甚至每天都會遇到很多只。由于大數(shù)據(jù)分析不關(guān)心因果,研究團隊也就不花心思去追究智空為什么忽然遇到那么多老虎,而根據(jù)歷史數(shù)據(jù)認(rèn)定小智空比過去更愿意冒險了。但是研究團隊不知道的情況是:過去智空與老和尚同住,半年前智空奉命下山化齋;臨行前老和尚交代智空,山下的女人是老虎、遇到了快躲開。在這個故事里,由于老和尚的叮囑,智空眼里老虎的標(biāo)準(zhǔn)變了。換句話說,同樣是老虎數(shù)據(jù),半年前老虎觀測數(shù)量的生成機制,和半年后該數(shù)據(jù)的生成機制是不同的。要命的是,研究團隊對此并不知情。
現(xiàn)實中大數(shù)據(jù)的采集也會遇到類似問題,因為大數(shù)據(jù)往往是公司或者企業(yè)進行主要經(jīng)營活動之后被動出現(xiàn)的產(chǎn)物。以谷歌公司為例,其商業(yè)模式的主要目標(biāo)是更快速地為使用者提供準(zhǔn)確信息。為了實現(xiàn)這一目標(biāo),數(shù)據(jù)科學(xué)家與工程師不斷更新谷歌搜索的算法、讓使用者可以通過后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要,但是在數(shù)據(jù)生成機制方面,卻會出現(xiàn)使用者搜索的關(guān)鍵詞并非出于使用者本意的現(xiàn)象。
這就產(chǎn)生了兩個問題:第一,由于算法規(guī)則在不斷變化而研究人員對此不知情,今天的數(shù)據(jù)和明天的數(shù)據(jù)容易不具備可比性,就像上例中半年前的老虎數(shù)據(jù)和半年后的老虎數(shù)據(jù)不可比一樣。第二,數(shù)據(jù)收集過程的性質(zhì)發(fā)生了變化。大數(shù)據(jù)不再只是被動記錄使用者的決策,而是通過算法演化,積極參與到使用者的行為決策中。
在GFT案例中,2009年以后,算法演化導(dǎo)致搜索數(shù)據(jù)前后不可比,特別是“搜索者鍵入的關(guān)鍵詞完全都是自發(fā)決定”這一假定在后期不再成立。這樣,用2009年建立的模型去預(yù)測未來,就無法避免因過度擬合問題而表現(xiàn)較差了。
(三)、陷阱三:看不見的動機
算法演化問題中,數(shù)據(jù)生成者的行為變化是無意識的,他們只是被頁面引導(dǎo),點出一個個鏈接。如果在數(shù)據(jù)分析中不關(guān)心因果關(guān)系,那么也就無法處理人們有意識的行為變化影響數(shù)據(jù)根本特征的問題。這一點,對于數(shù)據(jù)使用者和對數(shù)據(jù)收集機構(gòu),都一樣不可忽略。
除掉人們的行為自發(fā)產(chǎn)生系統(tǒng)不知道的變化之外,大數(shù)據(jù)的評估標(biāo)準(zhǔn)對人們行為的影響尤為值得關(guān)注。再以智空為例。假定上文中的小和尚智空發(fā)現(xiàn)自己的西瓜信用分遠(yuǎn)遠(yuǎn)低于自己好友智能的西瓜信用分。智空很不服氣,經(jīng)過仔細(xì)觀察,他認(rèn)為朋友圈言論可能是形成差異的主因。于是他細(xì)細(xì)研究了智能的朋友圈。他發(fā)現(xiàn),智能從不在朋友圈提及遇到老虎的事,而是常常宣傳不殺生、保護環(huán)境、貼心靈雞湯,并定期分享自己化齋時遇到慷慨施主的事。雖然在現(xiàn)實中,他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開,從此朋友圈言論風(fēng)格大變,而不久后他也滿意地看到自己的西瓜信用分大幅提高了。
如今,大數(shù)據(jù)常常倚重的一個優(yōu)勢,是社交媒體的數(shù)據(jù)大大豐富了各界對于個體的認(rèn)知。這一看法常常建立在一個隱含假定之上,就是人們在社交媒體分享的信息都是真實的、自發(fā)的、不受評級機構(gòu)和各類評估機構(gòu)標(biāo)準(zhǔn)影響的。但是,在互聯(lián)網(wǎng)時代,人們通過互聯(lián)網(wǎng)學(xué)習(xí)的能力大大提高。如果人們通過學(xué)習(xí)評級機構(gòu)的標(biāo)準(zhǔn)而相應(yīng)改變社交媒體的信息,就意味著大數(shù)據(jù)分析的評估標(biāo)準(zhǔn)已經(jīng)內(nèi)生于人們生產(chǎn)的數(shù)據(jù)中,這時,不通過仔細(xì)為人們的行為建模,是難以準(zhǔn)確抓住的數(shù)據(jù)生成機制這類的質(zhì)變的。
從數(shù)據(jù)生成機構(gòu)來看,他們對待數(shù)據(jù)的態(tài)度也可能發(fā)生微妙的變化。例如,過去社交媒體企業(yè)記錄保存客戶信息的動機僅僅是本公司發(fā)展業(yè)務(wù)需要,算法演化也是單純?yōu)榱烁玫胤?wù)消費者。但隨著大數(shù)據(jù)時代的推進,“數(shù)據(jù)為王”的特征越來越明顯,公司逐漸意識到,自己擁有的數(shù)據(jù)逐漸成為重要的資產(chǎn)。除了可以在一定程度上給使用者植入廣告增加收入之外,還可以在社會上產(chǎn)生更為重要的影響力。這時就不能排除數(shù)據(jù)生成機構(gòu)存在為了自身的利益,在一定程度上操縱數(shù)據(jù)的生成與報告的可能性。比如,在Facebook等社交媒體上的民意調(diào)查,就有可能對一個國家的政治走向產(chǎn)生影響。而民意調(diào)查語言的表述、調(diào)查的方式可以影響調(diào)查結(jié)果,企業(yè)在一定程度上就可以根據(jù)自身利益來操縱民意了。
簡而言之,天真地認(rèn)為數(shù)據(jù)使用者和數(shù)據(jù)生成機構(gòu)都是無意識生產(chǎn)大數(shù)據(jù)、忽略了人們行為背后趨利避害的動機的大數(shù)據(jù)統(tǒng)計分析,可能對于數(shù)據(jù)特征的快速變化迷惑不解,即便看到模型預(yù)測表現(xiàn)差,也難以找到行之有效的克服方法。
四、前車之鑒
目前,我國高度重視大數(shù)據(jù)發(fā)展。2015年8月31日,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作?!毒V要》認(rèn)為,大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力、重塑國家競爭優(yōu)勢的新機遇,和提升政府治理能力的新途徑。《綱要》指出,2018年底前,要建成國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺,率先在信用、交通、醫(yī)療等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會開放。與此相應(yīng),近年來多地成立了大數(shù)據(jù)管理局、業(yè)界學(xué)界對于大數(shù)據(jù)的分析利用也予以熱烈回應(yīng)。因此,了解大數(shù)據(jù)分析的優(yōu)勢與陷阱,對我國的經(jīng)濟發(fā)展和實證研究具有極其重要的意義;而GFT項目折射出的大數(shù)據(jù)使用中可能存在的機會與問題,都值得關(guān)注。
(一) 防范“大數(shù)據(jù)自大”帶來的風(fēng)險
GFT案例表明,如果認(rèn)為大數(shù)據(jù)可以代替小數(shù)據(jù),那么過度擬合問題可以帶來巨大的估計誤差。這一點在“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的今天尤其需要關(guān)注。這是因為大數(shù)據(jù)作為目前“創(chuàng)新”最閃亮的新元素被高度推崇的,而我國經(jīng)濟處于轉(zhuǎn)型時期的特征,使企業(yè)或者機構(gòu)面對的微觀數(shù)據(jù)不斷發(fā)生動態(tài)變化。如果在數(shù)據(jù)挖掘中忽略這些變化,往往要面臨過度擬合帶來的損失。
例如,我國P2P網(wǎng)貸行業(yè)采用的數(shù)據(jù)體量雖然大多達不到大數(shù)據(jù)要求的海量數(shù)據(jù),但是不少企業(yè)熱衷采用爬蟲等技術(shù)從社交媒體挖掘信息用于甄別客戶。這些平臺健康狀況,就可能與過度擬合的嚴(yán)重程度密不可分。 根據(jù)中國P2P網(wǎng)貸行業(yè)2014年度運營簡報和2015年上半年的運營簡報,在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問題平臺數(shù),并與2015年6月新增問題平臺數(shù)作比較。[1]
新增問題平臺的大幅增加原因雖然有多方面,但是從數(shù)據(jù)分析的角度看,由于還沒有合法的數(shù)據(jù)共享機制,P2P平臺在甄別客戶質(zhì)量時,往往只依靠自身渠道和從社交媒體等挖掘的數(shù)據(jù),并采用數(shù)據(jù)挖掘方法建立相應(yīng)建立模型。在數(shù)據(jù)分析中,不少P2P平臺往往疏于查考自身樣本的代表性、也忽略宏觀經(jīng)濟數(shù)據(jù)和其他微觀數(shù)據(jù)所包含的信息。由于互聯(lián)網(wǎng)金融公司出現(xiàn)時間短、又主要成長于經(jīng)濟繁榮期,如果單單依賴有限的數(shù)據(jù)渠道,數(shù)據(jù)挖掘與機器學(xué)習(xí)過程對新常態(tài)下個體行為沒有足夠的認(rèn)識,在經(jīng)濟下行時仍然根據(jù)歷史數(shù)據(jù)而低估逾期率,導(dǎo)致高估平臺健康狀況,最終不得不面對問題平臺不斷增加的局面。
(二) 大數(shù)據(jù)和小數(shù)據(jù)齊頭并進大勢所趨
大數(shù)據(jù)和小數(shù)據(jù)各有優(yōu)劣。簡而言之,小數(shù)據(jù)通常不會假定該數(shù)據(jù)就是總體,因此收集數(shù)據(jù)前往往需要確定收集數(shù)據(jù)的目標(biāo)、根據(jù)該目標(biāo)設(shè)計的問卷或者收集方法、確定抽樣框。在數(shù)據(jù)采集后,不同學(xué)者往往可以通過將新收集數(shù)據(jù)與不同數(shù)據(jù)的交叉驗證,來評估數(shù)據(jù)的可信度。小數(shù)據(jù)在收集上有變量定義清晰、數(shù)據(jù)生成機制基本可控、檢驗評估成本相對較低等優(yōu)點,但是缺點是數(shù)據(jù)收集成本高,時間間隔長、顆粒度較粗。
大數(shù)據(jù)的優(yōu)勢就包括數(shù)據(jù)體量大、收集時間短、數(shù)據(jù)類型豐富,顆粒度很細(xì)。但是,由于大數(shù)據(jù)往往是一些企業(yè)和機構(gòu)經(jīng)營活動的附帶產(chǎn)品,因此并不是通過精心論證的測度工具生成。另外,由于大數(shù)據(jù)的體量很大,交叉驗證數(shù)據(jù)的可信度、不同學(xué)者采用相同數(shù)據(jù)獨立研究以檢驗數(shù)據(jù)的前后一致性等工作難度較大。這些特點意味著大數(shù)據(jù)本身未必有科學(xué)研究要求的那樣準(zhǔn)確、可靠,在數(shù)據(jù)分析中就需要對大數(shù)據(jù)適合研究的問題有較清晰的認(rèn)識。
在與小數(shù)據(jù)互為補充推動研究與認(rèn)知方面,大數(shù)據(jù)大有可為。將大數(shù)據(jù)與小數(shù)據(jù)相結(jié)合,可以大大提高數(shù)據(jù)的顆粒度和預(yù)測精度。比如對CDC流感發(fā)病率的預(yù)測研究發(fā)現(xiàn),將GFT采用的大數(shù)據(jù)和CDC的歷史數(shù)據(jù)相結(jié)合的模型,其預(yù)測能力比單獨運用大數(shù)據(jù)或者小數(shù)據(jù)要好很多。
大數(shù)據(jù)往往可以實時生成,對于觀察特定社區(qū)的動態(tài)具有小數(shù)據(jù)無可替代的優(yōu)勢。比如,美國在“九一一”之后,出于快速準(zhǔn)確估計在某個特定小社區(qū)活動的人口的需要而啟動了“工作單位和家庭住址縱向動態(tài)(LEHD)”項目,該項目將人口普查數(shù)據(jù)、全國公司數(shù)據(jù)、個人申請失業(yè)保險、補貼、納稅等記錄聯(lián)通,可以對社區(qū)在短時間內(nèi)的“新陳代謝”作出較為全面的刻畫。
這類的數(shù)據(jù)結(jié)合研究,對于了解我國社會經(jīng)濟狀況的動態(tài)變化會十分重要。一個可能的應(yīng)用是,將城市人口、工作狀態(tài)、性別、年齡、收入等小數(shù)據(jù)采集的信息,和實時產(chǎn)生的交通狀況相結(jié)合,來預(yù)測人們的出行特征,來解決城市交通擁堵、治理霧霾等問題。另一個可能的應(yīng)用是,推動人民銀行征信中心個人征信系統(tǒng)數(shù)據(jù)和民間征信系統(tǒng)大數(shù)據(jù)的結(jié)合,建立高質(zhì)量的中國個人征信體系。
另外,我國經(jīng)濟處于轉(zhuǎn)型時期,有不少政策亟需快速評估政策果效。以小數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)數(shù)據(jù)量豐富的優(yōu)勢,可以通過互聯(lián)網(wǎng)做一些隨機實驗,來評估一些政策的效果,也是可能的發(fā)展方向。
在過去的十多年中,我國在通過非官方渠道采集小數(shù)據(jù)、特別是微觀實證數(shù)據(jù)方面取得了長足進展。在多方努力下,更多經(jīng)過嚴(yán)格科學(xué)論證而產(chǎn)生的數(shù)據(jù)可被公眾免費獲得并用于研究。例如,北京大學(xué)的“中國健康與養(yǎng)老追蹤調(diào)查”、“中國家庭追蹤調(diào)查”,都由經(jīng)濟、教育、健康、社會學(xué)等多領(lǐng)域的專家協(xié)同參與問卷的設(shè)計和數(shù)據(jù)采集的質(zhì)控。在這些努力下,小數(shù)據(jù)的生成機制更為透明,交叉驗證調(diào)查數(shù)據(jù)的可信度等實證研究的必要步驟也更為可行。
但是,目前在小數(shù)據(jù)的收集和使用、政府和有關(guān)機構(gòu)的小數(shù)據(jù)開放運用方面,我國還有很大推進空間。只有在對涉及我國基本國情的小數(shù)據(jù)進行充分學(xué)習(xí)研究之后,我國學(xué)界和業(yè)界才能對經(jīng)濟政治社會文化等領(lǐng)域的基本狀況有較清晰的把握。而這類的把握,是評估大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)可研究問題的關(guān)鍵,對推進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展有舉足輕重的作用。
因此在政策導(dǎo)向上,為要實現(xiàn)大數(shù)據(jù)、小數(shù)據(jù)相得益彰推動經(jīng)濟發(fā)展的目標(biāo),在促進發(fā)展大數(shù)據(jù)的同時也要大力發(fā)展小數(shù)據(jù)相關(guān)產(chǎn)業(yè),推動小數(shù)據(jù)相關(guān)研究與合作,使大數(shù)據(jù)與小數(shù)據(jù)齊頭并進、互為補充。
(三)提高大數(shù)據(jù)使用的透明度,加強對大數(shù)據(jù)質(zhì)量的評估
大數(shù)據(jù)面臨的透明度問題遠(yuǎn)比小數(shù)據(jù)嚴(yán)重。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法,但是谷歌并沒有公開相應(yīng)數(shù)據(jù)、也沒有解釋這類數(shù)據(jù)是如何搜集的。我國大數(shù)據(jù)相關(guān)企業(yè)的數(shù)據(jù),也鮮有學(xué)者可以獲得并用于做研究的例子。
與透明度相關(guān)的就是大數(shù)據(jù)分析結(jié)果的可復(fù)制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù),因此就難以復(fù)制、評估采用該數(shù)據(jù)分析結(jié)果的可靠性。因此利用大數(shù)據(jù)的研究難以形成合力,只能處于案例、個例的狀態(tài)。
另外還要注意到,如果數(shù)據(jù)生成機制不清晰,研究結(jié)論難以復(fù)制,而算法演化也表明,最終數(shù)據(jù)往往成為使用者和設(shè)計者共同作用的結(jié)果。這種數(shù)據(jù)生成的“黑箱”特征,容易成為企業(yè)或者機構(gòu)操縱數(shù)據(jù)生成過程和研究報告結(jié)果的溫床。唯有通過推動大數(shù)據(jù)的透明化、公開化,我們才能在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展之初,建立健康的數(shù)據(jù)文化。
因此,在大數(shù)據(jù)時代,為了更好利用大數(shù)據(jù),需要采取相關(guān)措施,增加在大數(shù)據(jù)生成過程的透明度方面的努力。例如,采取措施推進數(shù)據(jù)生成企業(yè)在妥善處理隱私信息后,定期公布大數(shù)據(jù)隨機抽樣數(shù)據(jù)、要求數(shù)據(jù)生成企業(yè)及時公布數(shù)據(jù)算法的變更,鼓勵采用大數(shù)據(jù)的研究實現(xiàn)可復(fù)制性、便于交叉驗證等。
五、結(jié)語
目前有些流行觀點認(rèn)為,在大數(shù)據(jù)時代,技術(shù)容許人們擁有了總體因此抽樣不再重要、另外由于數(shù)據(jù)挖掘術(shù)的進展,只需關(guān)心相關(guān)關(guān)系而不必再關(guān)心因果關(guān)系。而GFT的實例表明,即便谷歌公司用于GFT計算的是數(shù)十億的觀測值,也不能認(rèn)為谷歌公司擁有了流感人群的總體。誤認(rèn)為數(shù)據(jù)體量大就擁有了總體,就無法謙卑結(jié)合其他渠道的小數(shù)據(jù),得到更為穩(wěn)健的分析結(jié)論。而GFT估計的偏誤原因,從來都離不開人們的主動的行為-- 無論是谷歌公司自己認(rèn)為的GFT的流行導(dǎo)致更多人使用該搜索、還是Lazer等人認(rèn)為的算法變化、丟棄異常值。因此,不明白數(shù)據(jù)生成機理變化的原因而只看相關(guān)關(guān)系的后果,于谷歌是GFT的計算偏誤丟了臉,而對熱情地投身于采用大數(shù)據(jù)到創(chuàng)新、創(chuàng)業(yè)中的中國民眾和相關(guān)機構(gòu)來說,則可能是不得不面對事先沒有預(yù)備的重大經(jīng)濟損失。
[1] 《2015年上半年P(guān)2P網(wǎng)貸簡報:新上線平臺數(shù)接近900家》http://p2p.hexun.com/2015-07-01/177192976.html
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。