引言:世上本沒(méi)有大數(shù)據(jù)。數(shù)據(jù)越來(lái)越多了,也就有了大數(shù)據(jù)。
█ 1980-2000:早期探索階段
1980年,美國(guó)科技記者阿爾文·托夫勒(Alvin Toffler)出版了自己的著作——《第三次浪潮(The third wave)》。
在書(shū)中,阿爾文·托夫勒對(duì)人類(lèi)的文明發(fā)展史進(jìn)行了大膽的斷代。他認(rèn)為,人類(lèi)歷史上一共經(jīng)歷了兩次文明浪潮的洗禮:第一次是耗時(shí)數(shù)千年的農(nóng)業(yè)文明革命,第二次是18世紀(jì)60年代開(kāi)始的工業(yè)文明革命。
他進(jìn)而提出,隨著信息技術(shù)的發(fā)展,人類(lèi)將要迎來(lái)第三次浪潮,也就是信息化革命。在這次浪潮中,“工業(yè)主義滅亡,新文明崛起”。
阿爾文·托夫勒的觀點(diǎn),在當(dāng)時(shí)引起了極大的震撼,影響非常深遠(yuǎn)。這本書(shū)出版后,被翻譯成三十多種文字,發(fā)行量超過(guò)一千萬(wàn)冊(cè),是史上發(fā)行量最大的未來(lái)學(xué)書(shū)籍。他本人,也被世人稱(chēng)為現(xiàn)代最有影響力的“未來(lái)學(xué)家”之一。
那么,阿爾文·托夫勒與《第三次浪潮》,和本文主題——大數(shù)據(jù),有什么關(guān)系呢?
關(guān)系很大。因?yàn)?,大?shù)據(jù)這個(gè)概念首次出現(xiàn),就是在《第三次浪潮》中。
阿爾文·托夫勒在書(shū)中提出了很多大膽的預(yù)言。而大數(shù)據(jù),就是其中之一(其它還包括跨國(guó)公司、無(wú)紙化辦公、產(chǎn)消合一等)。他非??隙ǖ刂赋觯皵?shù)據(jù)就是財(cái)富”。而大數(shù)據(jù)(Big Data),將是“第三次浪潮的華彩樂(lè)章”。
阿爾文·托夫勒對(duì)數(shù)據(jù)價(jià)值的認(rèn)知,確實(shí)是非常超前的。要知道,那時(shí)候才1980年,PC剛剛出現(xiàn),硬盤(pán)仍處于MB級(jí),人類(lèi)的數(shù)據(jù)規(guī)模并不算大。風(fēng)起云涌的信息技術(shù)浪潮正在起步,而阿爾文·托夫勒卻已經(jīng)看到了未來(lái)。
進(jìn)入90年代后,隨著互聯(lián)網(wǎng)的誕生和爆發(fā),信息革命進(jìn)入了全新的階段。越來(lái)越多的人開(kāi)始購(gòu)買(mǎi)計(jì)算機(jī),訪問(wèn)互聯(lián)網(wǎng)。也有越來(lái)越多的科研機(jī)構(gòu)和企業(yè)開(kāi)始上線IT系統(tǒng),推動(dòng)自身的信息化轉(zhuǎn)型。
隨著信息化的逐漸深入,人們開(kāi)始發(fā)現(xiàn),研究、生產(chǎn)和業(yè)務(wù)環(huán)節(jié)產(chǎn)生的數(shù)據(jù)越來(lái)越多,逐漸對(duì)IT系統(tǒng)形成了壓力。
90年代中期,諾貝爾獎(jiǎng)獲得者吉姆·格雷(Jim Gray)指出:大數(shù)據(jù)的挑戰(zhàn)將會(huì)首先來(lái)自科學(xué),而非商業(yè)。
1997年10月,在IEEE會(huì)議上,美國(guó)宇航局(NASA)研究員邁克爾·考克斯(Michael Cox)和戴維·埃爾斯沃斯(David Ellsworth)發(fā)表論文提到:在模擬飛機(jī)周?chē)臍饬鞯倪^(guò)程中,產(chǎn)生了極為龐大的數(shù)據(jù)集,給主存儲(chǔ)器、本地磁盤(pán)和遠(yuǎn)程磁盤(pán)帶來(lái)了巨大負(fù)擔(dān)。
他們將這個(gè)問(wèn)題,稱(chēng)之為“大數(shù)據(jù)問(wèn)題”。
無(wú)獨(dú)有偶,1998年,美國(guó)高性能計(jì)算公司SGI的首席科學(xué)家約翰·馬西(John Mashey),在一個(gè)國(guó)際會(huì)議上發(fā)表了題為“大數(shù)據(jù)與下一波計(jì)算浪潮(Big Data and the Next Wave of Computing)”的演講,也提到了類(lèi)似問(wèn)題。
約翰·馬西指出:隨著數(shù)據(jù)量的快速增長(zhǎng),必將出現(xiàn)數(shù)據(jù)難理解、難獲取、難處理和難組織等四個(gè)難題。他同樣采用了“大數(shù)據(jù)”這一概念,來(lái)描述這些挑戰(zhàn),引起了業(yè)界的廣泛關(guān)注。
數(shù)據(jù)的規(guī)模在不斷膨脹,人類(lèi)的存儲(chǔ)技術(shù)和計(jì)算技術(shù)已然跟不上數(shù)據(jù)增長(zhǎng)的步伐。業(yè)界意識(shí)到,數(shù)據(jù)的價(jià)值是無(wú)法估量的,而我們必須擁有更強(qiáng)大的技術(shù),去挖掘數(shù)據(jù)中的這些價(jià)值。
█?2000-2012:全面爆發(fā)階段
到了21世紀(jì),圍繞大數(shù)據(jù)的理論探討仍在繼續(xù)。
2001年,麥塔集團(tuán)(META Group,后被Gartner收購(gòu))的分析師道格·蘭尼(Doug Laney)將大數(shù)據(jù)定義為三個(gè)以“V”開(kāi)頭的單詞,即:Volume(體量大)、Velocity(速度快)和Variety(種類(lèi)多)。
“3V”理論后來(lái)被廣泛接受,并成為描述大數(shù)據(jù)特征的標(biāo)準(zhǔn)。再后來(lái),在“3V”的基礎(chǔ)上,業(yè)界又演變出了“4V”、“5V”,甚至“7V”,包括:Veracity(真實(shí)性)、Value(價(jià)值密度)、Variability(變異性)、Visualization(可視性)等。
2002年,在經(jīng)歷了“911”襲擊之后,美國(guó)政府曾計(jì)劃整合現(xiàn)有政府的數(shù)據(jù)集,組建一個(gè)用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來(lái)識(shí)別可疑人的大數(shù)據(jù)庫(kù)。
雖然后來(lái)美國(guó)政府停止了這一項(xiàng)目(涉嫌侵犯公民隱私),但這算是人類(lèi)大數(shù)據(jù)系統(tǒng)建設(shè)的一次早期嘗試。
21世紀(jì)初期,互聯(lián)網(wǎng)已經(jīng)形成非常龐大的規(guī)模。社交網(wǎng)絡(luò)的崛起、電子商務(wù)的普及、社會(huì)政府和企業(yè)的信息化升級(jí)……各式各樣的互聯(lián)網(wǎng)行為,產(chǎn)生了更多的數(shù)據(jù),這使得海量數(shù)據(jù)的存儲(chǔ)和管理變得更具挑戰(zhàn)。
2003年至2006年,搜索引擎公司谷歌(Google)接連發(fā)布了三篇重量級(jí)論文,推出了GFS、MapReduce、BigTable,開(kāi)創(chuàng)了大數(shù)據(jù)時(shí)代的新紀(jì)元。
2006年,雅虎工程師道卡廷(Doug Cutting)根據(jù)Google的論文,開(kāi)發(fā)了后來(lái)大名鼎鼎的大數(shù)據(jù)框架系統(tǒng)——Hadoop。
大數(shù)據(jù)的技術(shù)根基,算是初步完成了。這為后來(lái)大數(shù)據(jù)技術(shù)和應(yīng)用的騰飛,創(chuàng)造了必要條件。
再后來(lái),大數(shù)據(jù)終于進(jìn)入了發(fā)展的快車(chē)道。越來(lái)越多的政府和企業(yè),開(kāi)始加大對(duì)大數(shù)據(jù)的研究和投入,也初步建立起一些大數(shù)據(jù)系統(tǒng)。
2009年1月,印度政府宣稱(chēng),將建立印度唯一的身份識(shí)別管理局,對(duì)12億人的指紋、照片和虹膜進(jìn)行掃描,并為每人分配數(shù)字ID號(hào)碼,將數(shù)據(jù)匯集到世界最大的生物識(shí)別數(shù)據(jù)庫(kù)中。
2009年5月,美國(guó)奧巴馬政府正式推出了聯(lián)邦數(shù)據(jù)和國(guó)家資源庫(kù)網(wǎng)站(Data.gov)。這個(gè)網(wǎng)站是美國(guó)“開(kāi)放政府”承諾的關(guān)鍵部分。它按照原始數(shù)據(jù)、地理數(shù)據(jù)和數(shù)據(jù)工具三個(gè)門(mén)類(lèi),開(kāi)放了數(shù)十萬(wàn)項(xiàng)數(shù)據(jù),涵蓋了農(nóng)業(yè)、氣象、金融、就業(yè)等大約50個(gè)門(mén)類(lèi)(截止2012年)。
后來(lái),美國(guó)政府還和印度政府合作,搞了個(gè)開(kāi)源政府平臺(tái),把Data.gov給開(kāi)源了。
在大數(shù)據(jù)系統(tǒng)建設(shè)上,聯(lián)合國(guó)也有動(dòng)作。
同樣是2009年,為了應(yīng)對(duì)全球金融危機(jī),時(shí)任聯(lián)合國(guó)秘書(shū)長(zhǎng)潘基文提出創(chuàng)建警報(bào)系統(tǒng),分析“實(shí)時(shí)數(shù)據(jù)帶給貧窮國(guó)家經(jīng)濟(jì)危機(jī)的影響” 。聯(lián)合國(guó)還成立了項(xiàng)目,研究了如何利用手機(jī)和社交網(wǎng)站的數(shù)據(jù)源來(lái)分析預(yù)測(cè)市場(chǎng)價(jià)格以及傳染病。
在商業(yè)領(lǐng)域,包括沃爾瑪?shù)却蠊荆查_(kāi)始研究建立大數(shù)據(jù)系統(tǒng),幫助商業(yè)營(yíng)銷(xiāo)和推廣。
同一時(shí)期,學(xué)術(shù)界對(duì)大數(shù)據(jù)的研究又進(jìn)入了新的高度。
2008年,計(jì)算社區(qū)聯(lián)盟(Computing Community Consortium)發(fā)表白皮書(shū)《大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革命性突破》,詳盡闡述了大數(shù)據(jù)對(duì)社會(huì)治理的推動(dòng)作用,及其潛在的商業(yè)價(jià)值。圍繞大數(shù)據(jù)的討論,開(kāi)始全面升溫。
2010年,肯尼斯·庫(kù)克耶(Kenneth Cukier)在《經(jīng)濟(jì)學(xué)人》上發(fā)表了長(zhǎng)達(dá)14頁(yè)的大數(shù)據(jù)專(zhuān)題報(bào)告《數(shù)據(jù), 無(wú)所不在的數(shù)據(jù)(Data, data everywhere)》,對(duì)大數(shù)據(jù)時(shí)代趨勢(shì)提出了深刻洞見(jiàn)。
他表示:“世界上有著無(wú)法想象的巨量數(shù)字信息,并以極快的速度增長(zhǎng)。從經(jīng)濟(jì)界到科學(xué)界,從政府部門(mén)到藝術(shù)領(lǐng)域,很多方面都已經(jīng)感受到了這種巨量信息的影響?!?/p>
2011年5月,全球知名咨詢(xún)公司麥肯錫發(fā)布了一份報(bào)告——《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域(Big data: The next frontier for innovation, competition and productivity)》。
報(bào)告指出:“大數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!?/p>
2012年,維克托·邁爾·舍恩伯格(Viktor Mayer-Sch?nberger)及肯尼斯·庫(kù)克耶(前面提到的那位)合著的《大數(shù)據(jù)時(shí)代》一書(shū)出版,將大數(shù)據(jù)這個(gè)概念推向了高潮。
《大數(shù)據(jù)時(shí)代》被認(rèn)為是全球大數(shù)據(jù)系統(tǒng)研究的先河之作,在社會(huì)上形成了非常大的影響力。這本書(shū)是國(guó)內(nèi)很多人了解大數(shù)據(jù)的第一本讀物。
作者在書(shū)中明確指出:“大數(shù)據(jù)帶來(lái)的信息風(fēng)暴正在變革人類(lèi)的生活、工作和思維,并將引領(lǐng)整個(gè)時(shí)代的思維變革、商業(yè)變革和管理變革。”
同樣是2012年,世界經(jīng)濟(jì)論壇指出:“數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣和黃金一樣”。這無(wú)疑將大數(shù)據(jù)的價(jià)值推到了前所未有的高度層面上。
從那時(shí)起,大數(shù)據(jù)逐漸成為家喻戶(hù)曉的概念,并在各行各業(yè)快速普及。
█ 2012-現(xiàn)在:升級(jí)和轉(zhuǎn)折階段
最近的十幾年,大數(shù)據(jù)技術(shù)的聲浪似乎越來(lái)越小。這并不是因?yàn)榇髷?shù)據(jù)不再重要,而是因?yàn)檫@項(xiàng)技術(shù)已經(jīng)走出了當(dāng)年的炒作和喧囂,逐漸進(jìn)入了平穩(wěn)發(fā)展期。
在政府治理、科學(xué)研究以及商業(yè)經(jīng)營(yíng)領(lǐng)域,大數(shù)據(jù)技術(shù)“潤(rùn)物細(xì)無(wú)聲”,默默發(fā)揮著重要的作用。它不僅改變了我們處理和分析信息的方式,也為決策分析提供了重要的參考依據(jù)。
大數(shù)據(jù)相關(guān)的技術(shù),在這一階段發(fā)生了一些變化。
例如,UC伯克利AMP實(shí)驗(yàn)室開(kāi)發(fā)的Spark,支持內(nèi)存計(jì)算,性能遠(yuǎn)超MapReduce,逐漸成為行業(yè)新寵。
再例如,HBase、Cassandra等NoSQL(非關(guān)系型)數(shù)據(jù)庫(kù)系統(tǒng)蓬勃發(fā)展,支持大規(guī)模數(shù)據(jù)存儲(chǔ)和訪問(wèn)。NewSQL數(shù)據(jù)庫(kù)的出現(xiàn),結(jié)合了SQL(傳統(tǒng)關(guān)系型)和NoSQL的優(yōu)勢(shì),適用于需要處理大規(guī)模數(shù)據(jù)和高并發(fā)訪問(wèn)的場(chǎng)景,也受到了業(yè)界的追捧。
數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、湖倉(cāng)一體的概念不斷演進(jìn),圍繞數(shù)據(jù)生產(chǎn)、數(shù)據(jù)聚合、數(shù)據(jù)分析和數(shù)據(jù)消費(fèi)的整套大數(shù)據(jù)技術(shù)體系,變得越來(lái)越強(qiáng)大、完善。
更值得一提的是,AI人工智能的崛起,讓數(shù)據(jù)的價(jià)值再次爆發(fā)。
大數(shù)據(jù)為人工智能提供了豐富的數(shù)據(jù)資源,而人工智能則通過(guò)先進(jìn)的算法和技術(shù)從大數(shù)據(jù)中提取價(jià)值。作為AI三要素之一,數(shù)據(jù)(集)的質(zhì)量,直接影響到AIGC大模型的能力表現(xiàn)。整個(gè)社會(huì)對(duì)數(shù)據(jù)的重視程度,進(jìn)一步提升。
在應(yīng)用大數(shù)據(jù)的過(guò)程中,人們也在想辦法解決大數(shù)據(jù)所帶來(lái)的挑戰(zhàn)。
其中最主要的挑戰(zhàn),當(dāng)然是隱私問(wèn)題。
2014年5月,美國(guó)白宮發(fā)布了研究報(bào)告《大數(shù)據(jù):抓住機(jī)遇、守護(hù)價(jià)值》。報(bào)告鼓勵(lì)使用數(shù)據(jù)以推動(dòng)社會(huì)進(jìn)步,但也提出:需要相應(yīng)的框架、結(jié)構(gòu)與研究,來(lái)保護(hù)個(gè)人隱私,確保公平、防止歧視。
2018年5月25日,歐盟出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,簡(jiǎn)稱(chēng)GDPR),是全球數(shù)據(jù)隱私保護(hù)的一個(gè)里程碑事件。繼該條例之后,世界上許多國(guó)家都頒布了自己的數(shù)據(jù)保護(hù)立法。
█ 最后的話
好了,以上就是今天文章的全部?jī)?nèi)容。
四十多年的時(shí)間,大數(shù)據(jù)從無(wú)到有,從弱到強(qiáng),已經(jīng)充分證明了自己的價(jià)值,成為數(shù)字社會(huì)的重要組成部分。
未來(lái),隨著數(shù)字技術(shù)的不斷進(jìn)步,尤其是人工智能的不斷發(fā)展,大數(shù)據(jù)的應(yīng)用將更加廣泛和深入,為各行業(yè)帶來(lái)更多機(jī)遇和挑戰(zhàn)。
真正的數(shù)據(jù)白金時(shí)代,正在加速向我們走來(lái)。
參考文獻(xiàn):
1、《他預(yù)見(jiàn)了第三次浪潮,還發(fā)明了“大數(shù)據(jù)”這個(gè)詞》,吳曉波頻道;;2、《大數(shù)據(jù)的崛起:從數(shù)據(jù)積累到智能決策的變革》,新報(bào)觀察;3、《大數(shù)據(jù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)》,梅宏;4、《美國(guó)大數(shù)據(jù)研究與應(yīng)用》,胡經(jīng)國(guó);5、百度百科、維基百科等。