作者:Suad Jusuf
Senior Manager
數(shù)據(jù)的完整性及其規(guī)范
數(shù)據(jù)可以指單獨的事實,或者統(tǒng)計后的數(shù)據(jù),還可以是各種信息的匯總,通常以數(shù)字表示。數(shù)據(jù)管理的重要性始于計算機(jī)科學(xué)本身的誕生。數(shù)據(jù)處理最初的重點是轉(zhuǎn)換,存儲,然后傳輸。然而,近年來,隨著手機(jī)、智能傳感器、聯(lián)網(wǎng)汽車和我們周圍許多其他數(shù)字設(shè)備的興起,出現(xiàn)了前所未有的信息大爆炸。
不斷增長的海量數(shù)據(jù),需要人們采取合適的方式來管理它,通過減少數(shù)據(jù)冗余,保證準(zhǔn)確和及時的獲取,來確保數(shù)據(jù)的質(zhì)量。為分析而訪問和存儲大量信息,人們已經(jīng)有很多年的經(jīng)驗了。但大數(shù)據(jù)的概念在21世紀(jì)初獲得了新的發(fā)展動力,它基于三個要素:數(shù)量、速度和多樣性。對大數(shù)據(jù)進(jìn)行分析以獲得更好的洞察力來指導(dǎo)決策,是大數(shù)據(jù)的真正意義。這意味著收集的數(shù)據(jù)只有在最終用于解決問題并進(jìn)而實現(xiàn)新的收入流和財務(wù)增長時才具有意義。這就是“數(shù)據(jù)科學(xué)”領(lǐng)域發(fā)揮關(guān)鍵作用的地方,因為它采用現(xiàn)代工具和技術(shù)來發(fā)現(xiàn)數(shù)據(jù)背后隱藏的有價值的信息,并據(jù)此做出成功的商業(yè)決策。
什么是數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)是一個術(shù)語,指的是使用各種科學(xué)手段、算法和步驟從不斷增長的海量數(shù)據(jù)中提取背后含義的綜合方法。使用軟件科學(xué)識別出原始數(shù)據(jù)背后的規(guī)律和含義。這些有價值的見解有助于支持業(yè)務(wù)決策,分析解決業(yè)務(wù)困境,并將其轉(zhuǎn)化為可行的解決方案。
企業(yè)如何依賴數(shù)據(jù)科學(xué)?
傳統(tǒng)的商業(yè)數(shù)據(jù)分析(BI)工具不是為處理大量非結(jié)構(gòu)化數(shù)據(jù)而構(gòu)建的。數(shù)據(jù)科學(xué)利用更先進(jìn)的工具來幫助分析、分類和篩選來自多個相關(guān)領(lǐng)域的大量數(shù)據(jù),可在處理非結(jié)構(gòu)化數(shù)據(jù)方面發(fā)揮重要作用。例如,在營銷領(lǐng)域,基本的人口統(tǒng)計因素,如客戶年齡、性別、地點和購買行為,有助于制定具有針對性的活動。這些活動,因為它們通過客戶的瀏覽和購買歷史來評估客戶對商品的傾向,因此更能達(dá)到精準(zhǔn)營銷的目的。同樣,在銀行業(yè)務(wù)中,監(jiān)控異常的客戶交易可以幫助識別金融欺詐行為。在醫(yī)療保健行業(yè),仔細(xì)檢查和評估患者的病歷可以揭示患病的可能性等等。
通過預(yù)測性維護(hù),機(jī)器中的智能傳感器收集數(shù)據(jù),幫助工廠減少停機(jī)時間及相關(guān)的收入損失。預(yù)測和提前處理潛在的可能造成停產(chǎn)的問題,工廠就可以一直保持最高效率運行。
數(shù)據(jù)挖掘和KDD
“數(shù)據(jù)挖掘”通常與KDD(Knowledge Discovery in Database,數(shù)據(jù)庫中的知識發(fā)現(xiàn))互換使用。如今,幾乎每個行業(yè)都越來越受數(shù)據(jù)所驅(qū)動。但是,只有當(dāng)你分析數(shù)據(jù)并找出它背后的價值時,數(shù)據(jù)才有意義。
大多數(shù)行業(yè)積累了海量數(shù)據(jù),但在缺乏展示數(shù)據(jù)趨勢的圖形、圖表和相關(guān)分析機(jī)制的情況下,純數(shù)據(jù)本身沒有多大意義。從現(xiàn)在數(shù)據(jù)積累的速度和規(guī)模上看,使用傳統(tǒng)數(shù)據(jù)管理機(jī)制很難應(yīng)對這樣的挑戰(zhàn)。因此,從經(jīng)濟(jì)和科學(xué)的角度來看,利用數(shù)據(jù)科學(xué)提升我們的分析能力,以便我們能夠更好地處理我們的大數(shù)據(jù),變得非常有必要。
下圖顯示了管理數(shù)據(jù)的各種工具之間的關(guān)系。
模式識別
模式識別通過識別數(shù)據(jù)模式來研究數(shù)據(jù)內(nèi)涵。根據(jù)數(shù)據(jù)的類型和配置,可以使用不同的模式識別方法。模式按照描述性模式識別進(jìn)行分類。對目標(biāo)進(jìn)行特征識別,并將這些特征與已知模式進(jìn)行比較以判斷它們是否匹配,或者存在差異。
統(tǒng)計學(xué)
在解決復(fù)雜且需要方法論的問題方面,統(tǒng)計學(xué)發(fā)揮著重要作用。這在有很多不確定性因素背景下需要做出高風(fēng)險決定時尤其如此。統(tǒng)計學(xué)可以為分析師提供有把握的答案。
分析
分析是指檢查數(shù)據(jù),解決問題、獲得洞察力并識別趨勢的過程和行為。這是通過使用各種工具、技術(shù)和體系來完成的,根據(jù)所執(zhí)行的分析類型而有所不同,主要有以下四種類型:
機(jī)器學(xué)習(xí)是人工智能的一個分支,它依賴模型來執(zhí)行自主任務(wù)。它依賴統(tǒng)計學(xué)和算法,根據(jù)歷史數(shù)據(jù)幫助用戶做出預(yù)測或決策。數(shù)據(jù)科學(xué)家使用機(jī)器學(xué)習(xí)和人工智能等技術(shù)來管理公司的數(shù)據(jù)。這使公司能夠?qū)磳l(fā)生的事情進(jìn)行精確分析,從而對企業(yè)的未來產(chǎn)生積極的影響。
數(shù)據(jù)科學(xué)流程
CRISP-DM代表“數(shù)據(jù)挖掘的跨行業(yè)標(biāo)準(zhǔn)流程”,提供一個總覽模型,描述數(shù)據(jù)科學(xué)的生命周期,幫助規(guī)劃、組織和實施數(shù)據(jù)科學(xué)項目。它由以下步驟組成:
當(dāng)辯證性思維遇到機(jī)器學(xué)習(xí)算法時,數(shù)據(jù)科學(xué)可以幫助獲得對業(yè)務(wù)更佳的見解,提高工作效率,并提供業(yè)務(wù)決策的預(yù)判。最終目標(biāo)是使公司能夠從數(shù)據(jù)科學(xué)中受益,做出積極決策,以提供更多創(chuàng)新的產(chǎn)品和服務(wù)。