大數據(ju)(big data),指(zhi)無法在(zai)一定(ding)時(shi)間范圍內用常(chang)規(gui)軟件工具(ju)進(jin)行捕捉、管理和(he)處理的(de)數據(ju)集合,是需要新處理模式(shi)才能(neng)具(ju)有更強(qiang)的(de)決策力、洞(dong)察發現力和(he)流程優化能(neng)力的(de)海量、高增長率和(he)多樣化的(de)信息資產。包括大規(gui)模并行處理(MPP)數據(ju)庫,數據(ju)挖掘電網(wang),分布(bu)式(shi)文件系統,分布(bu)式(shi)數據(ju)庫,云計算平(ping)臺,互聯網(wang),和(he)可擴展的(de)存儲系統。
大數(shu)(shu)據(ju)(ju)(ju)(ju)通常(chang)用(yong)來形容一(yi)個公(gong)司創造(zao)的(de)(de)大量(liang)非(fei)結(jie)構(gou)化(hua)數(shu)(shu)據(ju)(ju)(ju)(ju)和(he)半結(jie)構(gou)化(hua)數(shu)(shu)據(ju)(ju)(ju)(ju),這些數(shu)(shu)據(ju)(ju)(ju)(ju)在下(xia)載(zai)到關系(xi)型數(shu)(shu)據(ju)(ju)(ju)(ju)庫(ku)用(yong)于分析(xi)時(shi)會花費過多(duo)時(shi)間和(he)金錢。大數(shu)(shu)據(ju)(ju)(ju)(ju)分析(xi)常(chang)和(he)云計(ji)算(suan)聯系(xi)到一(yi)起,因為實時(shi)的(de)(de)大型數(shu)(shu)據(ju)(ju)(ju)(ju)集分析(xi)需要像MapReduce一(yi)樣的(de)(de)框架來向數(shu)(shu)十、數(shu)(shu)百或甚至數(shu)(shu)千的(de)(de)電腦分配工作。
據(ju)(ju)IDC的(de)調查報告顯(xian)示:企業(ye)中80%的(de)數據(ju)(ju)都是非結(jie)構(gou)化數據(ju)(ju),這些數據(ju)(ju)每年(nian)都按指數增長60%。 在以云(yun)計算為代表(biao)的(de)技術創新大(da)幕的(de)襯(chen)托(tuo)下,這些原本看起(qi)來很(hen)難(nan)收集和使(shi)用(yong)的(de)數據(ju)(ju)開始容易被(bei)利用(yong)起(qi)來了,通過各行各業(ye)的(de)不斷創新,大(da)數據(ju)(ju)會逐步為人類創造更多的(de)價值。
具(ju)體來說,大數據具(ju)有4個基本特征:
一是數據體量巨大。百度(du)資(zi)料(liao)表明,其新首頁導航每天需要提供的數(shu)據(ju)超(chao)過1.5PB(1PB=1024TB),這些數(shu)據(ju)如(ru)果打印出來將超(chao)過5千(qian)億張A4紙。有(you)資(zi)料(liao)證實,到目前為止,人類生產的所(suo)有(you)印刷(shua)材料(liao)的數(shu)據(ju)量僅為200PB。
二是數據類型多樣。現(xian)在的數(shu)(shu)據(ju)類型不(bu)僅是(shi)文本形(xing)式,更多的是(shi)圖(tu)片、視頻、音頻、地理位置信息等(deng)多類型的數(shu)(shu)據(ju),個性化數(shu)(shu)據(ju)占絕對多數(shu)(shu)。
三是處理速度快。數(shu)據處理遵循“1秒定(ding)律”,可從各種類(lei)型的數(shu)據中快速獲(huo)得高價值的信(xin)息。
四是價值密度低。以視頻為例,一小時(shi)的視頻,在(zai)不間斷的監控過程中,可(ke)能(neng)有用的數(shu)據(ju)僅僅只有一兩秒。
大數據主要應用服務:
可視化分析:大數(shu)(shu)據(ju)分(fen)(fen)析(xi)的(de)使用(yong)者(zhe)有大數(shu)(shu)據(ju)分(fen)(fen)析(xi)專家,同時還有普通(tong)用(yong)戶,但是他(ta)們二者(zhe)對(dui)于大數(shu)(shu)據(ju)分(fen)(fen)析(xi)最基本的(de)要求就是可(ke)視化分(fen)(fen)析(xi),因為可(ke)視化分(fen)(fen)析(xi)能夠直觀的(de)呈現大數(shu)(shu)據(ju)特點(dian),同時能夠非(fei)常容易被(bei)讀者(zhe)所接受,就如同看圖(tu)說話一樣簡單(dan)明(ming)了。
數據挖掘算法:大數(shu)據(ju)分析的理(li)論(lun)(lun)核心就是(shi)(shi)數(shu)據(ju)挖掘算(suan)法(fa),各(ge)(ge)種(zhong)數(shu)據(ju)挖掘的算(suan)法(fa)基于不同的數(shu)據(ju)類型(xing)和(he)格(ge)式才(cai)(cai)能(neng)(neng)(neng)更(geng)(geng)加科學的呈(cheng)現(xian)出數(shu)據(ju)本身具備的特點(dian),也正是(shi)(shi)因(yin)為(wei)這些被全(quan)世界統(tong)計學家(jia)所(suo)公(gong)(gong)認的各(ge)(ge)種(zhong)統(tong)計方(fang)法(fa)(可以(yi)稱之為(wei)真理(li))才(cai)(cai)能(neng)(neng)(neng)深入(ru)數(shu)據(ju)內部,挖掘出公(gong)(gong)認的價值。另(ling)外一個方(fang)面也是(shi)(shi)因(yin)為(wei)有這些數(shu)據(ju)挖掘的算(suan)法(fa)才(cai)(cai)能(neng)(neng)(neng)更(geng)(geng)快速的處理(li)大數(shu)據(ju),如果(guo)一個算(suan)法(fa)得(de)花(hua)上好幾年才(cai)(cai)能(neng)(neng)(neng)得(de)出結(jie)論(lun)(lun),那大數(shu)據(ju)的價值也就無(wu)從說起了。
預測性分析:大(da)數(shu)據(ju)分(fen)析(xi)最終要的應用(yong)領(ling)域之(zhi)一就是預(yu)測(ce)性分(fen)析(xi),從(cong)大(da)數(shu)據(ju)中挖(wa)掘出(chu)特點,通過科(ke)學的建立模型,之(zhi)后便可以通過模型帶入新的數(shu)據(ju),從(cong)而預(yu)測(ce)未(wei)來的數(shu)據(ju)。
語義引擎:非結構化(hua)數據(ju)的(de)多元化(hua)給(gei)數據(ju)分析(xi)帶來新的(de)挑戰,我(wo)們需要一套工具系統(tong)的(de)去(qu)分析(xi),提(ti)煉(lian)數據(ju)。語義(yi)引擎需要設(she)計到有(you)足(zu)夠的(de)人工智能足(zu)以從數據(ju)中(zhong)主(zhu)動地(di)提(ti)取(qu)信息(xi)。
數據質量和數據管理:大數(shu)(shu)據(ju)分(fen)(fen)析離不(bu)開數(shu)(shu)據(ju)質量(liang)和數(shu)(shu)據(ju)管理(li),高質量(liang)的(de)數(shu)(shu)據(ju)和有效的(de)數(shu)(shu)據(ju)管理(li),無論是在學術研究(jiu)還是在商業應用(yong)領(ling)域,都能夠保證分(fen)(fen)析結果的(de)真實和有價(jia)值。