成立于2008年的Vpon威朋是一個移動廣告公司,其主營業(yè)務(wù)是接受廣告主委托在其合作方推出的移動App上發(fā)布廣告。上個月Vpon威朋推出了一款名為3S(Sales Supporting System)的系統(tǒng)廣告分析系統(tǒng),這是一套建立在Hadoop平臺上的大數(shù)據(jù)挖掘、分析及處理系統(tǒng)。這套系統(tǒng)最大作用就是能精確地統(tǒng)計和分析用戶點擊移動應(yīng)用的時間、地點和各種偏好,從而幫助廣告主做出更有效的廣告投放決策。成立于2009年的北京百分點信息科技有限公司(以下稱百分點)也在做與Vpon威朋類似的事情。百分點推出了一種名為個性化搜索引擎的工具,電子商務(wù)網(wǎng)站可以利用它來分析訪客的點擊行為,找出訪客的偏好、進(jìn)行產(chǎn)品推薦。同樣,這個搜索引擎也是基于Hadoop開發(fā)。
在互聯(lián)網(wǎng)領(lǐng)域,像Vpon威朋、百分點這樣利用Hadoop等利用大數(shù)據(jù)相關(guān)技術(shù)進(jìn)行訪客點擊行為分析來開展業(yè)務(wù)的公司越來越多,其中有一大批對新興技術(shù)敏感的初創(chuàng)公司,同時也不乏像Google、Facebook這樣著名的互聯(lián)網(wǎng)公司。
事實上,“大數(shù)據(jù)”這股發(fā)端于互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)分析熱潮如今已經(jīng)超出了互聯(lián)網(wǎng)領(lǐng)域,部分敢于“嘗鮮”的傳統(tǒng)企業(yè)已經(jīng)開始部署大數(shù)據(jù)相關(guān)技術(shù)。根據(jù)IDC最新發(fā)布的全球大數(shù)據(jù)市場預(yù)測,大數(shù)據(jù)將從2010年的32億美元增長至2015年的169億美元,年復(fù)合增長率達(dá)到40%。對市場前景的良好預(yù)期吸引投資者們也紛紛投身其中,目前對于大數(shù)據(jù)的風(fēng)投資金已超過5億美元:去年年底Hadoop版本的主要發(fā)布者Cloudera獲得4000萬美元投資;Cloudera的競爭對手,另一個Hadoop版本發(fā)布者——MapR獲得了2500萬美元的投資;NoSQL數(shù)據(jù)庫廠商10Gen(MongoDB的供應(yīng)商)和DataStax(Cassandra的供應(yīng)商)分別獲得了3200萬美元和1100萬美元的融資;今年4月剛剛在納斯達(dá)克進(jìn)行IPO,融資2.3億美元……這個名單可以列得很長。
很顯然,在市場研究機構(gòu)和投資者看來,大數(shù)據(jù)市場現(xiàn)在是如日中天,其熱度甚至大有蓋過云計算之勢。與此同時,“大數(shù)據(jù)是大忽悠、大謊言”的說法也不絕于耳。紛紛擾擾的市場宣傳中,我們究竟該如何認(rèn)識大數(shù)據(jù),大數(shù)據(jù)到底是大機遇還是大騙局?
迎來大數(shù)據(jù)時代
大數(shù)據(jù)與數(shù)據(jù)的爆炸性增長有著密切關(guān)系。根據(jù)IDC的研究,2010年底全球新生成的數(shù)據(jù)量已經(jīng)達(dá)到120萬PB(或1.2 ZB),這些數(shù)據(jù)如果使用光盤存儲,摞起來可以從地球到月球一個來回(從地球到月球大約24萬英里)。IDC預(yù)計,到2020年需要存儲的數(shù)據(jù)量將達(dá)到35萬億GB,是2010年數(shù)據(jù)存儲量的42倍。
今天的中國是數(shù)據(jù)生產(chǎn)的大國。還是IDC提供的數(shù)據(jù),截止到2012年6月,中國有近3.9億的移動客戶、5.3億的互聯(lián)網(wǎng)客戶。在一個比較典型的智能城市中,每個季度就可能產(chǎn)生出200PB的視頻數(shù)據(jù)。
應(yīng)該說,我們面對的挑戰(zhàn)不只是海量數(shù)據(jù),還包括越來越繁多的數(shù)據(jù)格式,特別是非結(jié)構(gòu)化和半結(jié)構(gòu)數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。研究表明,如今新增數(shù)據(jù)中80%以上是諸如日志、圖片、視頻、電子郵件等非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。這些數(shù)據(jù)都不能(或者不適合)用傳統(tǒng)方法處理,需要有新的思考、新的作為,這就是大數(shù)據(jù)技術(shù)。
對于什么是大數(shù)據(jù)至今并沒有明確而且一致的定義。目前關(guān)于大數(shù)據(jù)有兩個不同的理解,一個是認(rèn)為它是一系列的技術(shù),通過這些技術(shù)對大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,從而獲得各種分析和預(yù)測結(jié)果;另一個,也是更多的人理解是,簡單地稱海量的數(shù)據(jù)集稱為大數(shù)據(jù),本文采用后一種認(rèn)識。
雖然缺乏對大數(shù)據(jù)明確的定義,但對大數(shù)據(jù)三個“V”基本特征卻是頗有共識,即海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉(zhuǎn)(velocity)、多樣的數(shù)據(jù)類型(variety)。這其中,“海量”是大數(shù)據(jù)的引發(fā)人們廣泛關(guān)注的前提,而快速和復(fù)雜的數(shù)據(jù)類型則是引發(fā)人們廣泛關(guān)注的關(guān)鍵。
大數(shù)據(jù)從何而來
談到大數(shù)據(jù),不得不談到移動設(shè)備。因為我們面對的大數(shù)據(jù)除了來自企業(yè)應(yīng)用、運營的數(shù)據(jù)以及供應(yīng)鏈、供應(yīng)商產(chǎn)生各種各樣的數(shù)據(jù),還有很大一部分來自社交媒體以及移動應(yīng)用,而移動智能設(shè)備就是背后最大的推手之一。
眾所周知,智能移動設(shè)備的普及給社會帶來諸多變化。其中之一就是人們可以在任何時間、任何地點獲取信息,能夠?qū)崟r通信、實時協(xié)作、發(fā)布社交內(nèi)容。這就使得數(shù)據(jù)的生產(chǎn)方式發(fā)生了變化:過去,我們只是在工作時產(chǎn)生數(shù)據(jù),而今我們幾乎是每時每刻都在生產(chǎn)數(shù)據(jù);過去,數(shù)據(jù)都是交易型,典型的表現(xiàn)形式為一條條交易記錄,這是傳統(tǒng)數(shù)據(jù)庫所擅長的,而如今,數(shù)據(jù)源眾多,而且很多數(shù)據(jù)不再是由人而是由機器產(chǎn)生的,各種各樣的RFID、傳感器都在生成數(shù)據(jù)。另外,即使是人為產(chǎn)生的,如社交網(wǎng)絡(luò)、微博,數(shù)據(jù)的形式和過去的形式也不一樣,主要表現(xiàn)為非結(jié)構(gòu)化。
“數(shù)據(jù)量的增加已經(jīng)遠(yuǎn)遠(yuǎn)超出預(yù)期,而且企業(yè)目前面臨的還是一個更加復(fù)雜的數(shù)據(jù)環(huán)境。在這樣一個環(huán)境中,企業(yè)要獲得傳統(tǒng)財務(wù)或者財務(wù)以外信息分析能力,需要新的方法。這就是大數(shù)據(jù)熱的大背景。”Forrester Research資深分析師曹宇欽在不久前舉辦的大數(shù)據(jù)論壇演講時表示。
面對如此海量、復(fù)雜的數(shù)據(jù)需要存儲、需要管理更需要分析,這就引發(fā)了人們對大數(shù)據(jù)的極大關(guān)注,而VMware全球高級副總裁范承工看來,事情變復(fù)雜的還有另外兩個因素。“之所以有今天的大數(shù)據(jù)話題,除了數(shù)據(jù)產(chǎn)生更還包括云應(yīng)用的普及以及數(shù)據(jù)的使用者發(fā)生了變化。”
范承工在VMware內(nèi)部領(lǐng)導(dǎo)一個數(shù)據(jù)部門從事相關(guān)產(chǎn)品的開發(fā),包括支持Hadoop在虛擬化環(huán)境中的快速部署插件等。范承工解釋說,云應(yīng)用的普及改變了過去單一的數(shù)據(jù)位于數(shù)據(jù)中心的形式,越來越多的數(shù)據(jù)被保存在企業(yè)防火墻外的公有云中,使得數(shù)據(jù)整合成為難題;同時,數(shù)據(jù)使用者也從最初主要面向管理者、高級經(jīng)理到逐漸普及到一般業(yè)務(wù)人員,這就要求獲得分析結(jié)果的方式更簡單、更靈活。
相關(guān)閱讀