大數據就是年輕人談“性”?

2014/03/14 11:32      呂本富

在“2014西湖品學”大數據峰會上,中科院大學管理學院教授呂本富發(fā)表了《大數據分析的經濟價值》的演講。呂本富表示,如果大數據并不是年輕人談性,就要提一個問題是“價值在哪里”。價值并不是忽悠,要從企業(yè)競爭角度創(chuàng)造了什么價值,所以價值在哪里,應該是所有大數據做經濟分析中最重要的關鍵詞,在哪里存活。

以下為呂本富的演講整理:

經常有人引用這一段話:“大數據就是年輕人談性,我說你做過,你說我做過,大家誰都沒有做過”。很多傳統(tǒng)企業(yè)都是這么說,如果大數據并不是年輕人談性,就要提一個問題是“價值在哪里”。價值并不是忽悠,要從企業(yè)競爭角度創(chuàng)造了什么價值,所以價值在哪里,應該是所有大數據做經濟分析中最重要的關鍵詞,在哪里存活,在這里就是價值。

應用需求驅動商業(yè)模式,商業(yè)模式帶來里經濟價值,這就是大數據的立足點?;ヂ?lián)網承載了太多的信息和信號,大眾的情緒、消費者喜好、市場潮流、不同人群的關注點等等。

從商業(yè)模式的角度看,把它分為三類:第一類是圈定用戶和針對營銷,就是誰是我的客戶、誰不是;第二類,用戶的關聯(lián)分析,在用戶群當中是老的、少的,他們有什么關系;第三類,完全個性化定制或者個性化分析,就是先確定大圈子,然后圈子中分類,然后個性化。

應該說,不同情況下有不同的價值,不管對哪個學派或者實踐都認為管理的本質是決策,而決策最重要的本質是受信息不對稱的影響,信息越對稱決策價值越大,如果可以通過大數據的挖掘分析可以作出決策,最根本是能不能有助于決策,這是核心。由于決策之后會使得企業(yè)的競爭規(guī)則發(fā)生變化,我們知道大部分學過MBA的同學都知道邁克爾波特說過競爭的價值取決于經濟價值。如果創(chuàng)新會帶來一些競爭優(yōu)勢,但是容易被別人山寨,我們知道我們山寨能力很強,我的成功可以復制,我的復制可以成功,什么才是持久的能力呢?低成本高效率,過去認為是戰(zhàn)術性,過去認為低成本高效率是戰(zhàn)術型,現在看來是一個國家和企業(yè)的長期競爭,就是差異化、低成本,但如果不和運營效率放在一起就不是長久的競爭力。低成本高效率就是大數據的彈性商業(yè)過程,各個過程無縫隙、無摩擦的對接。

首先生產體系是對接,第二,、各個體系摩擦成本降到最低,所以我們把數據價值分為三類:第一,數據驅動的決策;第二數據驅動的流程;第三數據驅動的產品。

第一個就是提高預測概率,提高決策成功率。今天上午有一個阿里金融的說計劃經濟比市場經濟優(yōu)越,因為可以有大數據、定制、預售,其實就是第一個說的,數據驅動的決策可以提高預測的概率。講一件專業(yè)的事情,不知道各位是否知道“最大最小定制”。什么意思呢?傳統(tǒng)雙方博弈的時候,比如說你是踢球員,我和守門員,我們兩方的博弈就是我們兩方的概率應該是對等。大數據就是最大最小定制,我要對你的細致了解,因為我不是博弈性質和概率性質,所以決策可以提高預測概率。

第二個是數據驅動流程,就像今天上午老師說的我們要形成閉環(huán)營銷的成功率,就是我劃了圈子,所有客戶都在圈子里,所有營銷對折他來,還要和漏斗轉化結合,這就是數據驅動流程。

第三個產品是迭代的創(chuàng)新,創(chuàng)新有顛覆性創(chuàng)新和迭代的創(chuàng)新,經常有人說把誰誰顛覆了,我不喜歡聽這個詞,我喜歡迭代,就是小步快跑,大數據一般指導的是小步快跑的迭代創(chuàng)新,現在微信為什么很牛,因為迭代很強,就是今天改一個功能明天改一個功能,這三類會帶來價值。

針對這三類,因為大數據最重要的是決策和優(yōu)化,對企業(yè)來說決策和優(yōu)化可以代替效率,可以把迭代和優(yōu)化分為三個層級:第一誰在圈子內,第二屬于圈子內的哪個族群,第三個是圈子消耗。廣告界有一句話名言叫做“我知道我的廣告費有50%恩浪費了,但不知道哪一半”?,F在就是要通過大數據排除非相關人員,確定圈子和利益相關者,這是有效影響,其他沒有有效影響的基本上和我沒有關系。不知道在座有沒有看過郭敬明的《小時代》,我看不懂,就寫了罵他,但他照樣賣3個億,我就不是他的客戶,不是他的圈子。現在不要全國人民擁護我,只要圈子擁護我就發(fā)財了。然后是不管是哪一類數據,圈定了就有價值。

第一個層級是針對一個具體的應用,依據性別、收入、地域、年齡等特點,簽訂相近的人群。比如在電子商務網站內,預測什么地方的人買東西最瘋狂或是預測什么型號手機最好賣,麥當勞、肯德基以及蘋果公司器件專賣店的位置精準選址,針對這個全體如何進一步打磨廣告、市場營銷等等,就可以優(yōu)化定價策略和產品線。

第二個層級就是通常說的在確定圈子以后,需要把商品和人群分為不同的族群的通過族群和消費者當中確定消費人群,購物籃是最常見的大數據分析技術,過去就是打印單上家庭主婦放在什么地方一塊兒買了,比如說塔吉特針對懷孕的婦女,做了一個“懷孕指數”,就像中國有一句話叫酸兒辣女,通過懷孕指數可以知道預產期。我們經常會說通過過程數據和結果數據進行關聯(lián)性分析。并不是關聯(lián)性分析很容易,其實也有難點。比如說對書、手機、家電的Hard Line的產品可以認為是標品,通過時間序列預測是比較準的,但對服裝、裝飾等是軟性商品,無法通過時間預測,因為這類東西受到干擾東西太多,比如說顏色、合不合身,還有朋友的意見,而且買得人多了就不買了,所以這樣軟性產品的預測非常困難,比如說從術語來說是多維變量,就比較難。

第三個層級確定圈子個體的特征,由此提供個性化的定制、產品和服務,比如說有一個電影叫《點石成金》,里面就是專門算哪一個球手,比如說我這個球隊進攻最弱,就把進攻最強的球員買過來。比如說我有一個芯片安裝在汽車上就可以測試駕駛習慣,拐彎是不是很急,剎車是不是很穩(wěn),確定每年效率稅率,過去中國人完全說看客下菜碟,從消費者來說為每一個人定價才是最好的,基本上所有的生產者剩余都拿到自己的手里,過去沒有這個條件,現在大數據就可以進行個性化定價。所以航空公司和快遞公司可以提供體貼入微的服務,沃爾瑪利用數據分析提供最優(yōu)的價值。確定圈子、確定關系、確定定價以前就有,只是通過大數據確定價值,帶來新的增量。

既然數據的科學,大家覺得大數據完全是忽悠的概念,經過最近實踐探討,我們覺得它確實和原來的統(tǒng)計不一樣,但是和原來數據挖掘的方法論不一樣,它確實有點新的問題,問題就是解決任何問題都有一個叫方法,在過去問題多樣性手段是豐富的,不同的行業(yè)特性、不同的企業(yè)規(guī)模、不同的成長階段產生了很多共同特點,又有個性鮮明的問題。在解決管理學的問題,工具非常多,過去有人統(tǒng)計世界上有200多種研究的方法。這些盲人都要和數據結合在一起,正好演講開始就講了氣象,其實作1913年一個叫理查森就找到了空氣動力學方程,他為了幫助中國打一站,根據他的方程可以預測出第二天的天氣,問題是準備數據需要6個星期,所以一直到一戰(zhàn)結束的時候理查森的數據沒有準確過。一直到20世紀,現在對過去天氣的統(tǒng)計可以精確到5%,剛才演講者說可以達到85%了,所以我們檢測的時候數據還是那個數據,但方法不一樣了。

所以在大數據背景下,方向不一樣了。問題從預測、選擇、優(yōu)化、仿真重點轉向了關聯(lián)和決策,現在最重要找關聯(lián)關系能不能決策變成問題最重要的方式了,其實這也是中國人所擅長的,我原來做大數據演講的時候,有人說大數據西方怎么好,我就告訴他也不是這樣的,中國人搞中醫(yī)不就是大數據嗎?中醫(yī)只管關聯(lián)不管過程的,按摩好了不管中間的機理,但是那個藥吃死多少人不知道,中醫(yī)就是大數據,只管相關關系,不管過程。數據就是從小樣本轉減模型大數據的研究范式,所以對數據結構的深入分析將會成為重點。

數據有些什么問題呢?

我們經常在做數據分析的時候發(fā)現兩個相關,就是高頻數據和低頻數據需要統(tǒng)一。比如說淘寶的交易數據是每秒、每個小時、每日,高頻數據的研究是對時間尺度極小的,低頻數據的研究是時間尺度極大的,經濟危機是三十年一個循環(huán)就是很大的數據周期,所以高頻數據和低頻數據是怎么,流感傳播是以一個星期,對接不好了就會出問題。

還有高階數據和低階數據,因為我們在商品預測上很多,過去不僅取決于過去的財富量還取決于當前的財富,如果把財富看成Y,那么財富的一階導就是當期的收入,財富的二階導就是拐點,就是未來的收入,所以決定消費者的表征就是C=C(y,y’,y’’)所以經濟系統(tǒng)當中引入高階變相和低階變量,即未來變量和滯后變量,都非常重要。過去小數據沒有這樣的條件,小數據都不知道哪個是未來哪個是當期,大數據可以找出。

還有微觀變量,我們和阿里做消費者信息指數的時候發(fā)現,如果把全網加起來做指數非常難,因為類目老是變動。一般來說,熱力學類型的數據,我們學物理都知道,熱力學類型的數據都是宏觀數據,比如說壓氣等等,都是事物趨勢和可能。動力學類型的微觀數據,比如說速率、類目等,反應是一個事物的實現性,這是微觀數據。比如說我們和阿里做消費者信息指數的時候一定不能做微觀數據。動力學和數據和熱力學不能混同,如果混同就會有問題,因為類目老是調整。

第四個是高維數據和變維數據的問題。高維數據包括三種,比如篩因變量和高維的,即一個變量可以影響很多變量,第二個是自變量是高維向量,影響一個變量變動的因子有很多,第三個是因變量和自變量都是高維的向量。當因變量和自變量都是高維的時候,現在有人說炒股有27000多個變量,所以很多人搞不清楚。這個要做相關性分析怎么做呢?多維變量和多維變量的工具不是很多,所以我跟我們一個數據老師說你做一個這樣的工具將來揚名立萬了。在學科交界處,不但存在高維數據,還存在變維數據。不要認為這很虛,比如說這類人群對某一類服裝的銷售就是多維和多維變量的問題,所以現在為什么叫軟線產品,多維變量的關系很難理解,而且還有變維,就是有一個緯度影響不是很大。而且交易數據不僅是時間序列,而且和政治、自然、人際、情緒都有關系。其實數據除了剛才說的以外,還有很多,我們在進行大數據分析的時候,黑天鵝事件和異常值分析等等,比如說異常值分析,在過去統(tǒng)計分析中異常值就舍棄了,但大數據異常值很多,異常值在過去挖掘當中就很少,現在做大數據很多。

我只講了四個,大數據分析當中可能遇到的大概有十類問題。今天時間有限,就不說那么多了,謝謝大家!

相關閱讀