疫情期間,數(shù)據(jù)分析領(lǐng)域涌現(xiàn)出很多民間高手,數(shù)據(jù)玩家各顯神通,或通過仿真程序調(diào)參,模擬病毒傳播,強調(diào)不要出門對控制傳播的重要貢獻;或用自然語言處理工具+詞云,直觀展示每日新聞熱詞的演進變化,或現(xiàn)場教學(xué)如何爬取網(wǎng)站上的實時病例數(shù)據(jù),用作進一步分析。
這些數(shù)據(jù)建模能力、數(shù)據(jù)開發(fā)技術(shù)固然是非?少F,友盟+也發(fā)現(xiàn),人人都能上手的、統(tǒng)計性、描述性的數(shù)據(jù)分析,同樣能發(fā)揮出巨大的洞察作用和價值。
早在1月21號,大眾對疫情的關(guān)注度剛開始爬升的時候,有公眾號把各省市病例數(shù)據(jù)和往年春運遷徙數(shù)據(jù)做了一個“略顯粗糙”的相關(guān)性分析,根據(jù)初步驗證的正相關(guān)關(guān)系指出,湖北省內(nèi)一些城市和武漢來往密切,疫情狀態(tài)可能被低估,湖北省外的重點城市要加強機場或鐵路方面的預(yù)警。這些分析就充分運用到了趨勢監(jiān)測、橫向?qū)Ρ、維度拆解等來判斷的。
● 首先,作者認為,湖北省內(nèi)外的疫情發(fā)展?fàn)顩r差異很大,湖北省內(nèi)的確診診斷工作壓力較大,很可能在數(shù)字上有滯后,因此要將湖北和非湖北數(shù)據(jù)“拆分來看”。
● 下一步,他認為用總病死人數(shù)除以總確診人數(shù)得到的病死率,是不準確的,快速增加的確診病例數(shù)(分母)會稀釋這個百分比,于是選擇采取盡可能接近“同期群”的方式來處理。
● 進而,他依據(jù)當(dāng)時文獻,得知報告確診到報告死亡的平均時間是8天,那么最近3天的新增死亡病例大概率來自8天前確診的那些新增病例,在這樣一個“同期群”當(dāng)中,得到湖北省外病死率在1.1%左右的,如果暫且認為湖北省內(nèi)病死率也在相近的水平,那么反除可得到上萬人的湖北省內(nèi)感染人數(shù)。
● 根據(jù)現(xiàn)在的信息,湖北省內(nèi)的病死率會比其他地區(qū)高一些,所以這個計算結(jié)果可能是大幾千這個水平,這與后續(xù)疾控中心披露的數(shù)據(jù)非常接近,而作者精巧的分析得益于對數(shù)據(jù)進行合理的“維度拆分”和“同期群”思路的應(yīng)用。
還有我們每天會關(guān)注的疫情數(shù)據(jù)報表。以丁香園為例,丁香園出品的數(shù)據(jù)報表,用公眾都能理解的樸素數(shù)據(jù)分析,細致解讀國家和各地衛(wèi)健委公布的疫情數(shù)字,幫助大家提高對疫情的正確認知。它善于:
數(shù)據(jù)分析光有思路還遠遠不夠,對具體業(yè)務(wù)的理解、數(shù)據(jù)采集的質(zhì)量、分析工具的靈活是讓數(shù)據(jù)分析高效率地產(chǎn)出價值的三駕馬車。有了業(yè)務(wù)理解,才能提出合適的問題、規(guī)劃數(shù)據(jù)需求,在采集上就盡量確保全面、口徑一致、顆粒度滿足拆分需求,到了分析環(huán)節(jié)的時候,有靈活的工具來實現(xiàn)各種折騰數(shù)據(jù)的想法,再有業(yè)務(wù)理解去加持數(shù)據(jù)的解讀,這樣才是真正能發(fā)揮價值的數(shù)據(jù)分析工作。
首先,業(yè)務(wù)理解和數(shù)據(jù)采集是數(shù)據(jù)分析、數(shù)據(jù)化運營非常重要的前提條件,指標體系就相當(dāng)于是二者之間的重要橋梁,也是很重要的一個落地產(chǎn)物和載體。如果是數(shù)據(jù)相關(guān)的崗位,強烈建議大家去牽頭了解各個業(yè)務(wù)方、甚至是管理層,他們的業(yè)務(wù)目標是什么,他們想要看數(shù)據(jù)是要回答什么樣的問題,從而避免成為一個被動的、沒有靈魂的SQL Boy。
如果是產(chǎn)品、運營等等業(yè)務(wù)崗,對這個問題的再度思考也不為過,雖然“核心指標 = 業(yè)務(wù)階段 * 行業(yè)特點 * 企業(yè)戰(zhàn)略”,但是前兩者屬于一般性的規(guī)律,同一個行業(yè)、同一個發(fā)展階段的企業(yè),也會因為商業(yè)模式、優(yōu)勢、發(fā)展側(cè)重的不同,量身定制核心指標,因此,“企業(yè)戰(zhàn)略”一定程度上凌駕于前兩個因素之上,不僅是一個監(jiān)測作用,更是一個指引,代表了戰(zhàn)略決策、業(yè)務(wù)目標的方向。
接下來,明確了核心指標之后,日常需要用到的指標應(yīng)做好分級分類,不僅有利于數(shù)據(jù)的管理和使用,也能全面規(guī)范地對埋點工作提出需求,確保采集的準確和連貫。大體上遵從戰(zhàn)略管理層面的核心指標、業(yè)務(wù)線層面的子指標、業(yè)務(wù)執(zhí)行層面的過程指標的原則,具體拆解沒有嚴格的一定之規(guī),幾個常見的方法有:
工欲善其事,必先利其器,為了幫助大家在數(shù)據(jù)分析這件事情上能夠降本提效,友盟+全新發(fā)布了U-DOP數(shù)據(jù)開放平臺。
其一,把SDK為大家規(guī)范采集的多端數(shù)據(jù),一鍵返還到客戶自有云空間,保障大家能夠在最細顆粒度、最自由地進行拆分和數(shù)據(jù)關(guān)聯(lián)。同時我們也根據(jù)多年服務(wù)開發(fā)者的經(jīng)驗,預(yù)置了一些常用指標,提前計算好,不用事事都要從最底層開始處理和計算,避免一些麻煩和錯誤。
其二,開發(fā)者可能習(xí)慣于U-App這樣的移動統(tǒng)計分析套件,突然間得到了最大的靈活性,可能反而不知道怎么上手了,我們也希望盡量能幫大家扶上馬 送一程,在DOP中不斷上新主題分析模板,把我們在各個場景各個行業(yè)的分析思路固化下來。一方面輔助大家理解我們返還的數(shù)據(jù)是什么,可以怎么使用,另一方面給到大家示意,可以照貓畫虎,熟悉上手我們的分析平臺如何使用。
其三,大家各自的業(yè)務(wù)一定是有自身的特點的,不可能靠模板走天下,大家的數(shù)據(jù)也遠遠不僅是App的行為數(shù)據(jù),一定也是多個數(shù)據(jù)源。在這樣的背景下, DOP深度整合了阿里云的相關(guān)產(chǎn)品,在數(shù)據(jù)存儲、計算、BI工具方面無縫銜接,給到大家數(shù)據(jù)融合、自助分析的能力,更加順暢一體化的完成數(shù)據(jù)靈活分析。
作為DOP的重要組成部分,QuickBI承載著自助分析場景下的數(shù)據(jù)加工、分析與可視化等工作。到底怎樣完成一次數(shù)據(jù)分析呢?簡單歸結(jié)起來就是“四步走”,如圖所示:
首先,數(shù)據(jù)獲取。除了友盟+將采集的行為數(shù)據(jù)自動投遞至云數(shù)據(jù)庫,Quick BI作為阿里云上的官方BI產(chǎn)品,能夠無縫集成云上數(shù)據(jù):支持云數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、Hadoop、本地文件等,和阿里云數(shù)據(jù)庫無縫對接。如前面介紹過的,友盟+提供的數(shù)據(jù)原料可細至個體、會話顆粒度,因此滿足不同層面的數(shù)據(jù)拆分或關(guān)聯(lián),例如通過用戶id,將行為數(shù)據(jù)和交易、CRM數(shù)據(jù)打通,或通過渠道名稱,將渠道拉新的留存率和該渠道用戶的ARPU數(shù)據(jù)拉通,得出LTV。
其次,通過創(chuàng)建數(shù)據(jù)集來數(shù)據(jù)處理。Quick BI即保留了傳統(tǒng)的SQL方式完成數(shù)據(jù)加工和處理,也支持通過創(chuàng)建數(shù)據(jù)集用交互式方式完成數(shù)據(jù)的加工,比如表關(guān)聯(lián)、重命名、新建字段、過濾等。
最重要的,有了數(shù)據(jù),開始拖拽分析。Quick BI具備豐富的數(shù)據(jù)可視化能力:將數(shù)據(jù)字段拖拽至維度、度量中,可視化圖表組件瞬間生成,近40種可視化圖表任你挑選,滿足各種報表場景,同時支持制作在線電子表格和快速搭建數(shù)據(jù)門戶,輕松完成數(shù)據(jù)分析。
最后,分析報表發(fā)布分享。一端配置,多端支持,數(shù)據(jù)需求方隨時隨地查看報表內(nèi)容。報表制作者還可以配置閱覽者的數(shù)據(jù)查看或編輯權(quán)限,不必擔(dān)心看版被誤操作或數(shù)據(jù)權(quán)限無法管理的問題。
三,就是數(shù)據(jù)實現(xiàn)商業(yè)價值。通過數(shù)據(jù)分析和挖掘做到控制風(fēng)險、提升效率,增加收入,發(fā)現(xiàn)新的商業(yè)模式。
二,數(shù)據(jù)響應(yīng)流程長且不統(tǒng)一。需求需要不同角色的多輪溝通、數(shù)據(jù)處理過程無法標準化且技術(shù)人員對數(shù)據(jù)沉淀過少。
三,數(shù)據(jù)本地化嚴重。常規(guī)的數(shù)據(jù)分析我們習(xí)慣用本地的Excel,但是這樣會帶來一個問題,數(shù)據(jù)都存在Excel如果人走了怎么辦,會導(dǎo)致數(shù)據(jù)業(yè)務(wù)從零開始;而且本地化查詢,數(shù)據(jù)安全不可控。
四,專業(yè)人才的緊缺。很多的企業(yè)可能幾百個人,但是分析師只有少數(shù)幾個,基本上都是用來服務(wù)CEO或者是CTO的數(shù)據(jù)分析需求。 很多數(shù)據(jù)同學(xué)根本無法深扎到數(shù)據(jù)分析更深的領(lǐng)域。