Hadoop與NoSQL 資料庫之所以如此備受矚目,原因是在於過去的資料管理環境不敷進行以非結構化資料為主知Big DATA的處理。
今天所使用的資料儲存與處平台,是以ETL(Extract Transform / Load) 的工具從CRM與ERP等系統萃取的資料後,加工為易於使用的型態,再匯入專門進行資料分析的資料倉儲(Data Warehouse )或RDBMS資料庫。通常,這些作業每日或每週等固定週期進行處理。
此外,為了使隸屬於營運管理企劃等部門的商業分析師能夠利用儲存在資料倉儲且經過正規化的資料製作固地格式的報告,並使經營管理高層能夠立即進行業績管理與確認目標達成度,便建構了將多數的圖表整合併表示在同一畫面上的DashBoard。
在處理一定規模上的資料情況,除資料儲存之外,一般而言這一連串的作業過程也會使用SAP Business Object 或是 IBM Cognos、Oracle 的BI等等的商業智慧工具來處理。
不過,在這樣的現有平台要來處理3V特性的巨量資料是有一定的困難度的。就算有辦法處理,也很難期待在效能方面會有足夠的表現。
First,隨著資料的增加,加諸於資料倉儲的負擔也增大,導致資料匯入時間與查詢成效的惡化(以前在Unix時代開機可以先沖一杯咖啡,現在可能會等到喝完了)。此外,當今企業所管理的CRM、ERP以及會計之客戶與銷售資料等結構化資料,資料處理平台的設計並非以來自社群媒體或感測器網路非結構化資料為前提。因此,要即時分析這些每分每秒產生的資料,並從中萃取出有意義得洞見便顯得相當困難。這麼一來,便需要徹底審視資料儲存與處理平台,以因應巨量資料的時代來臨。
所以,當今的大責就是Hadoop 與 NoSQL資料庫了。

 

讓老編抖書袋:上一期我們有提到O2O,在行銷的世界裡,O2O (Online to Offline),意即在線與離線的融合;這漸漸成為熱門的關鍵字。所謂 O2O,網路上的資訊(online)影響真實世界(Offline)消費行為的概念。比方說,老編會在網路上有考慮購買某項產品時,事先在評鑑網站上查看其價格與口碑,然後,老編在實體商店購買產品的行為。(這不是機車…貨比三家)。
在O2O的領域,網路上是何種的資訊將顧客帶往實體商店並購買產品的動線分析,也就是互動資料的分析,您不能不知的大趨勢。