Big DATA 談了很多,我們今天來聊聊備受矚目的分析資料庫。
這幾年開發Netezza、Greenplum、Vertica與Aster Data等新一代的資料倉儲產品「分析資料庫」(Analytic Database)的新創公司,分別被IBM、EMC、HP與Teradata等企業收購。
這些業界大廠在過去都有其專注的領域,現今他門透過收購與開發新一代資料倉儲產品的新創公司,顯示出進軍在巨量資料時代需求確實與日俱增的資料倉儲市場(特別是高速處理大量資料之資料倉儲產品)的堅定決心。另一方面,過去一直在資料倉儲頗有著墨的IBM與Teradata,則藉由收購取得產品,用以補強現有資料倉儲產品線無法涵蓋的大量資料的高速處理(IBM)與非結構化資料的處理(Teredata)來因應巨量資料時代的來臨。
擺開產品的本身的差異性,分析資料庫大致上具備有也有些特徵:比方說有大規模平行處理(MPP)、無分享架構(SN)、欄位導向(Column-Oriented)、資料的壓縮功能、可在通用硬體設備上運作、對於Hadoop的支援等等。 像這些做為新一代的資料倉儲分析資料庫,主要是為了因應Big DATA之「量」的特性所設計,並透過Hadoop的支援,更強化了因應了「多樣性」(非結構性資料)的處理。
還有一種是串流資料(即時資料)處理,我們先前討論到巨量資料3V當中,在(Velocity)層面上,巨量資料發生的頻率、更新頻率之快,是很難以利用Hadoop(Volume)或是NoSQL(Variety)資料庫與資料分析來獲得解決。
所以,我們需要的是能夠即時處理源源不絕產生的大量串流資料的串流資料處理技術。其實,商業智慧說的一件事:分析並報告「從過去到現在發生了什麼事?」「為什麼發生了這件事?」為主要的目的,也就是「過去及現在的可視化」。 不過,現今的商務環境變化程度令人眼花撩亂,對今後企業的活動來說,除了,「過去及現在的可視化」之外,更重要的是「接下來會發生什麼事」的「未來預測」。
過去,我們常用到一個例子:「尿布與Beer 」, 這是從大量數據資料中發現有異的法則或是樣型 (pattern)之「資料探勘」(Data Mining),這是相當有幫助的方法。
總之,透過Big DATA 的運用,可以有效率地實現商業智慧進化成果起當今急需之未來預測;同時,也可望提升其預測的準確度。BIG DATA a revolution he will transform how we live, work, and think by Viktor Mayer-Schonberger.也如是說。
這樣多的資料,有存放處,也需要加以應用。 商業智慧是1989年,當時任職於美國國際研究暨顧問機構Gartner的分析師Howard Dresner 所提出的概念。當年該君指出,應由資料的終端使用者( End User ) 也就是經營高層或是一般的商務人士等,親子將經手原本100%仰賴資訊系統部門之銷售分析、客戶分析等資料處理業務,以達到迅速決策與提高生產力的目標。
其實,商業智慧在說的一件事:分析並報告「從過去到現在發生了什麼事?」「為什麼發生了這件事?」為主要的目的,也就是「過去及現在的可視化」。 不過,現今的商務環境變化程度令人眼花撩亂,對今後企業的活動來說,除了,「過去及現在的可視化」之外,更重要的是「接下來會發生什麼事」的「未來預測」。

 

老編抖書袋:串流資料處理技術又稱為即時資料處理技術、事件流(event stream)處理技術或是複合事件處理(CEP,Complex event Processing),是完全迥異於關聯式資料庫得資料處理技術。它與關連式資料庫不同,串流資料處理在資料輸入時並不將資料寫在硬碟,而是在記憶體上處理資料,因此可以做到高速處理。
Data Mining,指的是對大量儲存的資料進行分析,找出其中隱藏其中之資料項目間的相互關係與Pattern的手法。找出Pattern的方法不外乎有Data Clustering、神經網路、迴歸分析、決策樹、關聯分析等,很機械式地從大量資料中找出知識與樣型(Pattern)。