由於資訊科技的進步以及網路和行動裝置的快速成長,我們存在於一個數據資料爆炸式增長的時代,資料儲存量從TB級到PB級的增長。企業經年累月所累積下來的大量資料如不加以利用,那就只是單純的佔用空間,無法增進企業的價值。然而以往儲存以及分析資料的方式,也因資料量、屬性與維度急遽增加而變得越來越困難。所以,龐大的數據資料庫的儲存以及分析的技術由此而生。
巨量資料(Big Data)、資料分析(Data Analytics)、資料探勘(Data mining)等一直都是近期非常熱門的字詞,許多的文章或部落格中都會討論到,這些情況都告訴我們,「數據資料」只會變得越來越重要。
巨量資料與資料探勘
先簡短的說明巨量資料以及資料探勘的定義:
巨量資料(Big Data)
巨量資料(Big Data) 稱海量資料、大資料,資料量的規模龐大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。巨量資料幾乎無法使用大多數的資料庫管理系統處理,而必須使用數十、數百甚至數千台伺服器上同時運行。
資料探勘(Data mining)
資料探勘(Data mining),又可稱為數據挖掘、資料挖掘或資料採礦。它是資料庫知識發現(Knowledge-Discovery in Databases:KDD)中的一個步驟。資料探勘是一種資料庫統計資料分析技術,有以下這些不同的意思:
從資料中提取出隱含的過去未知的有價值的潛在資訊
從大量資料或者資料庫中提取有用資訊
資料探勘於 90 年代提出,直至今日要做資料探勘,無論是方法抑或是工具都已經相當成熟且完善。但分析巨量資料的方法尚未成熟,更不用說整合性的工具。許多在單一的機器上很容易做到的事情,在分散式系統上會變得很難很複雜且困難。
過去大多數的資料探勘實際上並不是巨量資料
過去資料探勘的工具與模組,是針對單一機器的環境,而非今日的分散式系統。通過KDnuggets網站調查,資料探勘分析使用平均約1~10GB的資料大小,與動輒資料量超過TB等級的巨量資料差異非常的大。故資料探勘以往所使用的只是「大」資料,並非「巨量資料(Big Data)」。
現今多數的巨量資料並沒有使用資料探勘
谷歌擁有巨量資料,以及歐洲核子研究中心也有巨量資料。但大多數人可能不知道,巨量資料開始保存是需要1000以上台計算機。
但大部分巨量資料的資料探勘工具在做的並不是真正的資料探勘。它所做的只是根據你所提出的需求,讀取所有數據並篩選提取出真正的信息,變換並分析它,因為選擇,提取和轉換後,通常它已經不是「巨量資料」了。

 

如今巨量資料已經是一個重要且常被提及的主題,而企業的領先優勢差別就在於資料探勘預測模組演算法能力的高低。在未來如何將資料探勘的技術有效的使用在巨量資料中,可快速的萃取出未知且有價值的潛在資訊進而找出企業趨勢、創造新的商機,會是未來企業競爭中一項重要的優勢與目標。

相 關 產 品