由於資訊科技的進步以及網路和行動裝置的快速成長,我們存在於一個數據資料爆炸式增長的時代,資料儲存量從TB級到PB級的增長。企業經年累月所累積下來的大量資料如不加以利用,那就只是單純的佔用空間,無法增進企業的價值。然而以往儲存以及分析資料的方式,也因資料量、屬性與維度急遽增加而變得越來越困難。所以,龐大的數據資料庫的儲存以及分析的技術由此而生。
巨量資料(Big Data)、資料分析(Data Analytics)、資料探勘(Data mining)等一直都是近期非常熱門的字詞,許多的文章或部落格中都會討論到,這些情況都告訴我們,「數據資料」只會變得越來越重要。
巨量資料與資料探勘
先簡短的說明巨量資料以及資料探勘的定義:
巨量資料(Big Data)
巨量資料(Big Data) 稱海量資料、大資料,資料量的規模龐大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。巨量資料幾乎無法使用大多數的資料庫管理系統處理,而必須使用數十、數百甚至數千台伺服器上同時運行。
資料探勘(Data mining)
資料探勘(Data mining),又可稱為數據挖掘、資料挖掘或資料採礦。它是資料庫知識發現(Knowledge-Discovery in Databases:KDD)中的一個步驟。資料探勘是一種資料庫統計資料分析技術,有以下這些不同的意思:
從資料中提取出隱含的過去未知的有價值的潛在資訊
從大量資料或者資料庫中提取有用資訊
資料探勘於 90 年代提出,直至今日要做資料探勘,無論是方法抑或是工具都已經相當成熟且完善。但分析巨量資料的方法尚未成熟,更不用說整合性的工具。許多在單一的機器上很容易做到的事情,在分散式系統上會變得很難很複雜且困難。
過去大多數的資料探勘實際上並不是巨量資料
過去資料探勘的工具與模組,是針對單一機器的環境,而非今日的分散式系統。通過KDnuggets網站調查,資料探勘分析使用平均約1~10GB的資料大小,與動輒資料量超過TB等級的巨量資料差異非常的大。故資料探勘以往所使用的只是「大」資料,並非「巨量資料(Big Data)」。
現今多數的巨量資料並沒有使用資料探勘
谷歌擁有巨量資料,以及歐洲核子研究中心也有巨量資料。但大多數人可能不知道,巨量資料開始保存是需要1000以上台計算機。
但大部分巨量資料的資料探勘工具在做的並不是真正的資料探勘。它所做的只是根據你所提出的需求,讀取所有數據並篩選提取出真正的信息,變換並分析它,因為選擇,提取和轉換後,通常它已經不是「巨量資料」了。

 

如今巨量資料已經是一個重要且常被提及的主題,而企業的領先優勢差別就在於資料探勘預測模組演算法能力的高低。在未來如何將資料探勘的技術有效的使用在巨量資料中,可快速的萃取出未知且有價值的潛在資訊進而找出企業趨勢、創造新的商機,會是未來企業競爭中一項重要的優勢與目標。

相 關 產 品

智慧醫療智慧醫療

09 Oct, 2020

BU4美編專用 AI應用
Read More
智慧教室智慧教室

16 Oct, 2020

BU4美編專用 AI應用
Read More
工廠設備預知保養工廠設備預知保養

17 Sep, 2020

BU4美編專用 AI應用
Read More
生產製程優化生產製程優化

17 Sep, 2020

BU4美編專用 AI應用
Read More