Data Mining是近年在資料庫應用領域中相當熱門的議題。
所謂資料採礦通常指在資料庫中,是利用各種分析方法與技術,對過去累積的大量的歷史資料 進行分析、歸納與整合等工作,以萃取出有用的資訊,找出有意義且使用者因故所需要採樣的樣式,提供決策者在進行決策時之參考依據。
隨著資訊科技的進步,電腦與網際網路技術日新月異,雲端運算成為企業資訊應用的發展趨勢。資訊蒐集方式的改變造成巨量資料的時代來臨。資訊暴漲,對於大量資料該如何分析才是課題。以往使用者只能提升硬體設備的等級,以應付分析資料時的所需付出的時間成本。但,雲端科技的發展,人們不再需要為了提高分析的效率,而去追逐硬體、軟體設備的更新。企業以往偏向將資料庫建立於自身部門且使用單機作業方式,但長時間的資料儲存與分析會耗費大量的資料存儲空間及計算資源。雲端運算使資訊處理工作轉至網際網路上,將可應用的軟體和資料都放置於網際網路上,讓使用者可以不論時間、地點透過任何可連上網際網路的設備,取得想要的資料,甚至分析。除了可節省一般電腦運算時間外,也可降低企業或個人的運算成本,而且雲端運算也提供用多少付多少的概念,大大的降低使用者所需付出的成本,也提高了方便性。
在雲端運算的基本概念在生活中經常可見,例如使用智慧型手機、個人電腦等任何一個可以連上網際網路的行動裝置,可以連上網際網路郵件系統進行收發信件的動作。網際網路郵件與處理的工作都是放置於不知身在何處的伺服器主機,但僅需連上網際網路就可以使用。換句話說,連上網際網路即可使用遠端伺服器提供的服務就是雲端運算的一種型態。另一個雲端運算的基本概念是資料處理上的改變,在進入資料處理時,將大量的運算作業拆解為千百個較小塊的作業,並交給遠端或多台的伺服器同時進行運算。將資料量透過拆解成小量資料運算的想法,讓網路服務提供者可以在數秒或極短時間之內,處理出數以萬計的資訊,藉此提供和超級電腦(Super Computer)一樣強大效能的網際網路服務,以符合不同且大量使用者的需求。簡單來說,其實使用者不再需要了解「雲端」中基礎設施的細節,不必具有相應的專業知識,只須關注自己真正需要什麼樣的資源以及如何透過網路來得到相應的服務。運用雲端運算的企業Google指出:「未來的資料都要讓所有人透過網路即可獲得,而雲端運算的概念,便是為了因應此情況而發展。」
隨著資料採礦的逐漸成熟,以資料採礦為核心的商業智慧( BI ) 已經成為IT和其他行業中的必爭之地。 雲端運算可以實現使用端通過線上上傳資料或購買資料, 通過雲資料倉庫服務,進行資料倉庫建模和資料抽取,線上支付使用資料採礦工具和商業智慧相關分析處理軟體。資料採礦和商業智慧的運用原理相似,均以資料提供資訊、產生知識,再由知識累積智慧,而雲端運算可以使這個過程在網際網路上得以實現,也就是說端運算可以提供基於SaaS的知識與智慧分析的服務(Information & Intelligence as a Service),簡稱IIaaS,它就是SaaS的延伸。
統計與資訊結合在一起就更知道統計的重要了。事實上,資訊協助統計大量且快速的運算,讓統計的功能發揮更寬更廣。業界就有很多先進廠商提供了企業所需要的資料分析與運用的Application. (待續)