「尿布、啤酒、星期四」這三個名詞會讓人聯想到什麼?
答案是:沃爾瑪(Wal-Mart).
世界最大的零售商沃爾瑪(Wal-Mart)的分析人員,十分擅長「購物籃分析(Market Basket Analysis)」,而這些分析人員,在數千筆交易的資料當中,發現一件有趣的事,那就是每個禮拜四,尿布和啤酒一起購買的情形特別多,後來經他們深入調查後,這才知道美國婦女們通常會在星期四時,提醒先生在下班後,要順路去幫孩子買尿布,而40%的先生在拿了尿布之後,會隨手拎兩罐啤酒放在購物籃中,以度過悠閒的小週末。因此,沃爾瑪(Wal-Mart),就乾脆於各賣場中,把啤酒和尿布擺在一起,結果尿布和啤酒的銷售量,雙雙都成長三成以上!
這樣的「購物籃分析(Market Basket Analysis)」,普遍的存在於一般實體店面(或購物中心)以及網路世界的電子商務中。而「尿布配啤酒」的規則,也成了經典的資料挖掘(Data Mining),並讓挖掘的資訊變成黃金的實例,經常被用來說明在最基礎且直觀的關聯法則(Association rule)演算法。
然而,大型量販店是否可像早期巷口的雜貨店,在顧客走到店門口時,就知道他來買米時,順便買家裡廚房(鹽、糖、蛋、香菇)或其他所欠缺的機率有多少?其實,現今有許多大型量販店的行銷策略,已經開始從瞭解客戶做起,並透過交叉銷售的方式,提供折扣、優惠等多元的購物訊息,並適時地學習與調整預測的方向,以提高顧客忠誠度與購買回購率.
這些年來,不論是國內或國外,Data mining的實例非常的多,例如,在台灣,警政署刑事局就曾在二OO三年年初,透過建置完成的「刑案知識庫」,來運用與整合資料與資訊技術,將警政署、司法院、法務部…機關之判決、執行、起訴及移送…等前科資料與相片之刑案資料,以及在監所、同囚會客、幫派、通緝、流氓、典當、出入境、車籍、地緣關係、犯罪手法、嫌疑犯與共犯資料、性別、偏好、曾辦過的通聯紀錄…等上億筆的資料,供刑事警方於案發後,透過全文檢索(Full Text Information Retrieval)、跨部門資料整合…等,從所蒐集的龐大資料中,找尋有用的隱含特徵(Pattern),另外,再透過Data Mining,資訊整合技術,提供警方辦案的更多線索與關聯性。
 
Data mining究竟是什麼?它的技術有哪些?
Data mining通常會翻譯為:資料探勘、資料採礦、數據挖掘。意思是說從資料的礦場中,挖出看不見,但卻價值連城的礦產。也就是從無意義的資料(Data)中,萃取出有意義的資訊(Information).其技術主要是從海量資料(Big Data)中,找尋不明顯、未知、可能有用的隱含特徵(Pattern)與關聯(Relationship).
簡單地說,Data mining技術,就是看懂數據資料,並觀察到數據背後所代表的另一層意義,而Data Mining整體流程可分為以下五大步驟:
1.選取資料(Data Selection)
2.資料前處理(Data Preprocess)
3.資料轉換(Date Transfer)
4.資料探勘(Data Mining)
5.評估與解釋結果(Interpretation and Evaluation)
 
Data Mining技術有:
1.分群法(Clustering):對比資料找出相近資料模型,例如,臉部辨識的影像、圖形資料辨識.
2.關聯法則(Association Rules):連結分析資料間的關聯,找出頻率較高的項目間之關聯性,例如,啤酒與星期幾買尿布.
3.序列樣式(Sequential Patterns):相似於關聯法則,但加入時間因素的考量,以發掘項目集間發生的先後順序之關聯性.
4.分類法(Classification):依據已知的資料及其類別屬性來建立資料的分類模型,而模型的建立,可以讓我們了解屬於各種類別屬性的資料,具備哪些特徵,同時也可以用來預測新進資料的類別屬性。
另外,有許多醫療應用Data mining的案例,例如:使用Data Mining中的決策樹(Decision Trees)演算法來預測老人跌倒之風險,以及利用Data Mining來預測與分析醫生用藥方式與病情演變之關聯.
依據衛生署2010年統計資料,慢性腎臟疾病為國人十大死因之一,而台灣末期腎臟病發生率及盛行率也都高居全球第一名,平均一位腎友,一年會花費在醫療支出的費用上高達約六十萬元,是一般人的卅倍.因此,在某醫療機構的案例中,使用Data Mining中的決策樹與類神經網路演算法,來探討末期腎臟衰竭病人血液透析的檢驗數據,並與住院發生率間的關聯進行實證分析,以提供醫護人員提前監控、臨床預測、以及建議血液透析患者之住院評估,進而降低病人住院次數,提昇病人生活品質,減少醫療浪費。
總之,無論是企業、政府或是機關團體,運用資料挖掘(Data Mining)技術,挖出看不見,但卻價值不斐的寶貴資訊,已經是想提昇競爭力,必做的功課,就像企業如能利用資料挖掘(Data Mining),掌握更多有利於企業的資源,進而挖掘出企業的商業智慧與核心關鍵,便能進一步創造出企業的競爭優勢.