麻省理工學院2000年 元月號”科技評論” (Technology Review) 預測:未來會改變世界的十大新興科技中: 資料採礦 (Data Mining) 名列第四。這麼重要的信息,不管你是否為資訊人員,都應該瞭解什麼是資料採礦。
「採礦」的意思很簡單,就是從土裡挖出有價值的礦物。資料採礦就是從「資料」裡挖出有價值的資料。「資料」的觀念由來已久,但什麼是「有價值的資料」?這 牽涉到好幾個層次。資料採礦這個名詞,主要還是因為電腦,尤其是儲存容量與國際網路的發達,這兩件事,讓資料量膨脹的速度不亞於垃圾。其實,資料本身也真 的是人類製造的垃圾,而資料採礦,如同在垃圾裡找黃金。
人類智慧的發展開始於「資料」,沒用的資料如同垃圾,有用的資料被稱為資訊。資料與資訊的差異,就在「傳遞訊息的內容」。例如,「今天」兩個字有意義,而 「天今」兩個字無意義(除非它是一個專有名詞或人名,那另當別論)。不管「今天」或「天今」,這樣的辭都可以被視為「資料」,但只有「今天」可以被視為 「資訊」,而「天今」則因為還沒有被定義,沒有傳達任何信息,不能被當為資訊。「資訊」是有價值的,人類吸收有價值的資訊,累積成為「知識」,進而創造 「智慧」。資料、資訊、知識、智慧這四個層次的進化,讓人類有別於動物。
早期很多很有價值的資訊,都是經過先人的整理記載於書籍,透過教育的方式傳承,雖然可以流傳,但限制頗多,尤其是學習過程,漫長而且負擔重、效率差。電腦 的發達,很多資料被紀錄後,變得容易取得。但也因為容易紀錄的關係,資料量的膨脹速度快到讓人窒息。那麼多的資料擺在眼前,足以淹沒一個人的靈魂。在毫無 頭緒的情況下,打開電腦、連上網路,就如同走進一個超大型的垃圾場。想想看!你在電腦面前能幹什麼?
還好!有搜尋引擎!讓人可以很有效率的找到自己想看的資料。但是,如果你是一個搜尋引擎的愛用者,有沒有發現,越來越難找到自己真正需要的資訊?為什麼? 因為資料量實在太多了!有沒有想過,當你輸入「電影」兩個字時,會有多少網頁包含這兩個字?搜尋引擎如何知道你想查什麼?因此,資料採礦的技術被廣泛的應 用,但大多數人不清楚何謂資料採礦。我們用簡單的方法來解釋,因為太複雜的解說可能對非資訊人員產生困擾。
假設你喜歡音樂,而且是一個尊重版權的CD購買者;你經常向同一個網站購買CD。那麼,你是一個很好的客戶,而且很有消費潛力,販售者應該要主動推薦你新 的CD。但是販售者手上可能有十萬張CD、五十萬個客戶,它怎麼推薦給你最有利、而且不會造成你的困擾?因為CD很多、客戶很多,顯然不是銷售人員來向你 推銷,因為那工程太大了。
對販售者來說,十萬張CD與五十萬個客戶,就是資料,從中找到適當的CD推薦給適當的消費者,最有可能成交。這時候就必須使用一些統計方法,找出最佳組合 創造業績,這就是所謂資料採礦。統計方法有很多種,但在這個例子裡,較適合的方法是交叉分析。用更簡單的方法來說,假設電腦從資料庫中找到另一些人,他們 的消費習慣跟你很像,那麼,那些人「額外」購買的CD,你可能也有興趣。資料採礦的技術,也廣泛應用於犯罪的預防,尤其是保險。保險公司很容易被詐騙,因 此分析詐騙者的各種蛛絲馬跡,將來遇到類似的理賠者,就會特別注意調查。
資料採礦需要大量資料的分析,大多交由電腦負責,電腦則是依照程設人員的邏輯運作。但也有一些資料採礦經由人員手動分析得到結果,很有名的一個案例,是管 理大師Michael Poter的五力分析。他的手下(一群研究員),根據Michael Poter的指示,分析全世界很多個大公司成功的因素,找出共通的因子,因而提出「五力分析模型」。利用這五力分析模型,可以預測一個公司、甚至一個國家 的競爭力。
國外很多利用資料採礦技術,找到令人意外的現象。例如,養貓的人比較不容易死於心臟病。這是統計觀察的結果,但是不是有心臟病的人適合養貓?那又另當別論。
有很多資料的呈現,鬆散而不具規則性,例如每個人的嗜好、性向、飲食習慣、疾病、穿著、睡眠...只要資料樣本夠多,都可以進行分析而產生規則性,這些規 則,不一定是因果關係,但對於進一步的研究提供很好的方向。很多研究人員,都是利用統計分析的方法,對舊有的資料進行採礦,而得到新的結論。
在國際網路上,最多的資料是「辭句」。辭句看來沒有什麼特別,卻隱含很多價值。例如現在流行的「關鍵字廣告」,它可是搜尋引擎公司的金雞母。搜尋引擎公司 如Yahoo!、Google、BaiDu,可以分析最多人查閱的關鍵字。最多人查閱,代表最多人看到,因此設計出關鍵字廣告,利用關鍵字廣告創造收入 (不過,現在很多關鍵字都是捏造的)。在公司或法人機構裡面,也普遍利用辭句分析的方式管理文件。最熱門的「知識管理」更是大量應用辭句的關聯分析。
還有一些更厲害的分析技巧,可以幫人員節省大量時間:決策支援系統。決策支援系統很複雜,但用一個簡單的觀念來說:當你要作一個決策時,需要審閱很多參考 資料,但你不可能有太多時間。因此,利用決策支援系統,輸入有關決策的一群關鍵字,而非一個關鍵字。然後根據這一群關鍵字,找出適合你審閱的文章。
這與搜尋引擎有何不同?搜尋引擎根據你輸入的關鍵字找文章給你;但決策支援系統更複雜,它根據你輸入的一群關鍵字,找出相關文章,利用這些文章建立新的一 群關鍵字,再找出新的文章。經過一些程序,把你想要的文章及關聯文章推薦給你。因為你是要做決策參考,因此這些文章更具有參考價值,因為這些文章,可能包 含你從來沒有注意到、而且可能導致失敗的因素都出現了。
2008/03/30
分享此篇文章: