知識挖掘(Knowledge Discovery in Databases, KDD)是一項(xiàng)旨在從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏規(guī)律和潛在價(jià)值的技術(shù)。這一技術(shù)的發(fā)展源于全球范圍內(nèi)數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增加,人們的需求已經(jīng)不只是簡單的查詢和維護(hù),而是希望能夠?qū)@些數(shù)據(jù)進(jìn)行較高層次的處理和分析以得到關(guān)于數(shù)據(jù)總體特征和對發(fā)展趨勢的預(yù)測。
定義與發(fā)展
背景定義
數(shù)據(jù)是指有關(guān)事實(shí)的集合,記錄和事物有關(guān)的原始信息。模式是一個(gè)用語言來表示的一個(gè)表達(dá)式,它可用來描述數(shù)據(jù)集的某個(gè)子集,所說的知識,是對數(shù)據(jù)包涵的信息更抽象的描述。對大量數(shù)據(jù)進(jìn)行分析的過程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識評價(jià),以及反復(fù)的修改求精;該過程要求是非平凡的,意思是要有一定程度的智能性、自動(dòng)性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個(gè)發(fā)現(xiàn)過程)。有效性是指發(fā)現(xiàn)的模式對于新的數(shù)據(jù)仍保持有一定的可信度。新穎性要求發(fā)現(xiàn)的模式是新的。潛在有用性是指發(fā)現(xiàn)的知識將來有實(shí)際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟(jì)效益。最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,它主要是體現(xiàn)在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性。
起源
20世紀(jì)90年代,伴隨著因特網(wǎng)(Internet)的出現(xiàn)和發(fā)展,實(shí)施知識挖掘必須先了解知識狀態(tài)以及隨之而來的企業(yè)內(nèi)部網(wǎng)(Intranet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(VPN Virtual Privatenetwork)的產(chǎn)生和應(yīng)用,將整個(gè)世界聯(lián)成一個(gè)小小的地球村,人們可以跨越時(shí)空地在網(wǎng)上交換數(shù)據(jù)信息和協(xié)同工作。這樣,展現(xiàn)在人們面前 的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫,而是信息海洋,當(dāng)數(shù)據(jù)量極度增長時(shí),如果沒有有效的方法,由計(jì)算機(jī)及信息技術(shù)來提取有用信息和知識,人們面對信息海洋束手無策。一個(gè)大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù),只有百分之七得到很好應(yīng)用。這樣,相對于“數(shù)據(jù)過?!焙汀靶畔⒈ā保藗冇指械健靶畔⒇毞Α保↖nformation poor)和“數(shù)據(jù)關(guān)在牢籠中”(數(shù)據(jù) in jail),奈斯伯特(John Naisbett)驚呼“We are drowning in information,but starving for knowledge”(人類正被數(shù)據(jù)淹沒,卻饑渴于知識)。面臨無際的數(shù)據(jù),人們需要從數(shù)據(jù)汪洋中來一個(gè)去粗存精、去偽存真的技術(shù)。從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)及其核心技術(shù)便應(yīng)運(yùn)而生了。
過程
知識挖掘(KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個(gè)過程;數(shù)據(jù)開采(DM)是KDD過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,F(xiàn)ayyad、Piatetsky Shapiror和Smyth將KDD過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是 新的、可能有用的和最終可理解的。知識挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。大多數(shù)的研究都集中在知識挖掘算法和應(yīng)用上。需要說明的是,有的學(xué)者認(rèn)為,數(shù)據(jù)開采和知識發(fā)現(xiàn)含義相同,表示成KDD/DM.它是一個(gè)反復(fù)的過程,通常包含多個(gè)相互聯(lián)系的步驟:預(yù)處理、提出假設(shè)、選取算法、提取規(guī)則、評價(jià)和解釋結(jié)果、將模式構(gòu)成知識,最后是應(yīng)用。在實(shí)際,人們往往不嚴(yán)格區(qū)分知識挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),把兩者混淆使用。一般在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則稱為知識挖掘。KDD過程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程。具體包括:學(xué)習(xí)某個(gè)應(yīng)用領(lǐng)域 包括應(yīng)用中的預(yù)先知識和目標(biāo)。建立目標(biāo)數(shù)據(jù)集 選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。數(shù)據(jù)預(yù)處理 去除噪聲或無關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)變化等。數(shù)據(jù)轉(zhuǎn)換 找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。選定知識挖掘功能 決定知識挖掘的目的。選定知識挖掘算法 用KDD過程中的準(zhǔn)則,選擇某個(gè)特定知識挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。知識挖掘 搜索或產(chǎn)生一個(gè)特定的感興趣的模式或一個(gè)特定的數(shù)據(jù)集。⑧解釋:解釋某個(gè)發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個(gè)有用的模式,以使用戶明白。發(fā)現(xiàn)知識 把這些知識結(jié)合到運(yùn)行系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預(yù)先、可信的知識檢查和解決知識中可能的矛盾。
應(yīng)用
分類
市面知識挖掘應(yīng)用方面有著種類繁多的商品工具和軟件,大致可以歸納為下列主要類型:
傳統(tǒng)主觀導(dǎo)向系統(tǒng)
這是針對專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。如基于技術(shù)分析方法對金融市場進(jìn)行分析。采用的方法從簡單的走向分析直到基于高深數(shù)學(xué)基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗(yàn)?zāi)P蜑榍疤帷儆谶@類商品有美國的Metastak,SuperCharts,Candlestick Forecaster和Wall Street Money等。
統(tǒng)計(jì)分析
這類技術(shù)包括相關(guān)分析、回歸分析及因子分析等。一般先由用戶提供假設(shè),再由系統(tǒng)利用數(shù)據(jù)進(jìn)行驗(yàn)證。缺點(diǎn)是需經(jīng)培訓(xùn)后才能使用,同時(shí)在數(shù)據(jù)探索過程中,用戶需要重復(fù)進(jìn)行一系列操作。屬于這類商品有美國的SAS,SPSS和Stargraphis等。由于近年來更先進(jìn)的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計(jì)學(xué)等數(shù)學(xué)的基礎(chǔ)上,一般早已開始用于數(shù)據(jù)分析方面。
神經(jīng)元網(wǎng)絡(luò)技術(shù)
神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計(jì)算(Soft Computing)領(lǐng)域內(nèi)一種重要方法,它是多年來科研人員進(jìn)行人腦神經(jīng)學(xué)習(xí)機(jī)能模擬的成果,已成功地應(yīng)用于各工業(yè)部門。在DM(KDD)的應(yīng)用方面,當(dāng)需要復(fù)雜或不精確數(shù)據(jù)中導(dǎo)出概念和確定走向比較困難時(shí),利用神經(jīng)網(wǎng)絡(luò)技術(shù)特別有效。經(jīng)過訓(xùn)練后的NN可以想像具有某種專門知識的“專家”,因此可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。NN有多種結(jié)構(gòu),但最常用的是多層BP(backpropagation)模型。它已廣泛地應(yīng)用于各種DM(KDD)工具和軟件中。有些是以NN為主導(dǎo)技術(shù),例如俄羅斯的PolyAnalyst,美國的BrainMaker,Neurosell和守望先鋒聯(lián)賽等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點(diǎn)是用它來分析復(fù)雜的系統(tǒng)諸如金融市場,NN就需要復(fù)雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)(不同的紀(jì)錄數(shù))無法滿足訓(xùn)練的需要。另外由受訓(xùn)后的NN所代表的預(yù)測模型的非透明性也是其缺點(diǎn),盡管如此,它還是廣泛而成功地為各種金融應(yīng)用分析系統(tǒng)所采用。
決策樹
決策樹:在知識工程領(lǐng)域,決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解,。這種方法一般限于分類任務(wù)。在系統(tǒng)中采用這種方法的有美國的IDIS,法國的SIPINA,英國的Clementinc和澳大利亞的C5.0,
進(jìn)化式程序設(shè)計(jì)
進(jìn)化式程序設(shè)計(jì)(Evolutionary programming):這種方法的獨(dú)特思路是:系統(tǒng)自動(dòng)生成有關(guān)目標(biāo)變量對其他多種變量依賴關(guān)系的務(wù)種假設(shè),并形成以內(nèi)部編程語言表示的程序。內(nèi)部程序(假設(shè))的產(chǎn)生過程是進(jìn)化式的,類似于遺傳算法過程。當(dāng)系統(tǒng)找到較好地描述依賴關(guān)系的一個(gè)假設(shè)時(shí),就對這程序進(jìn)行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進(jìn)預(yù)測精度的子程序,如此依次進(jìn)行,最后獲得達(dá)到所需精度的最好程序時(shí),由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語言形式轉(zhuǎn)換成易于為人們理解的顯式形式,如數(shù)學(xué)公式,預(yù)測表等。由于采用通用編程語言,這種主法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語言來描述。這種方法的商用產(chǎn)品還只見諸俄羅斯的PolyAnalyst.據(jù)報(bào)導(dǎo),它用于金融到醫(yī)療方面軍的各種應(yīng)用于,能獲得者很好的結(jié)果。
基于事例的推理方法
(CBR—Case based reasoning):這種方法的思路非常簡單,當(dāng)預(yù)測未來情況或進(jìn)行正確決策時(shí),系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問題求解,并獲得好的結(jié)果,其缺點(diǎn)是系統(tǒng)不能生成匯總過去經(jīng)驗(yàn)的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國的Pattern Recognition Workbench和法國的KATE tools,
遺傳算法
遺傳算法(GA—Genetic Algorithms):DA不是GA應(yīng)用的主要領(lǐng)域,它是解決各種組合或優(yōu)化問題的強(qiáng)有力的手段,但它在現(xiàn)代標(biāo)準(zhǔn)儀器表中也用來完成DA任務(wù)。這種方法的不足之處是:這種問題的生成方式使估計(jì)所得解答的統(tǒng)計(jì)意義的任何一種機(jī)會(huì)不再存在。另外一方面,只有專業(yè)人員才能提出染色體選擇的準(zhǔn)則和有效地進(jìn)行問題描述與生成。在系統(tǒng)中包含遺傳算法的有美國的Gene Hunter,
非線性回歸方法
非線性回歸方法:這種方法的基礎(chǔ)是,在預(yù)定的函數(shù)的基礎(chǔ)上,尋找目標(biāo)度量對其它多種變量的依賴關(guān)系。這種方法在金融市場或醫(yī)療診斷的應(yīng)用場合,比較好的提供可信賴的結(jié)果。在俄羅斯的Paly Analyst以及美國的Neuroshell系統(tǒng)中包括了這種技術(shù)。
領(lǐng)域
DM(KDD)工具和軟件已在各個(gè)部門得到很好的應(yīng)用,并收到明顯的效益。金融方面:銀行信用卡和保險(xiǎn)行業(yè),預(yù)測存/貸款趨勢,優(yōu)化存/貸款策略,用DM將市場分成有意義的群組和部門,從而協(xié)助市場經(jīng)理和業(yè)務(wù)執(zhí)行人員更好地集中于有促進(jìn)作用的活動(dòng)和設(shè)計(jì)新的市場運(yùn)動(dòng)。在crm客戶管理系統(tǒng)方面:DM能找出產(chǎn)品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。又如正確時(shí)間銷售(Right 時(shí)間 推銷理論)就是基于顧客生活周期模型來實(shí)施的。在零售業(yè)/市場營銷方面:是知識挖掘技術(shù)應(yīng)用最早也是最重要的領(lǐng)域,DM用于顧客購貨籃的分析可以協(xié)助貨架布置,促銷活動(dòng)時(shí)間,促銷商品組合以及了解滯銷和暢銷商品狀況等商業(yè)活動(dòng)。通過對一種廠家商品在各連鎖店的市場共享分析,客戶統(tǒng)計(jì)以及歷史狀況的分析,可以確定銷售和廣告業(yè)務(wù)的有效性。在過程控制/質(zhì)量監(jiān)督保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用,DM能自動(dòng)發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布,暴露制造和裝配操作過程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問題發(fā)生范圍和采取改正措施。在遠(yuǎn)程通訊部門:基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,確定市場變化模式以指導(dǎo)銷售計(jì)劃。在網(wǎng)絡(luò)容量利用方面,DM能提供對客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對網(wǎng)絡(luò)設(shè)施作出最佳投資決策。化學(xué)/制藥行業(yè):從各種文獻(xiàn)資料中自動(dòng)抽取有關(guān)化學(xué)反應(yīng)的信息,發(fā)現(xiàn)新的有用化學(xué)成分。在遙感領(lǐng)域針對每天從衛(wèi)星上及其它方面來的巨額數(shù)據(jù),對氣象預(yù)報(bào),臭氧層監(jiān)測等能起很大作用。軍事方面:使用DM進(jìn)行軍事信息系統(tǒng)中的目標(biāo)特征提取、態(tài)勢關(guān)聯(lián)規(guī)則挖掘等。總之,DM可廣泛應(yīng)用于銀行金融、零售與批發(fā)、制造、保險(xiǎn)、公共設(shè)施、政府、教育、遠(yuǎn)程通訊、軟件開發(fā)、運(yùn)輸?shù)雀鱾€(gè)企事業(yè)單位及國防科研上。據(jù)報(bào)導(dǎo),DM的投資回報(bào)率有達(dá)400%甚至10倍的事例。
參考資料 >
知識挖掘 .Microsoft .2024-11-05
什么是數(shù)據(jù)挖掘和知識挖掘 | 帆軟數(shù)字化轉(zhuǎn)型知識庫.帆軟 .2024-11-05
知識圖譜(四)--知識挖掘 .知乎專欄.2024-11-05