必威电竞|足球世界杯竞猜平台

數據挖掘
來源:互聯網

數據挖掘(英文:Data mining)又稱數據勘測、數據采礦,是指從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含的、事先未知的、但又潛在有用的信息和知識的過程。它利用一種或多種計算機學習技術,能夠自動分析數據庫中的數據并提取知識。

數據挖掘一詞起源于數據庫中的知識發現。1989年8月,在美國底特律召開的第11屆國際人工智能聯合會議上首次提出了知識發現KDD(Knowledge Discovery in Database)的概念。1995年,在加拿大召開的第一屆知識發現和數據挖掘國際學術會議上,數據挖掘一詞開始流傳開來。1997年,亞太地區召開一年一度的數據挖掘會議,標志著數據挖掘進入了發展階段。1998年成立數據庫中的知識發現專業組。

數據挖掘可以針對任何類型的數據庫進行,包括傳統的關系數據庫、文本數據庫、Web數據庫、數據倉庫、多媒體數據、空間數據、時序數據等,發現的知識可以用于信息管理、查詢優化、決策支持及數據自身的維護等。基于以上特點,數據挖掘在商業領域、科學研究以及教育領域等都被廣泛應用。

產生背景

全球信息技術的迅速發展和互聯網的快速普及造成了數據過量和信息爆炸,僅以數據庫系統的錄入、查詢、統計等功能,無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢,更缺乏挖掘數據背后隱藏知識的手段。要從海量數據中發現有價值的信息,需要功能強大和通用的工具,把這些數據轉換成有組織的知識,數據挖掘正是實現這一功能的有效手段。數據挖掘又譯為資料勘測、數據采礦,是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事先不知道的但又潛在有用的信息和知識的過程。

數據挖掘一詞起源于數據庫中的知識發現KDD(Knowledge Discovery in Database)。1989年8月,在美國底特律召開的第11屆國際人工智能聯合會議上首次提出了KDD的概念,指的是從數據庫中挖掘有效的、新穎的、潛在有用的并最終能被人們所理解的信息和知識的復雜過程。1995年,在加拿大召開的第一屆知識發現和數據挖掘國際學術會議上,數據挖掘一詞開始流傳開來。1997年,亞太地區數據挖掘會議(PAKDD)順利召開,標志著亞太地區數據挖掘研究進入了發展時期,此后PAKDD每年召開一次。1998年,數據挖掘界成立了知識發現與數據挖掘國際學術會議組織,即美國計算機學會下的數據庫中的知識發現專業組。同年,有三十多家軟件公司展示了他們的數據挖掘軟件產品。

數據挖掘就是利用一種或多種計算機學習技術,自動分析數據庫中的數據并提取知識的處理過程,或它是一個利用各種分析方法和工具在海量數據中建立模型和發現數據間關系的過程,這些模型和關系可以用來做出決策或預測。

過程

數據挖掘有問題定義、數據提取、數據預處理、知識提取和評估五個處理過程。可以總結為三個階段:數據預處理階段、數據挖掘階段、結果的評估與表示階段。

數據預處理階段

數據預處理階段主要包括數據清理、數據集成、數據選擇和數據變換等步驟。數據處理就是對不完整、不明確、大量的并且具有很大隨機性的實際應用數據進行清洗,包括清除噪聲、推導計算填補缺省和不完整數據、修正異常數據和清除重復數據。數據集成就是把來源不同、格式不同、特點和性質也不相同的數據進行物理上或邏輯上的有機集中。數據選擇是根據任務目標,從集成好的、包含大量數據的數據集合中確定關注的目標數據,將其抽取出來,得到具體挖掘任務的相應操作對象。數據變換就是根據知識發現的要求將數據進行再處理,將數據轉換成合適被挖掘的數據形式,進行數據降維,找出真正有用的特征或變量表示數據。

數據挖掘階段

數據挖掘階段需要完成三項任務,分別是:確定數據挖掘的目標,根據用戶需求發現的知識類型,為選擇合適數據挖掘算法提供依據;選擇算法,根據數據本身的特點和預期實現的功能,選擇對應的算法和模型,從數據中提取隱含的模型,可選方法包括回歸分析、分類、聚類、決策樹、神經網絡和Web挖掘等,它們各自側重于以不同的角度對數進行分析和挖掘;數據挖掘,使用選擇的算法,從數據中提取用戶感興趣的知識。

結果的評估與表示階段

該階段對數據挖掘的產生的知識進行評估,去除冗余的和無用的知識。對挖掘出的知識進行解釋,將其轉換成能夠最終被用戶理解的知識,發現的知識應當用高級語言、可視化表示形式或其他表示形式表示,使知識易于理解,能夠直接被人使用,這要求系統采用有表達能力的知識表示技術,如樹、圖、圖標、交叉表、矩陣或曲線。

方法和功能

挖掘方法

數據挖掘可以針對任何類型的數據庫進行,既包括傳統的關系數據庫,也包括非數據庫組織的文本數據庫、Web數據庫以及復雜的多媒體數據庫等。根據關聯規則,又能實現時序數據挖掘、空間序列數據挖掘和不確定數據挖掘等。

空間數據挖掘

空間數據是指從地理信息系統、遙感系統、多媒體系統、醫學及衛星圖像等各種應用系統中收集的、遠超過人類大腦分析能力的數據。空間數據挖掘分為描述性、解釋型和預測型,能夠實現將空間現象分布特征化、處理空間關系、預測另外的屬性等。

時序數據挖掘

時序數據是與時間有關的一系列數據,可以進一步分為時間相關數據和序列相關數據,時間相關數據與數據產生的絕對時間有關,如銀行賬務、股票價格、設備運行日志等。序列相關數據與數據產生的絕對時間相關不大,注重數據間的先后次序,典型的序列相關數據有生物信息中的蛋白質、傳感器輸出數據和DNA序列數據等。

不確定數據挖掘

實際應用領域中,由于測量儀器的局限性,測量數據不準確以及不確定是不可避免的,數據的不確定性包括存在的不確定性和值的不確定性兩種情況。一些算法的擴展和技術方面的突破使得不確定數據挖掘得以應用。

數據挖掘所能發現的知識有:反映同類事物共同性質的廣義型知識、反映事物各方面特征的特征型知識、反映不同事物之間屬性差別的差異性知識、反映事物之間依賴或關聯的關聯性知識、根據歷史和當前的數據推測未來數據的預測性知識、揭示事物偏離常規的異常現象的偏離型知識等。發現知識的方法可以是數字的、非數字的,也可以是歸納的。最終被發現的知識可以用于信息管理、查詢優化、決策支持及數據自身的維護等。

分類技術

傳統數據分類方法

基于關聯規則

關聯規則是在事務數據庫中,挖掘出不同項集的關聯關系。如在事務數據庫D中尋找那些不同項集(如A和B兩個商品)同時出現的概率(P(AUB))大于最小支持度,且在包含一個項集(如A)的所在事務中,同時也包含一個項集(如B)的條件概率(P(B|A))大于最小置信度時,則存在關聯規則(即A大于等于B)。

K近鄰(KNN)分類

KNN方法基于類比學習,是一種非參數的分類技術,它在基于統計的模式識別中非常有效,并對未知和非正態分布可取得較高的分類準確率,具有魯棒性、概念清晰等優點。基本原理為:KNN分類算法搜索樣本空間,計算未知類別向量與樣本集中每個向量的相似度值,在樣本集中找出K個最相似的文本向量,分類結果為相似樣本中最多的一類。

決策樹分類算法

決策樹是由一系列判斷(包括條件和結論)組成的一種樹形結構,是實例屬性值約束的合取式。在樹形結構中,每個節點表示對一個屬性值的測試,分支表示測試的結果,而樹的葉節點表示類別,從決策樹的根節點到葉節點的一條路徑對應著一條合取規則,整個決策樹的產生是一個自頂向下的方式。首先通過對一批訓練實例集的訓練生成決策樹,然后利用決策樹,根據屬性的取值對一個未知實例集進行分類。

貝葉斯分類算法

貝葉斯分類算法是統計學分類方法,利用概率統計進行分類的算法,利用Bayes定理來預測一個未知類別的樣本的可能屬性,可選擇其可能性最大的類別作為樣本的類別。但貝葉斯定理假設一個屬性對給定類的影響獨立于其他屬性,因此會影響其分類的準確性。其改進算法TAN算法通過發現屬性對之間的依賴關系來降低貝葉斯算法中任意屬性之間獨立的假設,其方法是:用結點表示屬性,用有向邊表示屬性之間的依賴關系,把類別屬性作為根節點,其余所有屬性都作為它的子節點。

基于軟計算的分類??

粗糙集

粗糙集理論是一種刻畫不完整性和不確定性的數學工具,能有效分析和處理不精確、不一致和不完整等各種不完備信息,并從中發現隱含的知識,揭示潛在的規律。它的基本思想是基于等價關系的粒化與近似的數據分析方法,將數據庫這樣的元祖數據根據屬性不同的屬性值分成相應的子集,然后進行集合的上、下近似運算,即上近似映射和下近似算子,以生成各子類的判定規則。

遺傳算法

遺傳算法在解決多峰值、非線性、全局優化等高復雜度問題時具備獨特優勢,它是以基于進化論原理發展起來的高效隨機搜索與優化方式。它以適應值函數為依據,通過對群體、個體施加遺傳操作來實現群體內個體結構的優化重組,在全局范圍內逼近最優解。它的基本思想是把數據分類問題看成在搜索問題,數據庫看做是搜索空間,分類算法看做是搜索策略,在數據庫中進行搜索時,對隨機產生的一組分類規則進行進化,知道數據庫能被該組分類規則覆蓋,從而挖掘出隱含在數據庫中的分類規則。

神經網絡

神經網絡是通過對人腦的基本單元——神經元的建模和連接,探索模擬人腦神經系統功能的模型。在神經網絡中,知識與信息的存儲表現為神經元之間分布式的物理聯系,它分散地表示和存儲于整個網絡內的各神經元及其連線上。每個神經元及其連線只表示一部分信息,而不是一個完整具體概念。神經網絡具有很強的不確定性信息處理能力,即使輸入的信息不完全、不準確或模糊不清,神經網絡仍然能夠通過聯想思維,展示存在于記憶中數據的完整圖像。

聚類技術

聚類技術就是按照某個特定標準(如距離準則)把一個數據集分割成不同的類或簇,使得同一個簇內數據對象的相似性盡可能大,同時不在一個簇中的數據對象的差異性也盡可能大,即聚類后同一類的數據盡可能聚集到一起,不同類的數據盡量分離。

異常值檢測

異常值檢測的目的是發現與大部分對象不同的對象、通常將異常對象稱作離群點,異常值檢測稱為偏差檢測,異常對象的屬性值往往模擬關系偏離期望或常見的屬性值。異常值檢測可以看作兩個子問題:在給定的數據集合中定義什么樣的數據可以被認為是不一致的;找到一個有效的方法來挖掘這樣的異常點。

標準

標準分類

數據挖掘標準可分為四大類,分別是:過程標準,定義數據挖掘模型產生、使用和部署的過程標準;接口標準,為方便客戶應用程序調用,針對具體編程語言和系統提供的數據挖掘API接口;語言標準,針對數據挖掘問題定義,用于問題描述、知識發現和表達的數據挖掘語言標準;網絡標準,用于解決網絡上分布式和遠程數據挖掘問題的數據挖掘Web標準。

通用標準

跨行業數據挖掘

CRISP-DM(即跨行業數據挖掘標準流程)是一種業界認可的用于指導數據挖掘工作的方法,作為一種方法,它包含項目中各個典型階段的說明、每個階段所包含的任務以及這些任務之間的關系的說明;作為一種流程模型,它概述了數據挖掘的生命周期,生命周期模型由六個階段組成,階段之間并不一定要嚴格遵守順序。

Java數據挖掘標準

Oracle、Hyperion、IBM和SUN Microsystems等組織聯合提出Java數據庫挖掘標準JSR-073(Java Specification Requests),又稱JDM,主要概念領域是:設置、模型、轉換和結果。JDM是為支持數據挖掘應用而開發的Java接口,支持數據和元數據的創建、存儲、訪問和維護以及數據挖掘模型的創建和使用。JDM主要有應用程序編程接口、數據挖掘引擎、元數據倉庫三個結構組件,可以與ISO的SQL/MM,以及DMG的PML等標準配合使用。利用JDM,數據挖掘服務的實現者能夠將單一、標準的AIP接口顯露于前端的應用程序開發者或者是Java2平臺組件的開發者。

JSR-247更新了JDM規范,即JDM 2.0。JDM 2.0 擴展了 JDM,為新的挖掘函數、挖掘算法和相應的Web服務規范提供了所需的功能。JDM 2.0的功能如下:

應用領域

數據挖掘技術能夠實現數據信息收集、系統屬性劃分和層次管理分析等,在醫學領域、商業領域、科學領域以及農業領域都被廣泛應用。

在醫學領域的應用

數據挖掘技術可以抽取大量臨床數據中的趨勢及規律性,輔助醫務人員快速準確地診斷、確定最優的治療方案。在生物醫學中,它可以在脫氧核糖核酸序列間進行相似搜索和比較、關聯分析識別同時出現的基因序列、陸行分析發現不同的治病基因。在一般醫學中,數據挖掘技術大大提高了醫務工作者的工作效率,主要應用于對疾病的輔助診斷、相關因素分析及預測等。它還能利用決策樹和網絡對醫學圖像進行特征分析,找到能夠對圖像分類的圖像特征臨界值。數據挖掘還可以用來開發藥物,確定藥效基因,縮短新藥的研究開發周期,降低開發費用。

在商業領域的應用

商業應用數據挖掘最廣闊的應用,具體應用在商品零售業、商業保險業、商業金融業以及通信業等等。通過分析聚類算法挖掘模型所發現的模式得出對顧客分類的結果,為零售業銷售公司管理層的營銷策略提供了依據。應用數據挖掘技術,基于用戶行為分析的精準化營銷在推銷 通信增值業務的商業活動中可以幫助通信行業運營商把運營成本逐漸地降低、增強在通信市場上的競爭力。數據挖掘技術基于模型,能夠有效分析金融市場波動的主要因素,據此建立相應的預測模型,避免市場波動帶來的不利影響,為后續投資及相關決策提供合理科學的基礎。

在科學領域的應用

科研機構進行科學研究時,需要分析大量復雜的實驗調查數據,數據挖掘技術作為一種具有高層次的智能化的自動分析工具,與科學研究領域的數據分析工具需求相一致,促進了科學研究領域的應用和發展。

在農業領域的應用

數據挖掘通過各種參數數據進行處理監測參數值是否正確,為農業提供氣象信息服務和可靠的科學依據。在農業市場信息中,數據挖掘技術以市場監控信息為數據庫,以國際貿易倉庫數據為數據源,從而提供可信信息。通過關聯分析和統計技術可用來預測產品的價格走勢;聚類分析可簡化問題,使得數據更簡單;孤立點分析可以找出罕見事件、災情、金融事件及進出口方面存在的問題,對農業市場有很強的指導性。

發展趨勢

多媒體數據發展

多媒體數據是指文字、圖片以及音視頻等數據,其在計算機網絡領域有著非常廣泛的應用。相對于傳統的數據信息,多媒體數據具有更高的復雜性和數據類型,在實際處理過程中有更高的難度。對多媒體數據進行有效的挖掘能夠進一步擴大數據挖掘技術的應用范圍,獲取更多的價值數據。

算法的進一步優化

算法是數據挖掘技術中的關鍵,算法的科學性與合理性直接關系到數據挖掘技術的應用水平。對算法進行優化和完善,加強算法的創新,能夠提升數據挖掘技術的效率和準確性,擴大數據挖掘技術的應用范圍。

與其他系統的集成

人們對數據處理需求的不斷提升,僅僅依靠數據挖掘技術難以實現預期的數據處理結果,實現數據挖掘技術與其它計算機系統的集成和配合,能夠更好的滿足對數據處理的需求。同時,要盡可能的保障數據挖掘技術應用的靈活性,才能夠將數據挖掘技術的作用充分發揮。

成功案例

改善客戶信用評分

數據挖掘幫助Credilogros Cía Financiera S.A.公司改善客戶信用評分。Credilogros Cía Financiera S.A.公司是阿根廷的一家信貸公司,該公司于2006年被gST Group收購,gST公司想要尋找一種新系統來使該公司能更好地管理客戶相關的潛在風險,以便將承擔的風險最小化。經過評估多個產品后,Gredilogros公司選擇了SPSS Inc.的數據挖掘軟件PASW Modeler來整合核心信息系統。開發出了用于具有信貸歷史的客戶和用于新客戶的兩個評分模型。

通過實現PASW Modeler,Gredilogors將用于處理信用數據和提供最終信用評分的時間縮短到了8秒以內,使得該組織能夠迅速批準或拒絕信貸請求。該決策引擎還使得Gredilogros能夠最小化每個客戶必須提供的身份證明文檔。

實時跟蹤貨箱溫度

數據挖掘幫助DHL實時跟蹤貨箱溫度。DHL是國際快遞和物流行業的全球市場領先者,一開始它提供快遞、水陸空三路運輸等,但是后來美國FDA要求運輸過程中藥品裝運的溫度要達標,自此DHL的醫藥客戶強烈要求公司能夠給出一個更加可靠實惠的方案。這就要求DHL在遞送的各個階段都要實時跟蹤集裝箱的溫度。

因此,DHL的母公司德國郵政世界網(DPWN)通過技術與創新管理(TIM)集團明確擬定了一個計劃,準備采用RFID技術在不同時間點全程跟蹤裝運的溫度。通過IBM全球企業咨詢服務部繪制決定服務的關鍵功能參數的流程框架。這個方案使醫藥客戶對運送過程中出現的裝運問題提前做出相應,并增強了運送可靠性。

幫助理解氣候變化

佐治亞理工學院地球與大氣科學學院教授Annalisa Bracco說,隨著全球數以百萬計的數據分布在全球范圍內,目前的模型過于依賴人類的專業知識來理解產出。于是,佐治亞技術團隊開發了一種新的方法,這種方法打破了其他模式評估和分析算法的典型瓶頸。從比傳統工具更獨立的氣候數據集中數據挖掘,將數據集的共性與用戶的專用知識相結合,從而使科學家能夠信任數據,并獲得更可靠、更透明的結果。

相關爭議

隱私問題

雖然使用數據挖掘工具直接暴露準確的機密數據的可能性很小,但探索性的數據挖掘工具可能會關聯或者泄露機密的、敏感的個人信息。數據挖掘者可能會侵犯公民的個人數據隱私權,數據挖掘在數據收集階段沒有取得數據主體的同意并說明數據的用途、使用范圍的前提下獲取了公民的個人數據,例如:目前的網站大都配有監視用戶上網習慣的 軟件,甚至在未經授權的情況下就制作了用戶的檔案,記錄用戶的電子郵件地址和網上購物習慣。挖掘者非法公開個人數據、不當或錯誤分析個人數據和超常使用個人數據等都侵犯了個人的隱私。

倫理問題

隨著大數據時代的來臨,數據成了一種獨立的客觀存在,成為物質世界、精神世界之外的一種新的信息世界。數據還成為了一種土地、資本、能源等傳統資源之外的一種新資源,也成為了煤炭、石油之后的新寶藏。因此,數據的所有權、知情權、采集權、使用權等,成為了公民在大數據時代的新權益,這些權益的濫用會引發新的倫理危機。從事數據挖掘活動的工作人員需要具備良好的職業道德觀。把工作中用戶的個人隱私信息當做金錢交易的籌碼或窺探他人隱私的從業人員不符合職業道德。

相關法律

數據挖掘方式以間接挖掘與科技方式挖掘為主,中國《中華人民共和國網絡安全法》《中華人民共和國消費者權益保護法》《電信和互聯網用戶個人信息保護規定》《網絡交易管理辦法》等腹部法律與規章都規定網絡主體在收集用戶信息時相用戶明示、經用戶同意、不得濫用用戶個人信息等相關規定。此外,多國將挖掘文本與數據行為納入著作權合理適用范圍:英國修改《版權法》,專門制定了文本與數據挖掘例外條例,明確了文本與數據挖掘的合法性;法國修訂《法國知識產權法典》,對著作權作品專門設置了挖掘,還對數據庫權進行了限制;德國修訂了《著作權及鄰接權法》,規定了自動分析大量作品用于科研,允許使用者復制原材料并創建規范化和結構化的資料庫,僅限為非商業目的。

相關軟件

參考資料 >

DataMining:Whatitisandwhyitmatters.sas.2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-12-20

IBM Documentation.IBM.2023-12-05

What is CRISP DM?.datascience-pm.2023-12-05

TheJavaCommunityProcess(SM)Program.JSR 247: Data Mining 2.0.2023-12-20

..2023-11-29

..2023-12-05

..2023-12-05

..2023-12-05

..2023-11-29

通過 SPSS Inc. 的數據挖掘工作臺改善客戶信用評分.IBM.2023-11-29

學生學習筆記分享及解析——客戶關系管理(18).微信公眾平臺.2023-11-29

科學家利用數據挖掘幫助理解氣候變化.中國氣象局.2023-11-29

..2023-12-04

..2023-12-04

大數據時代的倫理隱憂.大眾網.2023-12-04

..2023-12-04

..2023-12-04

多國獎挖掘文本與數據行為納入著作權合理使用范圍.人民法院報.2023-12-04

針對數據分析人員的 Oracle Data Mining.Oracle.2023-12-04

IBM SPSS Modeler.IBM.2023-12-04

Data Mining Software, Model Development and Deployment, SAS Enterprise Miner | SAS.SAS.2023-12-04

RapidMiner Platform.rapidminer.2023-12-04

..2023-12-05

生活家百科家居網