必威电竞|足球世界杯竞猜平台

APRIORI
來源:互聯(lián)網(wǎng)

Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域。

算法簡介

Apriori算法 是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。

算法思想

該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞歸的方法。

(1) L1 = find_frequent_1-itemsets(D);

(2) for (k=2;Lk-1 ≠Φ ;k++) {

(3) Ck = apriori_gen(Lk-1 ,min_sup);

(4) for each transaction t ∈ D {//scan D for counts

(5) Ct = subset(Ck,t);//get the subsets of t that are candidates

(6) for each candidate c ∈ Ct

(7) c.count++;

(8) }

(9) Lk ={c ∈ Ck|c.count≥min_sup}

(10) }

(11) return L= ∪ k Lk;

可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點。

流程圖如下:

算法應(yīng)用

經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法Apriori 算法廣泛應(yīng)用于各種領(lǐng)域,通過對數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價值。

Apriori算法廣泛應(yīng)用于商業(yè)中,應(yīng)用于消費市場價格分析中,它能夠很快的求出各種產(chǎn)品之間的價格關(guān)系和它們之間的影響。通過數(shù)據(jù)挖掘,市場商人可以瞄準(zhǔn)目標(biāo)客戶,采用個人股票行市、最新信息、特殊的市場推廣活動或其他一些特殊的信息手段,從而極大地減少廣告預(yù)算和增加收入。百貨商場、超市和一些老字型大小的零售店也在進(jìn)行數(shù)據(jù)挖掘,以便猜測這些年來顧客的消費習(xí)慣。

Apriori算法應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,比如網(wǎng)絡(luò)入侵檢測技術(shù)中。早期中大型的電腦系統(tǒng)中都收集審計信息來建立跟蹤檔,這些審計跟蹤的目的多是為了性能測試或計費,因此對攻擊檢測提供的有用信息比較少。它通過模式的學(xué)習(xí)和訓(xùn)練可以發(fā)現(xiàn)網(wǎng)絡(luò)用戶的異常行為模式。采用作用度的Apriori算法削弱了Apriori算法的挖掘結(jié)果規(guī)則,是網(wǎng)絡(luò)入侵檢測系統(tǒng)可以快速的發(fā)現(xiàn)用戶的行為模式,能夠快速的鎖定攻擊者,提高了基于關(guān)聯(lián)規(guī)則的入侵檢測系統(tǒng)的檢測性。

Apriori算法應(yīng)用于高校管理中。隨著高校貧困生人數(shù)的不斷增加,學(xué)校管理部門資助工作難度也越加增大。針對這一現(xiàn)象,提出一種基于數(shù)據(jù)挖掘算法的解決方法。將關(guān)聯(lián)規(guī)則的Apriori算法應(yīng)用到貧困助學(xué)體系中,并且針對經(jīng)典Apriori挖掘算法存在的不足進(jìn)行改進(jìn),先將事務(wù)數(shù)據(jù)庫映射為一個布爾矩陣,用一種逐層遞增的思想來動態(tài)的分配內(nèi)存進(jìn)行存儲,再利用向量求"與"運算,尋找頻繁項集。實驗結(jié)果表明,改進(jìn)后的Apriori算法在運行效率上有了很大的提升,挖掘出的規(guī)則也可以有效地輔助學(xué)校管理部門有針對性的開展貧困助學(xué)工作。

Apriori算法被廣泛應(yīng)用于移動通信領(lǐng)域。移動增值業(yè)務(wù)逐漸成為移動通信市場上最有活力、最具潛力、最受矚目的業(yè)務(wù)。隨著產(chǎn)業(yè)的復(fù)蘇,越來越多的增值業(yè)務(wù)表現(xiàn)出強勁的發(fā)展勢頭,呈現(xiàn)出應(yīng)用多元化、營銷品牌化、管理集中化、合作縱深化的特點。針對這種趨勢,在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘中廣泛應(yīng)用的Apriori算法被很多公司應(yīng)用。依托某電信運營商正在建設(shè)的增值業(yè)務(wù)Web數(shù)據(jù)倉庫平臺,對來自移動增值業(yè)務(wù)方面的調(diào)查數(shù)據(jù)進(jìn)行了相關(guān)的挖掘處理,從而獲得了關(guān)于用戶行為特征和需求的間接反映市場動態(tài)的有用信息,這些信息在指導(dǎo)運營商的業(yè)務(wù)運營和輔助業(yè)務(wù)提供商的決策制定等方面具有十分重要的參考價值。

參考資料 >

Apriori算法.道客巴巴.2013-03-14

生活家百科家居網(wǎng)