無監(jiān)督學習(Unsupervised Learning),亦被稱為無監(jiān)督機器學習,它借助機器學習算法來對未標注的數(shù)據(jù)集進行分析,并實現(xiàn)聚類操作。這些算法無需借助人工的介入,就能自行發(fā)掘隱藏的模式或數(shù)據(jù)分組。該方法能夠有效地洞察信息之間的相似性與差異性,因此成為探索性數(shù)據(jù)分析、交叉銷售策略制定、客戶細分以及圖像識別等方面的理想解決方案。
常見的無監(jiān)督學習算法
無監(jiān)督學習算法可以分為三個主要種類:聚類、關聯(lián)和降維。
聚類
在聚類中,具有相似特征的樣本會被歸為同一簇,而不同簇之間的樣本則具有較大差異。聚類的目的是發(fā)現(xiàn)數(shù)據(jù)中潛在的自然分組結構,幫助理解數(shù)據(jù)的分布和模式。聚類算法可以分為幾種類型,具體為獨占、重疊、分層和概率。
獨占和重疊聚類
獨占聚類是一種分組形式,它規(guī)定一個數(shù)據(jù)點只能存在于一個聚類中。 這也可以稱為“硬”聚類。 K均值聚類算法是獨占聚類的一個例子。
而重疊聚類則與獨占聚類有所不同,它允許數(shù)據(jù)點同時歸屬于多個聚類,且具有不同的隸屬程度。“軟”的或模糊 K 均值聚類就是重疊聚類的一個具體體現(xiàn)。
分層聚類
分層聚類是一種無監(jiān)督的聚類算法,主要可以分為兩種類型,即凝聚聚類和分裂聚類。凝聚聚類常被認為是一種“自下而上”的方法。在凝聚聚類中,數(shù)據(jù)點最初被劃分到單獨的分組里,之后再依據(jù)相似性不斷地進行合并,直至形成一個聚類。通常來說,有四種不同的方法用于衡量相似度:
歐幾里得距離是用于計算這些距離最常用的指標;不過,在相關文獻中也會提及曼哈頓距離等其他指標。
分裂聚類的定義方式與凝聚聚類恰好相反;它采用的是“自上而下”的方法。在這種情況下,會依據(jù)數(shù)據(jù)點之間的差異來劃分單個的數(shù)據(jù)聚類。分裂聚類并不常用,但在分層聚類的環(huán)境中依然值得關注。這些聚類過程通常會通過系統(tǒng)樹圖(一種樹狀的圖表)直觀地呈現(xiàn)出來,該圖會記錄每次迭代中數(shù)據(jù)點的合并或拆分情況。
概率聚類
概率模型是一類無監(jiān)督技術,能夠助力我們解決密度估計或“軟”聚類之類的問題。在概率聚類中,數(shù)據(jù)點是依據(jù)它們歸屬于特定分布的概率來進行聚類的。高斯混合模型(GMM)是最常被采用的概率聚類方法之一。
關聯(lián)
關聯(lián)規(guī)則學習是一種基于規(guī)則的方法,用于發(fā)現(xiàn)給定數(shù)據(jù)集中各變量之間的關系。 這些方法常用于市場購物籃分析,使企業(yè)能夠更好地了解不同產(chǎn)品之間的關系。 了解顧客的消費習慣有助于企業(yè)制定更好的交叉銷售策略,開發(fā)更出色的推薦引擎。 在亞馬遜的“購買此商品的客戶也購買了”或 Spotify 的“每周發(fā)現(xiàn)”播放列表中,可以看到這方面的例子。 雖然有幾種不同的算法用于生成關聯(lián)規(guī)則,例如 APRIORI、eclat算法和FP-Growth算法,但 APRIORI使用最為廣泛。
降維
一般情況下,更多的數(shù)據(jù)會產(chǎn)生更精準的模型,進而產(chǎn)生更加準確的結果,但這也會影響機器學習算法的性能(例如:過度擬合),并且還會造成數(shù)據(jù)集可視化的難度提高。 因此,如果在給定數(shù)據(jù)集中的特征或維度數(shù)量過多,便會用到降維這種技術。 降維可將輸入的數(shù)據(jù)量減少到可管理的大小,同時盡可能地保持數(shù)據(jù)集的完整性。 在數(shù)據(jù)預處理階段通常會使用降維技術,可以采用幾種不同的降維方法:主成分分析、奇異值分解和自編碼器。
主成分分析
主成分分析(Principal Component Analysis, pca)是一種常用的統(tǒng)計方法,其核心在于通過正交變換將可能存在相關性的變量轉(zhuǎn)換為一組線性不相關的變量,這些轉(zhuǎn)換后的變量被稱為主成分。
PCA的作用和意義在于降維,即減少變量的數(shù)量,同時盡可能保留原始數(shù)據(jù)的信息。因此一般用于減少冗余并通過特征提取來壓縮數(shù)據(jù)集。 這種方法使用線性變換來創(chuàng)建新的數(shù)據(jù)表示,從而產(chǎn)生一組“主成分”。第一個主成分是使數(shù)據(jù)集方差最大化的方向。 雖然第二個主成分也找到了數(shù)據(jù)中的最大方差,但它與第一個主成分完全不相關,產(chǎn)生的方向與第一個成分垂直或正交。 這個過程根據(jù)維數(shù)進行重復,其中下一個主成分是與具有最大方差的先驗成分正交的方向。
奇異值分解
奇異值分解(Singular Value Decomposition, SVD)是另一種降維方法。例如,將矩陣 A 分解為三個低秩矩陣。 SVD 由公式 A = USVT 表示,其中 U 和 V 是正交矩陣。 S 是一個對角矩陣,S 值被認為是矩陣 A 的奇異值。與 PCA 類似,這種方法通常用于降噪和壓縮數(shù)據(jù)。
自編碼器
卷積自編碼器利用神經(jīng)網(wǎng)絡來壓縮數(shù)據(jù),然后重新創(chuàng)建原始數(shù)據(jù)輸入的新表示形式。自編碼器實現(xiàn)數(shù)據(jù)壓縮主要通過以下步驟:
無監(jiān)督學習的應用
無監(jiān)督學習是一種機器學習技術,它不依賴于預先標記的數(shù)據(jù)來進行訓練。這種學習方式主要應用于以下領域:
無監(jiān)督學習的優(yōu)點在于它不需要大量的帶標簽數(shù)據(jù),因此可以使用更加廣泛的數(shù)據(jù)集。然而,它也存在一些局限性,例如可能無法保證學習的準確性和穩(wěn)定性。
參考資料 >