雷火游戏官网,电竞牛,betway88官网

來源：互聯(lián)網(wǎng)

無監(jiān)督學習（Unsupervised Learning），亦被稱為無監(jiān)督機器學習，它借助機器學習算法來對未標注的數(shù)據(jù)集進行分析，并實現(xiàn)聚類操作。這些算法無需借助人工的介入，就能自行發(fā)掘隱藏的模式或數(shù)據(jù)分組。該方法能夠有效地洞察信息之間的相似性與差異性，因此成為探索性數(shù)據(jù)分析、交叉銷售策略制定、客戶細分以及圖像識別等方面的理想解決方案。

常見的無監(jiān)督學習算法

無監(jiān)督學習算法可以分為三個主要種類：聚類、關聯(lián)和降維。

聚類

在聚類中，具有相似特征的樣本會被歸為同一簇，而不同簇之間的樣本則具有較大差異。聚類的目的是發(fā)現(xiàn)數(shù)據(jù)中潛在的自然分組結構，幫助理解數(shù)據(jù)的分布和模式。聚類算法可以分為幾種類型，具體為獨占、重疊、分層和概率。

獨占和重疊聚類

獨占聚類是一種分組形式，它規(guī)定一個數(shù)據(jù)點只能存在于一個聚類中。這也可以稱為“硬”聚類。 K均值聚類算法是獨占聚類的一個例子。

而重疊聚類則與獨占聚類有所不同，它允許數(shù)據(jù)點同時歸屬于多個聚類，且具有不同的隸屬程度。“軟”的或模糊 K 均值聚類就是重疊聚類的一個具體體現(xiàn)。

分層聚類

分層聚類是一種無監(jiān)督的聚類算法，主要可以分為兩種類型，即凝聚聚類和分裂聚類。凝聚聚類常被認為是一種“自下而上”的方法。在凝聚聚類中，數(shù)據(jù)點最初被劃分到單獨的分組里，之后再依據(jù)相似性不斷地進行合并，直至形成一個聚類。通常來說，有四種不同的方法用于衡量相似度：

歐幾里得距離是用于計算這些距離最常用的指標；不過，在相關文獻中也會提及曼哈頓距離等其他指標。

分裂聚類的定義方式與凝聚聚類恰好相反；它采用的是“自上而下”的方法。在這種情況下，會依據(jù)數(shù)據(jù)點之間的差異來劃分單個的數(shù)據(jù)聚類。分裂聚類并不常用，但在分層聚類的環(huán)境中依然值得關注。這些聚類過程通常會通過系統(tǒng)樹圖（一種樹狀的圖表）直觀地呈現(xiàn)出來，該圖會記錄每次迭代中數(shù)據(jù)點的合并或拆分情況。

概率聚類

概率模型是一類無監(jiān)督技術，能夠助力我們解決密度估計或“軟”聚類之類的問題。在概率聚類中，數(shù)據(jù)點是依據(jù)它們歸屬于特定分布的概率來進行聚類的。高斯混合模型（GMM）是最常被采用的概率聚類方法之一。

關聯(lián)

關聯(lián)規(guī)則學習是一種基于規(guī)則的方法，用于發(fā)現(xiàn)給定數(shù)據(jù)集中各變量之間的關系。這些方法常用于市場購物籃分析，使企業(yè)能夠更好地了解不同產(chǎn)品之間的關系。了解顧客的消費習慣有助于企業(yè)制定更好的交叉銷售策略，開發(fā)更出色的推薦引擎。在亞馬遜的“購買此商品的客戶也購買了”或 Spotify 的“每周發(fā)現(xiàn)”播放列表中，可以看到這方面的例子。雖然有幾種不同的算法用于生成關聯(lián)規(guī)則，例如 APRIORI、eclat算法和FP-Growth算法，但 APRIORI使用最為廣泛。

降維

一般情況下，更多的數(shù)據(jù)會產(chǎn)生更精準的模型，進而產(chǎn)生更加準確的結果，但這也會影響機器學習算法的性能（例如：過度擬合），并且還會造成數(shù)據(jù)集可視化的難度提高。因此，如果在給定數(shù)據(jù)集中的特征或維度數(shù)量過多，便會用到降維這種技術。降維可將輸入的數(shù)據(jù)量減少到可管理的大小，同時盡可能地保持數(shù)據(jù)集的完整性。在數(shù)據(jù)預處理階段通常會使用降維技術，可以采用幾種不同的降維方法：主成分分析、奇異值分解和自編碼器。

主成分分析

主成分分析（Principal Component Analysis, pca）是一種常用的統(tǒng)計方法，其核心在于通過正交變換將可能存在相關性的變量轉(zhuǎn)換為一組線性不相關的變量，這些轉(zhuǎn)換后的變量被稱為主成分。

PCA的作用和意義在于降維，即減少變量的數(shù)量，同時盡可能保留原始數(shù)據(jù)的信息。因此一般用于減少冗余并通過特征提取來壓縮數(shù)據(jù)集。這種方法使用線性變換來創(chuàng)建新的數(shù)據(jù)表示，從而產(chǎn)生一組“主成分”。第一個主成分是使數(shù)據(jù)集方差最大化的方向。雖然第二個主成分也找到了數(shù)據(jù)中的最大方差，但它與第一個主成分完全不相關，產(chǎn)生的方向與第一個成分垂直或正交。這個過程根據(jù)維數(shù)進行重復，其中下一個主成分是與具有最大方差的先驗成分正交的方向。

奇異值分解

奇異值分解（Singular Value Decomposition, SVD）是另一種降維方法。例如，將矩陣 A 分解為三個低秩矩陣。 SVD 由公式 A = USVT 表示，其中 U 和 V 是正交矩陣。 S 是一個對角矩陣，S 值被認為是矩陣 A 的奇異值。與 PCA 類似，這種方法通常用于降噪和壓縮數(shù)據(jù)。

自編碼器

卷積自編碼器利用神經(jīng)網(wǎng)絡來壓縮數(shù)據(jù)，然后重新創(chuàng)建原始數(shù)據(jù)輸入的新表示形式。自編碼器實現(xiàn)數(shù)據(jù)壓縮主要通過以下步驟：

無監(jiān)督學習的應用

無監(jiān)督學習是一種機器學習技術，它不依賴于預先標記的數(shù)據(jù)來進行訓練。這種學習方式主要應用于以下領域：

無監(jiān)督學習的優(yōu)點在于它不需要大量的帶標簽數(shù)據(jù)，因此可以使用更加廣泛的數(shù)據(jù)集。然而，它也存在一些局限性，例如可能無法保證學習的準確性和穩(wěn)定性。

參考資料 >

..2024-04-28

必威电竞|足球世界杯竞猜平台