赢咖7极悦 ,星空电竞,雷火入口

來源：互聯網

交叉驗證（Cross-validation）主要用于建模應用中，例如PCR、PLS回歸建模中。在給定的建模樣本中，拿出大部分樣本進行建模型，留小部分樣本用剛建立的模型進行預報，并求這小部分樣本的預報誤差，記錄它們的平方加和。這個過程一直進行，直到所有的樣本都被預報了一次而且僅被預報一次。把每個樣本的預報誤差平方加和，稱為PRESS（predictedErrorSumofSquares）。

基本思想

交叉驗證的基本思想是把在某種意義下將原始數據（dataset）進行分組，一部分做為訓練集（trainset），另一部分做為驗證集（validationsetortestset），首先用訓練集對分類器進行訓練，再利用驗證集來測試訓練得到的模型（model），以此來做為評價分類器的性能指標。

目的

用交叉驗證的目的是為了得到可靠穩定的模型。在建立PCR或PLS模型時，一個很重要的因素是取多少個主成分的問題。用crossvalidation校驗每個主成分下的PRESS值，選擇PRESS值小的主成分數?；騊RESS值不再變小時的主成分數。

常用的精度測試方法主要是交叉驗證，例如10折交叉驗證（10-foldcrossvalidation），將數據集分成十份，輪流將其中9份做訓練1份做驗證，10次的結果的均值作為對算法精度的估計，一般還需要進行多次10折交叉驗證求均值，例如：10次10折交叉驗證，以求更精確一點。

交叉驗證有時也稱為交叉比對，如：10折交叉比對。

常見的交叉驗證形式

簡單交叉驗證（Hold-OutCross-Validation）

常識來說，Holdout驗證并非一種交叉驗證，因為數據并沒有交叉使用。隨機從最初的樣本中選出部分，形成交叉驗證數據，而剩余的就當做訓練數據。一般來說，少于原本樣本三分之一的數據被選做驗證數據。

K-折交叉驗證（K-FoldCross-Validation）

K折交叉驗證，初始采樣分割成K個子樣本，一個單獨的子樣本被保留作為驗證模型的數據，其他K-1個樣本用來訓練。交叉驗證重復K次，每個子樣本驗證一次，平均K次的結果或者使用其它結合方式，最終得到一個單一估測。這個方法的優勢在于，同時重復運用隨機產生的子樣本進行訓練和驗證，每次的結果驗證一次，10折交叉驗證是最常用的。

留一交叉驗證（Leave-One-OutCross-Validation，LOOCV）

正如名稱所建議，留一驗證（LOOCV）意指只使用原本樣本中的一項來當做驗證資料，而剩余的則留下來當做訓練資料。這個步驟一直持續到每個樣本都被當做一次驗證資料。事實上，這等同于K-fold交叉驗證是一樣的，其中K為原本樣本個數。在某些情況下是存在有效率的演算法，如使用kernelregression和Tikhonovregularization。