无码人妻啪啪一区二区,鲁一鲁一鲁一鲁一澡

當(dāng)前位置：首頁 > 學(xué)習(xí)資源 > 講師博文 > 集成學(xué)習(xí)方法：隨機(jī)森林與梯度提升機(jī)（GBM）

集成學(xué)習(xí)方法：隨機(jī)森林與梯度提升機(jī)（GBM）時(shí)間：2025-02-24 來源：華清遠(yuǎn)見

集成學(xué)習(xí)方法：隨機(jī)森林與梯度提升機(jī)（GBM）

集成學(xué)習(xí)是一種強(qiáng)大的機(jī)器學(xué)習(xí)方法，通過組合多個(gè)基學(xué)習(xí)器來提升整體模型的性能。在眾多集成學(xué)習(xí)算法中，隨機(jī)森林和梯度提升機(jī)（GBM）是最常用的兩種方法。本文將簡單介紹它們的原理、特點(diǎn)，并通過代碼展示如何使用 Python 實(shí)現(xiàn)它們。

1. 隨機(jī)森林（Random Forest）

隨機(jī)森林是一種基于決策樹的集成方法，它通過以下兩個(gè)隨機(jī)化步驟來構(gòu)建多個(gè)弱學(xué)習(xí)器（決策樹）：

計(jì)算原理：

· 樣本隨機(jī)性：為了生成不同的決策樹，隨機(jī)森林對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行有放回的抽樣（bootstrap sampling），即每次抽取一個(gè)子集，這些子集的大小和原始數(shù)據(jù)集相同，但可能會(huì)有重復(fù)的樣本。這意味著每棵樹可能會(huì)看到不同的數(shù)據(jù)，增強(qiáng)了模型的多樣性。

· 特征隨機(jī)性：在構(gòu)建每棵決策樹時(shí)，隨機(jī)森林不會(huì)使用所有的特征來劃分節(jié)點(diǎn)。相反，隨機(jī)選擇一個(gè)特征的子集，并在該子集上找到最佳劃分。這樣可以使得每棵決策樹具有不同的視角，進(jìn)一步減少過擬合。

計(jì)算過程：

ü 訓(xùn)練階段：

o 隨機(jī)抽取多個(gè)子樣本數(shù)據(jù)集。

o 對(duì)每個(gè)子樣本集構(gòu)建一棵決策樹，在每個(gè)節(jié)點(diǎn)上隨機(jī)選擇特征。

o 重復(fù)上述過程，直到生成預(yù)設(shè)數(shù)量的決策樹。

ü 預(yù)測(cè)階段：

o 對(duì)每個(gè)新樣本，所有決策樹分別進(jìn)行預(yù)測(cè)（分類問題為投票，回歸問題為平均）。

o 最終的輸出是所有決策樹的輸出結(jié)果的聚合（如使用投票或平均方法）。

這種集成方式減少了單棵決策樹的誤差，提高了模型的穩(wěn)定性和準(zhǔn)確性。

數(shù)學(xué)原理

基礎(chǔ)概念：決策樹