當(dāng)前位置:首頁 > 學(xué)習(xí)資源 > 講師博文 > 集成學(xué)習(xí)方法:隨機(jī)森林與梯度提升機(jī)(GBM)
集成學(xué)習(xí)方法:隨機(jī)森林與梯度提升機(jī)(GBM)
集成學(xué)習(xí)是一種強(qiáng)大的機(jī)器學(xué)習(xí)方法,通過組合多個(gè)基學(xué)習(xí)器來提升整體模型的性能。在眾多集成學(xué)習(xí)算法中,隨機(jī)森林和梯度提升機(jī)(GBM)是最常用的兩種方法。本文將簡單介紹它們的原理、特點(diǎn),并通過代碼展示如何使用 Python 實(shí)現(xiàn)它們。
1. 隨機(jī)森林(Random Forest)
隨機(jī)森林是一種基于決策樹的集成方法,它通過以下兩個(gè)隨機(jī)化步驟來構(gòu)建多個(gè)弱學(xué)習(xí)器(決策樹):
計(jì)算原理:
· 樣本隨機(jī)性:為了生成不同的決策樹,隨機(jī)森林對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行有放回的抽樣(bootstrap sampling),即每次抽取一個(gè)子集,這些子集的大小和原始數(shù)據(jù)集相同,但可能會(huì)有重復(fù)的樣本。這意味著每棵樹可能會(huì)看到不同的數(shù)據(jù),增強(qiáng)了模型的多樣性。
· 特征隨機(jī)性:在構(gòu)建每棵決策樹時(shí),隨機(jī)森林不會(huì)使用所有的特征來劃分節(jié)點(diǎn)。相反,隨機(jī)選擇一個(gè)特征的子集,并在該子集上找到最佳劃分。這樣可以使得每棵決策樹具有不同的視角,進(jìn)一步減少過擬合。
計(jì)算過程:
ü 訓(xùn)練階段:
o 隨機(jī)抽取多個(gè)子樣本數(shù)據(jù)集。
o 對(duì)每個(gè)子樣本集構(gòu)建一棵決策樹,在每個(gè)節(jié)點(diǎn)上隨機(jī)選擇特征。
o 重復(fù)上述過程,直到生成預(yù)設(shè)數(shù)量的決策樹。
ü 預(yù)測(cè)階段:
o 對(duì)每個(gè)新樣本,所有決策樹分別進(jìn)行預(yù)測(cè)(分類問題為投票,回歸問題為平均)。
o 最終的輸出是所有決策樹的輸出結(jié)果的聚合(如使用投票或平均方法)。
這種集成方式減少了單棵決策樹的誤差,提高了模型的穩(wěn)定性和準(zhǔn)確性。
數(shù)學(xué)原理
基礎(chǔ)概念:決策樹
隨機(jī)森林是由多棵決策樹構(gòu)成的集成學(xué)習(xí)方法。每棵決策樹的構(gòu)建和預(yù)測(cè)過程都依賴于信息增益、基尼指數(shù)等指標(biāo)。