毛片看片资源亚洲色图吧|国产区地址99黄色超碰|日韩一二三区在线|丁香六月亚洲在线一区二|国产理论不卡女人黄色片|亚洲女色AV无码a视频三级|中文字幕在线观看第三页|日本淫片免费在线|人妻无码在线不卡|91丝袜无码91频中文

當前位置: 首頁>> 輿情簡評 >>正文

機器學習算法實踐-隨機森林

2020-03-03 13:09 作者:蟻坊軟件研究院 瀏覽次數:8421 標簽: 深度學習算法
"速讀全網"輿情,了解傳播路徑,把握發(fā)展態(tài)勢——點擊試用鷹眼速讀網全網輿情監(jiān)測分析系統(tǒng)

隨機森林,指的是利用多棵樹(即決策樹)對樣本進行訓練并預測的一種多分類器。它是一種集成學習方法,是bagging算法的特化進階版算法。故本文會先介紹集成學習以及其一個分支:bagging算法,再引出隨機森林算法的基本思想。

0 隨機森林主要學習內容

1) 集成學習思想:訓練若干個弱學習器,然后通過一定的策略將其結合起來成為一個強學習器

2) Bagging算法:弱學習器之間沒有依賴關系,可以并行生成,采用有放回的隨機采樣獲取每個弱學習器的訓練集。

3) 決策樹算法:詳細內容可見第一章決策樹的講解。

4) 隨機森林算法:重點區(qū)分隨機森林中的決策樹與普通決策樹的不同

1 集成學習

在介紹隨機森林之前,我們需要先了解一下集成學習,因為隨機森林就是集成學習思想下的產物,將許多棵決策樹整合成森林,并合起來用來預測最終結果。

1.1 集成學習概述[2]

對于訓練數據,我們通過訓練若干個學習器,然后通過一定的策略將其結合起來成為一個強學習器,從而達到很好的學習效果。

從圖中可以發(fā)現(xiàn),集成學習是由兩個部分構成,一個是若干個學習器,這些學習器都是弱學習器,在有的框架中又稱初級學習器。另一個是選擇合適的結合策略。

1.1.1 學習器

學習器通俗點講就是我們在機器學習中所學的算法,這些常用算法我已在0章構建機器學習框架時羅列出來了。

多個學習器的構成一般有兩種選擇方式。

第一種就是所有的個體學習器都是使用同一種算法,如:在一個集成學習中構建5個學習器,每個學習器使用的都是決策樹算法,即5個決策樹學習器。

第二種就是所有個體學習器使用的算法不全是一種類型,如:在一個集成學習中構建5個學習器,有兩個學習器是使用決策樹,一個使用樸素貝葉斯算法,一個使用支持向量機算法,還有一個是使用k近鄰算法。

這兩種方法中都存在多個分類器,它們各抒己見,故為了綜合它們的意見,需通過某種合適的方法來最終確定強學習器。

目前,在集成學習中使用相同個體學習器的應用比較廣泛。根據相同個體學習器之間是否存在依賴關系可以分為兩類,一類是存在強依賴關系,個體學習器基本上需要串行生成,這樣的代表算法是boosting算法,另一類是不存在強依賴關系,個體學習器可并行生成,其代表算法是bagging算法。

 

 

3)學習法

上面兩種方法比較簡單,但也容易導致學習誤差較大,于是就有了學習法。對于學習法,代表方法是stacking。當使用stacking的結合策略時,我們不是對弱學習器的結果做簡單的邏輯處理,而是再加上一層學習器,也就是說,我們將訓練集放到弱學習器中學習,學習出的結果作為特征輸入,訓練集的輸出作為輸出,再重新訓練一個學習器來得到最終的結果。

Stacking原理[4]

假設我們有兩個個體學習器,也稱初級學習器model1,model2。

(1) 對初級學習器model1,利用訓練集D進行訓練,然后用訓練好的model1預測訓練集D和測試集T的標簽列,結果為P1,T1。

(2) 對初級學習器model2,重復步驟(1),得到預測標簽結果P2,T2。

(3) 將兩個初級學習器的結果合并,得到次級學習器model3的訓練集P3=(P1,P2)和測試集T3=(T1,T2)。也就是說,有多少個初級學習器,次級學習器的訓練集和測試集就有多少列(特征)

用P3訓練次學習器model3,并預測T3,得到最終的預測結果。

例[3]:

 

該圖就是一個stacking學習法。以5折交叉驗證為例,先解釋一下,k折交叉驗證的思想:將數據集A 分為訓練集(training set)B和測試集(test set)C,在樣本量不充足的情況下,為了充分利用數據集對算法效果進行測試,將數據集A隨機分為k份,每次將其中一個份作為測試集,剩下k-1份作為訓練集進行訓練。

 

 

前面有講到集成學習中,根據各學習器之間是否存在強依賴關系而劃分兩個流派,有強依賴性的是boosting算法派系,無則是bagging算法派系。我們今天要講的隨機森林就是建立在bagging算法之上的。

2 Bagging算法[1]

bagging算法的個體弱學習器的訓練集是通過隨機采樣得到的,通過m次隨機采樣,我們就可以得到m個訓練樣本,重復這一行為n次,可得到n個訓練樣本集。對于這n個采樣集,我們可以分別獨立的訓練出n個弱學習器,再對這n個弱學習器通過結合策略來得到強學習器。

 

解釋一下:這里的隨機采樣采用的是自助采樣法,即對于M個樣本集的原始訓練集,我們每次先隨機采集一個樣本放入采樣集中進行記錄,之后將該樣本放回原訓練集中,也就是說,下次采樣時該樣本還有可能被采集到。就這樣采集m次,最終可以得到m個樣本作為一個采樣集(對于bagging算法,一般會隨機采集和訓練樣本一樣個數的樣本量,即M=m),重復n次,可得n個采樣集。由于是隨機采樣,所以n個采樣集也是大概率呈現(xiàn)不同的,可得到多個不同的弱學習器。

 

 

3 隨機森林

隨機森林是bagging的一個特化進階版,所謂的特化是因為隨機森林的弱學習器都是決策樹。所謂的進階是隨機森林在bagging的樣本隨機采樣基礎上,又加上了特征的隨機選擇,其基本思想沒有脫離bagging的范疇。

 

先要說明一下,隨機森林的樣本采樣同bagging算法一樣,有放回隨機采樣m個樣本作為一個采樣集,然后重復這一行為T次,可得T個采樣集。第二,隨機森林中所使用的弱學習器為決策樹(使用了其他算法作為弱學習器的就不是隨機森林),這里所用到的決策樹與我們之前講的決策樹有了一些不同。之前所講的決策樹會在所有特征N中選擇一個最優(yōu)特征作為結點來劃分左右子樹。但在隨機森林中,我們會先隨機選擇一部分樣本特征n(這個數量應該小于N),再從這些特征中選擇一個最優(yōu)特征作為決策樹的結點劃分左右子樹。這種做法也進一步增強了模型的泛化能力。

注:當n=N時,隨機森林中的決策樹和普通的決策樹是一樣的。當n越小時,模型約健壯,當對于訓練集的擬合效果比較差,也就是說n越小,模型方差越小,但偏差會越大。故n的選擇也需要慎重,一般會通過交叉驗證調參來獲得較為合適的n值。

 

4 隨機森林的總結[1]

4.1 隨機森林的優(yōu)點

1)訓練可以并行化,在大數據時代中訓練大樣本上速度具有較大的優(yōu)勢。

2)由于可以隨機選擇決策樹結點的劃分特征,故可在樣本特征維度很高時依舊能高效訓練模型。

3)訓練后,可以輸出各個特征對于輸出的重要性。

4)采用隨機采用,訓練模型方差小,泛化能力強。

5)實現(xiàn)比較簡單。

6)對缺失的部分特征不敏感。

4.2 隨機森林的主要缺點:

1)在某些噪音比較大的樣本集上,隨機森林容易陷入過擬合。

2)對于取值劃分較多的特征容易對隨機森林的決策產生很大的影響,從而影響擬合的模型的效果。

5 隨機森林的應用

1.乳房腫瘤類型的判斷

2.Titanic中的應用

3.基因表達數據分析中的應用

4.量化選股中的應用

參考文獻

[1] https://www.cnblogs.com/pinard/p/6156009.html

[2] https://www.cnblogs.com/pinard/p/6131423.html

[3] https://blog.csdn.net/wstcjf/article/details/77989963

[4] https://blog.csdn.net/pxhdky/article/details/85175406

[5] https://blog.csdn.net/kylinxu70/article/details/23065651

[6] https://blog.csdn.net/haiyu94/article/details/79400589


(部分文字、圖片來自網絡,如涉及侵權,請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權內容。電話:4006770986    負責人:張明)

熱門文章 換一換
文章推薦換一換
輿情監(jiān)測關注問題換一換
輿情監(jiān)測公司排名 輿情分析 輿情管理 輿情監(jiān)測系統(tǒng) 全網輿情監(jiān)測系統(tǒng) 輿情監(jiān)測 輿論 輿情監(jiān)測平臺 互聯(lián)網輿情監(jiān)測 輿情監(jiān)控系統(tǒng) 輿情監(jiān)測服務平臺 熱點輿情 網絡輿情分析報告 輿論聚焦 中山大學張鵬 超強臺風山竹 個人所得稅起征點 微博傳播分析 網紅直播 手機輿情監(jiān)測 做好輿情監(jiān)控 輿情監(jiān)測報價 網絡熱點事件 輿情搜索 輿情預警系統(tǒng) 近期輿情 輿情報告 輿情 免費輿情軟件 輿情監(jiān)測方案 輿情監(jiān)測解決方案 輿情是什么意思 網絡輿情監(jiān)測 輿情案例分析 專業(yè)輿情監(jiān)測 媒體輿情監(jiān)測 藥品安全事件 長春長生疫苗事件 潔潔良 樂清女孩 新浪微輿情 網絡輿情分析報告 2019網絡輿情事件 山東壽光水災 社會輿情 輿情監(jiān)測哪家好 輿情監(jiān)測方法 輿情監(jiān)測報價 新浪輿情 手機輿情監(jiān)測 近期輿情 網紅直播 輿情事件 免費輿情監(jiān)測軟件 社會輿情 網絡輿情監(jiān)測系統(tǒng) 輿情監(jiān)測報告 輿情監(jiān)測軟件 網絡輿情監(jiān)測公司 互聯(lián)網輿情監(jiān)測系統(tǒng) 輿情監(jiān)測分析 輿情監(jiān)控前幾大公司 網絡輿情監(jiān)控軟件 網絡輿情監(jiān)控系統(tǒng) 輿情監(jiān)控是什么意思 免費輿情監(jiān)控 互聯(lián)網輿情監(jiān)控系統(tǒng) 網絡輿情分析 輿情 政務輿情 什么是輿情 新華網輿情在線 輿情監(jiān)控系統(tǒng) 互聯(lián)網輿情分析 社區(qū)輿情信息 網絡輿情信息 網絡輿情分析系統(tǒng) 網絡輿情管理 人民輿情監(jiān)控 軍犬網絡輿情監(jiān)控系統(tǒng) 輿情監(jiān)控 涉警輿情 鷹擊 鷹眼輿情
標簽云 換一換
輿情報告 輿情熱點事件 輿情日報 兩會輿情 社會輿論熱點 自媒體輿情監(jiān)測 輿情分析研判 輿情監(jiān)測預警 輿情匯總 輿情監(jiān)測 輿情分析 稅務輿情 大數據輿情監(jiān)測 輿情研判 政務輿情 輿情服務 輿情信息收集 輿情監(jiān)測軟件排名 互聯(lián)網輿情監(jiān)測系統(tǒng)哪家好 民生輿情 醫(yī)療輿情 教育輿情 網絡熱點事件 輿情風險監(jiān)測 災害輿情 社會輿情 疫情輿情 蟻坊軟件 輿情研究 社會事件輿情分析 文旅輿情 行業(yè)輿情 旅游輿情 輿情輿論匯總 市場監(jiān)管 輿情周報 近期輿情 2025年輿情報告 新聞輿情 社交媒體輿情 輿情監(jiān)測服務商 輿論戰(zhàn) 熱點監(jiān)測 消費輿情 應急輿情 消防救援輿情 應急管理 學校輿情 醫(yī)院輿情 輿情監(jiān)測解決方案 輿情風險 輿情預警 輿情系統(tǒng) 互聯(lián)網輿情分析 突發(fā)公共事件 輿情事件 短視頻 輿情監(jiān)測方案 屬地輿情監(jiān)測 地方輿情 網絡輿情監(jiān)測 環(huán)保輿情 輿情服務商 婦女兒童輿情 社會情緒指數 網絡熱詞 輿情指數 輿情管理 傳播路徑分析 輿情監(jiān)測系統(tǒng) 視頻輿情監(jiān)測 AI輿情服務 開源情報工具 互聯(lián)網輿情治理 輿情查詢 網絡輿情分析系統(tǒng) 政府輿情 假期輿情 輿情信息分析 生態(tài)環(huán)境輿情 環(huán)境輿情 煙草輿情輿論 情報分析 輿情專報 網絡輿情 校園輿情 高校輿情 信息挖掘 輿論風險防范 政策輿情 輿情傳播 謠言傳播 輿情預警系統(tǒng) 新媒體輿情監(jiān)測 網絡傳播規(guī)律 深度學習算法 全網輿情監(jiān)測 互聯(lián)網輿情監(jiān)測平臺 農業(yè)輿情 農村輿情 鄉(xiāng)鎮(zhèn)輿情 網絡輿情網 轄區(qū)輿情監(jiān)測 輿情治理 交通輿情 疫情輿情分析報告 抗擊疫情 疫情輿情分析 大數據輿情分析 AI輿情監(jiān)測服務平臺 人工智能 輿情監(jiān)測平臺 月度輿情分析 大數據服務平臺 大數據輿情 景區(qū)輿情 網絡輿情監(jiān)測系統(tǒng) 免費輿情監(jiān)測軟件 輿情監(jiān)測軟件 鷹眼速讀網 免費輿情監(jiān)測系統(tǒng) 新聞傳播理論 網絡輿情監(jiān)測公司 輿情監(jiān)測工具 在線輿情監(jiān)測 輿情監(jiān)測方法 涉警輿情 在線監(jiān)測軟件 2024年報告 輿情反轉 網絡安全 金融輿情 金融監(jiān)督管理局 財經金融輿情監(jiān)測 公安輿情監(jiān)測分析 公安類輿情 娛樂輿情 AI輿情監(jiān)測服務 輿論監(jiān)測 蟻坊 新媒體輿情 數據監(jiān)測 輿情數據分析 網絡輿情治理 網絡綜合治理 網絡信息生態(tài)治理 輿情應對 輿論態(tài)勢 輿情回應 公共事件輿情 輿情平臺 輿情態(tài)勢 老年人保護輿情 輿論監(jiān)測軟件 網絡輿論監(jiān)測 網紅直播 中國食品藥品安全輿情事件案例 網上輿情 安全生產 食品輿情 輿情搜索 涉穩(wěn)輿情 航空輿情 輿情監(jiān)測報價 涉法輿情 檢察輿情 網絡社會熱點輿情分析系統(tǒng) 免費大數據平臺有哪些 互聯(lián)網輿情監(jiān)測 2023年輿情分析報告 電力輿情 高考輿情 互聯(lián)網輿情 政府輿情監(jiān)測 鐵路輿情 如何網絡輿情 能源輿情 企業(yè)輿情 危機公關 輿情告警 智慧城市 輿情案例 數據分析軟件有哪些 網信辦信息匯總 輿情監(jiān)測哪家好 輿情處置 互聯(lián)網輿情監(jiān)測系統(tǒng) 負面輿情 輿情案例分析 地震輿情 明星輿情 輿情監(jiān)控前幾大公司 社交新全媒體監(jiān)測系統(tǒng)工具平臺公司 法治輿情 司法輿情 法院輿情 網紅輿情 23年輿情報告 網絡意識形態(tài) 涉毒輿情 科技輿情 鷹擊早發(fā)現(xiàn) 監(jiān)獄輿情輿論 大數據分析工具 做好輿情監(jiān)控 政府輿情監(jiān)測系統(tǒng) 媒體輿情 媒體輿論 網絡在線教學輿情 會議輿情 媒體監(jiān)測 2026年輿情報告 輿情分級 聲量 次生輿情 輿情分析服務 輿論反應 信息戰(zhàn) 輿論趨勢 新聞輿論陣地管理 自媒體傳播 自媒體亂象 女權輿論 性別矛盾 民族宗教輿情 宗教輿情 銀行輿情 2022年輿情報告 未成年人輿情 輿情引導 審計局 輿論失焦 政法輿情 網絡實名制 輿情監(jiān)督 奧運會 疫情搜索大數據 輿論知識點 新疆棉花 正面輿情 網絡暴力 社會性死亡 辟謠 涉犬輿情 事件過程 鷹眼輿情 鷹擊 清博大數據輿情 輿情格式 抗疫英雄事跡輿情 虛假新聞 什么是輿情 2020年輿情報告 2020年輿情 機器學習 輿論分析 輿情公關 虐童事件 反轉新聞 網紅 微輿情 微博傳播分析 手機輿情監(jiān)測 新浪輿情 新華輿情 2019網絡熱詞 網絡流行語 百度輿情監(jiān)測 企業(yè)危機管理 315 網絡輿情危機 互聯(lián)網輿情監(jiān)控系統(tǒng) 輿情是什么意思 德云社 網絡輿論分析 大數據輿情監(jiān)測案例 微博數據分析 輿情監(jiān)測公司 2019輿情熱點 犯罪輿情 股票輿情 消防輿情 微信輿情監(jiān)測 民航輿情 人物輿情 公益輿情 感動中國 影視輿情 輿論監(jiān)督 2019輿情 2018輿情事件盤點 2018輿情報告 霧霾輿情 港澳臺輿情 涉軍輿情 拆遷輿情 反腐輿情 海外輿情 信息惠民 體育輿情 強拆輿情