123,123,123

強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)_3天提綱

培訓(xùn)講師：葉梓

講師背景：
葉梓老師葉梓，工學(xué)博士，高級(jí)工程師?，F(xiàn)某大型上市企業(yè)資深技術(shù)專家。2005年上海交通大學(xué)計(jì)算機(jī)專業(yè)博士畢業(yè)，在校期間的主研方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能。畢業(yè)后即進(jìn)入軟件行業(yè)從事信息化技術(shù)相關(guān)工作；負(fù)責(zé)或參與了多項(xiàng)、省市級(jí)人工智能及大數(shù) 詳細(xì)>>

下載需求表打印本課程填寫需求表在線咨詢

課程咨詢電話：

強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)_3天提綱詳細(xì)內(nèi)容

強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)_3天提綱

強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)
【課程時(shí)長(zhǎng)】
3天（6小時(shí)/天）
【課程簡(jiǎn)介】
強(qiáng)化學(xué)習(xí)是當(dāng)前最熱門的研究方向之一，廣泛應(yīng)用于機(jī)器人學(xué)、電子競(jìng)技等領(lǐng)域。本課程系統(tǒng)性的介紹了強(qiáng)化學(xué)習(xí)（深度強(qiáng)化學(xué)習(xí)）的基本理論和關(guān)鍵算法，包括：馬爾科夫決策過(guò)程、動(dòng)態(tài)規(guī)劃法、蒙特卡羅法、時(shí)間差分法、值函數(shù)逼近法，策略梯度法等；以及該領(lǐng)域的最新前沿發(fā)展，包括：DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強(qiáng)化學(xué)習(xí)等；同時(shí)也介紹大量的實(shí)際案例，包括深度強(qiáng)化學(xué)習(xí)中最著名的工程應(yīng)用：Alpha Go。
【課程對(duì)象】
計(jì)算機(jī)相關(guān)專業(yè)本科；或理工科本科，具備初步的IT基礎(chǔ)知識(shí)的人員
第一天強(qiáng)化學(xué)習(xí)
第一課強(qiáng)化學(xué)習(xí)綜述
1.強(qiáng)化學(xué)習(xí)要解決的問(wèn)題
2.強(qiáng)化學(xué)習(xí)方法的分類
3.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)
4.環(huán)境搭建實(shí)驗(yàn)（Gym，TensorFlow等）
5.Gym環(huán)境的基本使用方法
第二課馬爾科夫決策過(guò)程
1.基本概念：馬爾科夫性、馬爾科夫過(guò)程、馬爾科夫決策過(guò)程
2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)
3.貝爾曼方程
4.最優(yōu)策略
案例：構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境
第三課基于模型的動(dòng)態(tài)規(guī)劃方法
1.動(dòng)態(tài)規(guī)劃概念介紹
2.策略評(píng)估過(guò)程介紹
3.策略改進(jìn)方法介紹
4.策略迭代和值迭代
案例：實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法
第四課蒙特卡羅方法
1.蒙特卡羅策略評(píng)估
2.蒙特卡羅策略改進(jìn)
3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)
4.同策略和異策略
案例：利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮
第五課時(shí)序差分方法
1.DP，MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法：Sarsa 方法
4.異策略TD方法：Q-learning 方法
案例：Q-learning和Sarsa的實(shí)現(xiàn)
第二天從強(qiáng)化學(xué)習(xí)到深度強(qiáng)化學(xué)習(xí)
第一課基于值函數(shù)逼近方法（強(qiáng)化學(xué)習(xí)）
1.維數(shù)災(zāi)難與表格型強(qiáng)化學(xué)習(xí)
2.值函數(shù)的參數(shù)化表示
3.值函數(shù)的估計(jì)過(guò)程
4.常用的基函數(shù)
第二課基于值函數(shù)逼近方法（深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合）
1.簡(jiǎn)單提一下深度學(xué)習(xí)
2.深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合
3.DQN 方法介紹
4.DQN變種：Double DQN, Prioritized Replay, Dueling Network
案例：用DQN玩游戲——flappy bird
第三課策略梯度方法（強(qiáng)化學(xué)習(xí)）
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數(shù)法，修改估計(jì)值函數(shù)法
案例：利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng)等
第四課 Alpha Go（深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合）
1.MCTS
2.策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)
3.Alpha Go的完整架構(gòu)
第五課 GAN（深度學(xué)習(xí)）
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例：生成手寫數(shù)字的GAN
第三天深度強(qiáng)化學(xué)習(xí)進(jìn)階
第一課 AC類方法-1
1. PG的問(wèn)題與AC的思路
2. AC類方法的發(fā)展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法3. A3C方法
案例：AC類方法的案例
第三課信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發(fā)展路線圖
3.TRPO方法
案例：TRPO方法的案例
第四課信賴域系方法-2
1.PPO方法
2.DPPO方法簡(jiǎn)介
3.ACER方法
案例：PPO方法的案例
第五課多Agent強(qiáng)化學(xué)習(xí)
1.矩陣博弈
2.納什均衡
3.多人隨機(jī)博弈學(xué)習(xí)
4.完全合作、完全競(jìng)爭(zhēng)與混合任務(wù)
5.MADDPG
案例：MADDPG的案例等

葉梓老師的其它課程

DeepSeek 輔助日常工作培訓(xùn)提綱 03.03

DeepSeek輔助日常工作培訓(xùn)提綱一、引言介紹大模型領(lǐng)域的競(jìng)爭(zhēng)態(tài)勢(shì)強(qiáng)調(diào)DeepSeek的獨(dú)特優(yōu)勢(shì)二、DeepSeek概述DeepSeek的發(fā)展背景與定位DeepSeek各版本的特點(diǎn)與區(qū)別三、DeepSeek部署本地單機(jī)部署DeepSeek蒸餾版的硬件要求本地單機(jī)部署DeepSeek（量化）滿血版的配置與性能本地單機(jī)多卡部署DeepSeek（量化）滿血版的策

講師：葉梓詳情

知識(shí)圖譜的Python實(shí)現(xiàn) 03.03

知識(shí)圖譜的Python實(shí)現(xiàn)【課程簡(jiǎn)介】本課程包含知識(shí)圖譜的基本概念及常用算法，并實(shí)現(xiàn)了一個(gè)基于知識(shí)圖譜的對(duì)話機(jī)器人。通過(guò)1天的系統(tǒng)學(xué)習(xí)、案例講解和動(dòng)手實(shí)踐，讓學(xué)員能初步了解知識(shí)圖譜的的相關(guān)知識(shí)與技術(shù)。【課程對(duì)象】理工科本科以上，或至少了解一種編程語(yǔ)言。知識(shí)圖譜基礎(chǔ)知識(shí)圖譜存儲(chǔ)知識(shí)圖譜基礎(chǔ)概念知識(shí)推理本體推理方法本體推理工具語(yǔ)義搜索RDF與RDFSOWL與OW

講師：葉梓詳情

智能醫(yī)療技術(shù)與ChatGPT臨床應(yīng)用三日深度培訓(xùn) 03.03

智能醫(yī)療技術(shù)與ChatGPT臨床應(yīng)用三日深度培訓(xùn)第一天：人工智能基礎(chǔ)與Python編程入門上午：人工智能在醫(yī)療領(lǐng)域的應(yīng)用概述Python編程基礎(chǔ)環(huán)境搭建、數(shù)據(jù)類型、流程控制Python環(huán)境搭建Python數(shù)據(jù)類型與流程控制Python函數(shù)的應(yīng)用Python面向?qū)ο缶幊?文件讀寫和目錄操作異常處理機(jī)器學(xué)習(xí)概述數(shù)據(jù)探索性分析：智能化數(shù)據(jù)分析特征工程：數(shù)據(jù)準(zhǔn)備、數(shù)

講師：葉梓詳情

人工智能“最強(qiáng)模型”transformer詳解-2天 03.03

人工智能“最強(qiáng)模型”transformer詳解【課程簡(jiǎn)介】Transformer是迄今為止人工智能領(lǐng)域的最新和最強(qiáng)大的模型類別之一。它幾乎正在憑借一己之力來(lái)推動(dòng)深度學(xué)習(xí)的又一波重大進(jìn)步。Transformer模型充分運(yùn)用了稱為注意力和自注意力機(jī)制，以檢測(cè)系列（或圖像）中元素相互影響和相互依賴的微妙關(guān)系。本課程通過(guò)2天時(shí)間的詳細(xì)介紹，可使學(xué)習(xí)者初步了解Tran

講師：葉梓詳情

人工智能+自然語(yǔ)言處理3天 03.03

||1.人工智能概述||第一節(jié)：人工智能與機(jī)器學(xué)習(xí)基礎(chǔ)|2.機(jī)器學(xué)習(xí)概述|||3.機(jī)器學(xué)習(xí)算法應(yīng)用分析|||1.一元線性回歸|||2.代價(jià)函數(shù)|||3.梯度下降法||第二節(jié)：回歸算法|4.sklearn一元線性回歸應(yīng)用|||5.多元線性回歸|||6.sklearn多元線性回歸應(yīng)用|||案例：葡萄酒質(zhì)量和時(shí)間的關(guān)系|||1.KNN分類算法介紹|||2.KNN分

講師：葉梓詳情

人工智能算法詳解 03.03

人工智能技術(shù)詳解【課程內(nèi)容】本課程包含大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜、強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)的相關(guān)知識(shí)?！菊n程時(shí)長(zhǎng)】7天（7小時(shí)/天）【課程對(duì)象】理工科本科及以上，且至少了解一門編程語(yǔ)言?！菊n程大綱】（培訓(xùn)內(nèi)容可根據(jù)客戶需求調(diào)整）時(shí)間內(nèi)容案例實(shí)踐與練習(xí)Day1上午準(zhǔn)備工作準(zhǔn)備工作1.概念與術(shù)語(yǔ)2.Python（Anaconda）的安裝3.Pycharm

講師：葉梓詳情

人工智能與深度學(xué)習(xí)_3天 03.03

人工智能與深度學(xué)習(xí)第一天：人工智能概念與經(jīng)典算法人工智能概念綜述（第一天——1）從一些術(shù)語(yǔ)辨析人工智能人工智能之連接主義的興衰史這次AI的熱潮是怎么來(lái)的？圖像處理領(lǐng)域的最新熱點(diǎn)（第一天——2）分類、目標(biāo)檢測(cè)與實(shí)例分割風(fēng)格遷移自動(dòng)駕駛?cè)梭w姿態(tài)識(shí)別超分辨率圖像生成語(yǔ)言處理領(lǐng)域的最新熱點(diǎn)（第一天——3）Attention機(jī)制自動(dòng)構(gòu)建知識(shí)圖譜看圖說(shuō)話預(yù)訓(xùn)練機(jī)制三大經(jīng)

講師：葉梓詳情

人工智能之自然語(yǔ)言處理技術(shù)與實(shí)戰(zhàn)(4天) 03.03

人工智能之最新自然語(yǔ)言處理技術(shù)與實(shí)戰(zhàn)課程介紹：自然語(yǔ)言處理(簡(jiǎn)稱NLP)是計(jì)算機(jī)科學(xué)和人工智能研究的一個(gè)重要方向，研究計(jì)算機(jī)和理解和運(yùn)用人類語(yǔ)言進(jìn)行交互的問(wèn)題，它是集語(yǔ)言學(xué)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、大數(shù)據(jù)于一體的綜合學(xué)科。本課程主要介紹了NLP中的常用知識(shí)點(diǎn)：分詞、詞法分析、句法分析、向量化方法、經(jīng)典的NLP機(jī)器學(xué)習(xí)算法，還重點(diǎn)介紹了NLP中最近兩年來(lái)基于大規(guī)模語(yǔ)

講師：葉梓詳情

數(shù)據(jù)分析與數(shù)據(jù)挖掘?qū)д揰兩天 03.03

第一天上午：統(tǒng)計(jì)分析原理從最簡(jiǎn)單的案例開始統(tǒng)計(jì)基礎(chǔ)描述性統(tǒng)計(jì)用SPSS實(shí)現(xiàn)描述性統(tǒng)計(jì)的案例回歸分析：線性回歸回歸分析：logistics回歸用SPSS實(shí)現(xiàn)回歸分析的案例可視化工具第一天下午：數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)介紹數(shù)據(jù)庫(kù)概述SQL（基本的增、刪、改、查）SQL（稍復(fù)雜的子句或嵌套）基于MySQL的上機(jī)操作SQL語(yǔ)言數(shù)據(jù)倉(cāng)庫(kù)：度量與維度數(shù)據(jù)倉(cāng)庫(kù)：星型模型、雪花模型

講師：葉梓詳情

計(jì)算機(jī)視覺(含姿態(tài)識(shí)別)-3天 03.03

計(jì)算機(jī)視覺【課程時(shí)長(zhǎng)】3天（7小時(shí)/天）【課程對(duì)象】理工科本科及以上，且至少了解一門編程語(yǔ)言?！菊n程大綱】（培訓(xùn)內(nèi)容可根據(jù)客戶需求調(diào)整）時(shí)間內(nèi)容案例實(shí)踐與練習(xí)Day1上午準(zhǔn)備工作準(zhǔn)備工作決策樹準(zhǔn)備工作（1）概念與術(shù)語(yǔ)Python（Anaconda）的安裝Pycharm的安裝與使用JupyterNotebook的安裝與使用Tensorflow與pytorch的

講師：葉梓詳情

發(fā)布內(nèi)容，請(qǐng)點(diǎn)我！

關(guān)注微信公眾號(hào)，請(qǐng)掃描下方二維碼：

服務(wù)熱線：010-82593357

講師申請(qǐng)/講師自薦

清華大學(xué)卓越生產(chǎn)運(yùn)營(yíng)總監(jiān)高級(jí)研修班

專欄人物更多

楊建允

潘文富

[楊建允]2024全國(guó)商業(yè)數(shù)字化技
[楊建允]2023雙11交易額出爐
[楊建允]DTC營(yíng)銷模式是傳統(tǒng)品牌
[楊建允]探析傳統(tǒng)品牌DTC營(yíng)銷模
[楊建允]專家稱預(yù)制菜是豬狗食，預(yù)
[潘文富]廠家對(duì)經(jīng)銷商工作的當(dāng)務(wù)之急
[潘文富]經(jīng)銷商轉(zhuǎn)型期間的內(nèi)部組織結(jié)
[潘文富]小型廠家的招商吸引力鍛造
[潘文富]經(jīng)銷商發(fā)展觀的四個(gè)突破
[潘文富]經(jīng)銷商的所有產(chǎn)品都要賺錢嗎

下載排行