強化學習與深度強化學習_3天提綱

  培訓講師:葉梓

講師背景:
葉梓老師葉梓,工學博士,高級工程師?,F(xiàn)某大型上市企業(yè)資深技術(shù)專家。2005年上海交通大學計算機專業(yè)博士畢業(yè),在校期間的主研方向為數(shù)據(jù)挖掘、機器學習、人工智能。畢業(yè)后即進入軟件行業(yè)從事信息化技術(shù)相關(guān)工作;負責或參與了多項、省市級人工智能及大數(shù) 詳細>>

葉梓
    課程咨詢電話:

強化學習與深度強化學習_3天提綱詳細內(nèi)容

強化學習與深度強化學習_3天提綱

強化學習與深度強化學習
【課程時長】
3天(6小時/天)
【課程簡介】
強化學習是當前最熱門的研究方向之一,廣泛應(yīng)用于機器人學、電子競技等領(lǐng)域。本課程系統(tǒng)性的介紹了強化學習(深度強化學習)的基本理論和關(guān)鍵算法,包括:馬爾科夫決策過程、動態(tài)規(guī)劃法、蒙特卡羅法、時間差分法、值函數(shù)逼近法,策略梯度法等;以及該領(lǐng)域的最新前沿發(fā)展,包括:DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強化學習等;同時也介紹大量的實際案例,包括深度強化學習中最著名的工程應(yīng)用:Alpha Go。
【課程對象】
計算機相關(guān)專業(yè)本科;或理工科本科,具備初步的IT基礎(chǔ)知識的人員
第一天 強化學習
第一課 強化學習綜述
1.強化學習要解決的問題
2.強化學習方法的分類
3.強化學習方法的發(fā)展趨勢
4.環(huán)境搭建實驗(Gym,TensorFlow等)
5.Gym環(huán)境的基本使用方法
第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數(shù)、狀態(tài)行為值函數(shù)
3.貝爾曼方程
4.最優(yōu)策略
案例:構(gòu)建機器人找金幣和迷宮的環(huán)境
第三課 基于模型的動態(tài)規(guī)劃方法
1.動態(tài)規(guī)劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
案例:實現(xiàn)基于模型的強化學習算法
第四課 蒙特卡羅方法
1.蒙特卡羅策略評估
2.蒙特卡羅策略改進
3.基于蒙特卡羅的強化學習
4.同策略和異策略
案例:利用蒙特卡羅方法實現(xiàn)機器人找金幣和迷宮
第五課 時序差分方法
1.DP,MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
案例:Q-learning和Sarsa的實現(xiàn)
第二天 從強化學習到深度強化學習
第一課 基于值函數(shù)逼近方法(強化學習)
1.維數(shù)災難與表格型強化學習
2.值函數(shù)的參數(shù)化表示
3.值函數(shù)的估計過程
4.常用的基函數(shù)
第二課 基于值函數(shù)逼近方法(深度學習與強化學習的結(jié)合)
1.簡單提一下深度學習
2.深度學習與強化學習的結(jié)合
3.DQN 方法介紹
4.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第三課 策略梯度方法(強化學習)
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數(shù)法,修改估計值函數(shù)法
案例:利用gym和tensorflow實現(xiàn)小車倒立擺系統(tǒng)等
第四課 Alpha Go(深度學習與強化學習的結(jié)合)
1.MCTS
2.策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)
3.Alpha Go的完整架構(gòu)
第五課 GAN(深度學習)
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例:生成手寫數(shù)字的GAN
第三天 深度強化學習進階
第一課 AC類方法-1
1. PG的問題與AC的思路
2. AC類方法的發(fā)展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法3. A3C方法
案例:AC類方法的案例
第三課 信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發(fā)展路線圖
3.TRPO方法
案例:TRPO方法的案例
第四課 信賴域系方法-2
1.PPO方法
2.DPPO方法簡介
3.ACER方法
案例:PPO方法的案例
第五課 多Agent強化學習
1.矩陣博弈
2.納什均衡
3.多人隨機博弈學習
4.完全合作、完全競爭與混合任務(wù)
5.MADDPG
案例:MADDPG的案例等

 

葉梓老師的其它課程

DeepSeek輔助日常工作培訓提綱一、引言介紹大模型領(lǐng)域的競爭態(tài)勢強調(diào)DeepSeek的獨特優(yōu)勢二、DeepSeek概述DeepSeek的發(fā)展背景與定位DeepSeek各版本的特點與區(qū)別三、DeepSeek部署本地單機部署DeepSeek蒸餾版的硬件要求本地單機部署DeepSeek(量化)滿血版的配置與性能本地單機多卡部署DeepSeek(量化)滿血版的策

 講師:葉梓詳情


知識圖譜的Python實現(xiàn)【課程簡介】本課程包含知識圖譜的基本概念及常用算法,并實現(xiàn)了一個基于知識圖譜的對話機器人。通過1天的系統(tǒng)學習、案例講解和動手實踐,讓學員能初步了解知識圖譜的的相關(guān)知識與技術(shù)?!菊n程對象】理工科本科以上,或至少了解一種編程語言。知識圖譜基礎(chǔ)知識圖譜存儲知識圖譜基礎(chǔ)概念知識推理本體推理方法本體推理工具語義搜索RDF與RDFSOWL與OW

 講師:葉梓詳情


智能醫(yī)療技術(shù)與ChatGPT臨床應(yīng)用三日深度培訓第一天:人工智能基礎(chǔ)與Python編程入門上午:人工智能在醫(yī)療領(lǐng)域的應(yīng)用概述Python編程基礎(chǔ)環(huán)境搭建、數(shù)據(jù)類型、流程控制Python環(huán)境搭建Python數(shù)據(jù)類型與流程控制Python函數(shù)的應(yīng)用Python面向?qū)ο缶幊?文件讀寫和目錄操作異常處理機器學習概述數(shù)據(jù)探索性分析:智能化數(shù)據(jù)分析特征工程:數(shù)據(jù)準備、數(shù)

 講師:葉梓詳情


人工智能“最強模型”transformer詳解【課程簡介】Transformer是迄今為止人工智能領(lǐng)域的最新和最強大的模型類別之一。它幾乎正在憑借一己之力來推動深度學習的又一波重大進步。Transformer模型充分運用了稱為注意力和自注意力機制,以檢測系列(或圖像)中元素相互影響和相互依賴的微妙關(guān)系。本課程通過2天時間的詳細介紹,可使學習者初步了解Tran

 講師:葉梓詳情


||1.人工智能概述||第一節(jié):人工智能與機器學習基礎(chǔ)|2.機器學習概述|||3.機器學習算法應(yīng)用分析|||1.一元線性回歸|||2.代價函數(shù)|||3.梯度下降法||第二節(jié):回歸算法|4.sklearn一元線性回歸應(yīng)用|||5.多元線性回歸|||6.sklearn多元線性回歸應(yīng)用|||案例:葡萄酒質(zhì)量和時間的關(guān)系|||1.KNN分類算法介紹|||2.KNN分

 講師:葉梓詳情


人工智能技術(shù)詳解【課程內(nèi)容】本課程包含大數(shù)據(jù)、機器學習、深度學習、知識圖譜、強化學習與深度強化學習的相關(guān)知識?!菊n程時長】7天(7小時/天)【課程對象】理工科本科及以上,且至少了解一門編程語言?!菊n程大綱】(培訓內(nèi)容可根據(jù)客戶需求調(diào)整)時間內(nèi)容案例實踐與練習Day1上午準備工作準備工作1.概念與術(shù)語2.Python(Anaconda)的安裝3.Pycharm

 講師:葉梓詳情


人工智能與深度學習第一天:人工智能概念與經(jīng)典算法人工智能概念綜述(第一天——1)從一些術(shù)語辨析人工智能人工智能之連接主義的興衰史這次AI的熱潮是怎么來的?圖像處理領(lǐng)域的最新熱點(第一天——2)分類、目標檢測與實例分割風格遷移自動駕駛?cè)梭w姿態(tài)識別超分辨率圖像生成語言處理領(lǐng)域的最新熱點(第一天——3)Attention機制自動構(gòu)建知識圖譜看圖說話預訓練機制三大經(jīng)

 講師:葉梓詳情


人工智能之最新自然語言處理技術(shù)與實戰(zhàn)課程介紹:自然語言處理(簡稱NLP)是計算機科學和人工智能研究的一個重要方向,研究計算機和理解和運用人類語言進行交互的問題,它是集語言學、機器學習、統(tǒng)計學、大數(shù)據(jù)于一體的綜合學科。本課程主要介紹了NLP中的常用知識點:分詞、詞法分析、句法分析、向量化方法、經(jīng)典的NLP機器學習算法,還重點介紹了NLP中最近兩年來基于大規(guī)模語

 講師:葉梓詳情


第一天上午:統(tǒng)計分析原理從最簡單的案例開始統(tǒng)計基礎(chǔ)描述性統(tǒng)計用SPSS實現(xiàn)描述性統(tǒng)計的案例回歸分析:線性回歸回歸分析:logistics回歸用SPSS實現(xiàn)回歸分析的案例可視化工具第一天下午:數(shù)據(jù)庫與數(shù)據(jù)倉庫介紹數(shù)據(jù)庫概述SQL(基本的增、刪、改、查)SQL(稍復雜的子句或嵌套)基于MySQL的上機操作SQL語言數(shù)據(jù)倉庫:度量與維度數(shù)據(jù)倉庫:星型模型、雪花模型

 講師:葉梓詳情


計算機視覺【課程時長】3天(7小時/天)【課程對象】理工科本科及以上,且至少了解一門編程語言?!菊n程大綱】(培訓內(nèi)容可根據(jù)客戶需求調(diào)整)時間內(nèi)容案例實踐與練習Day1上午準備工作準備工作決策樹準備工作(1)概念與術(shù)語Python(Anaconda)的安裝Pycharm的安裝與使用JupyterNotebook的安裝與使用Tensorflow與pytorch的

 講師:葉梓詳情


 發(fā)布內(nèi)容,請點我! 講師申請/講師自薦
清華大學卓越生產(chǎn)運營總監(jiān)高級研修班
清華大學卓越生產(chǎn)運營總監(jiān)高級研修班
COPYRIGT @ 2001-2018 HTTP://m.fanshiren.cn INC. ALL RIGHTS RESERVED. 管理資源網(wǎng) 版權(quán)所有