Python機器學(xué)習(xí)(算法篇)

  培訓(xùn)講師:傅一航

講師背景:
傅一航,華為系大數(shù)據(jù)專家。傅一航,男,計算機軟件與理論碩士研究生(研究方向:數(shù)據(jù)挖掘、搜索引擎)。在華為工作十年,五篇國家專利,在華為工作期間獲得華為數(shù)項獎項,曾在英國、日本、荷蘭等國家做項目,對大數(shù)據(jù)有深入的研究。傅老師專注于大數(shù)據(jù)分析與 詳細>>

傅一航
    課程咨詢電話:

Python機器學(xué)習(xí)(算法篇)詳細內(nèi)容

Python機器學(xué)習(xí)(算法篇)

Python機器學(xué)習(xí)算法實戰(zhàn)【課程目標(biāo)】
本課程為高級課程,專注于機器學(xué)習(xí)算法,原理,以及算法實現(xiàn)及優(yōu)化。
通過本課程的學(xué)習(xí),達到如下目的:
熟悉常見的機器學(xué)習(xí)的算法。
掌握機器學(xué)習(xí)的算法原理,以及數(shù)據(jù)推導(dǎo)。
學(xué)會使用Python來實現(xiàn)機器學(xué)習(xí)算法,以及優(yōu)化算法。
掌握scikit-learn擴展庫來實現(xiàn)機器學(xué)習(xí)算法。
【授課時間】
3-5天時間
【授課對象】
IT系統(tǒng)部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)建模等IT技術(shù)人員。
【學(xué)員要求】
本課程只講算法實現(xiàn),不涉及完整的數(shù)據(jù)建模和模型使用,所以要求學(xué)員之前已經(jīng)掌握數(shù)據(jù)建?;A(chǔ),熟悉建模過程。
每個學(xué)員自備一臺便攜機(必須)。
要求有Python開發(fā)基礎(chǔ),事先安裝Python 3.9版本以上。
要求有基本的數(shù)據(jù)分析和數(shù)據(jù)挖掘的知識。
注:講師現(xiàn)場提供開源的安裝程序、擴展庫,以及現(xiàn)場分析的數(shù)據(jù)源。
【授課方式】
機器學(xué)習(xí)任務(wù) + 算法原理 + 數(shù)學(xué)推導(dǎo) + Python實現(xiàn)
從任務(wù)出發(fā),了解算法原理,以及數(shù)學(xué)推導(dǎo)過程,全過程演練操作,讓學(xué)員在分析、分享、講授、總結(jié)、自我實踐過程中獲得能力提升。
【課程大綱】
機器學(xué)習(xí)基礎(chǔ)
機器學(xué)習(xí)簡介
機器學(xué)習(xí)的種類
監(jiān)督學(xué)習(xí)/無監(jiān)督學(xué)習(xí)/半監(jiān)督學(xué)習(xí)/強化學(xué)習(xí)
批量學(xué)習(xí)和在線學(xué)習(xí)
基于實例與基于模型
機器學(xué)習(xí)的主要戰(zhàn)挑
數(shù)據(jù)量不足
數(shù)據(jù)質(zhì)量差
無關(guān)特征
過擬合/擬合不足
機器學(xué)習(xí)任務(wù)
監(jiān)督:分類、回歸
無監(jiān)督:聚類、降維、關(guān)聯(lián)規(guī)則
機器學(xué)習(xí)基本過程
機器學(xué)習(xí)常用庫
預(yù)測建?;A(chǔ)
數(shù)據(jù)建模六步法
選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
屬性篩選:選擇對目標(biāo)變量有顯著影響的屬性來建模
訓(xùn)練模型:采用合適的算法,尋找到最合適的模型參數(shù)
評估模型:進行評估模型的質(zhì)量,判斷模型是否可用
優(yōu)化模型:如果評估結(jié)果不理想,則需要對模型進行優(yōu)化
應(yīng)用模型:如果評估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場景
數(shù)據(jù)挖掘常用的模型
數(shù)值預(yù)測模型:回歸預(yù)測、時序預(yù)測等
分類預(yù)測模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機等
市場細分:聚類、RFM、PCA等
產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過濾等
產(chǎn)品優(yōu)化:回歸、隨機效用等
產(chǎn)品定價:定價策略/最優(yōu)定價等
屬性篩選/特征選擇/變量降維
基于變量本身特征
基于相關(guān)性判斷
因子合并(PCA等)
IV值篩選(評分卡使用)
基于信息增益判斷(決策樹使用)
訓(xùn)練模型及實現(xiàn)算法
模型原理
算法實現(xiàn)
模型評估
評估指標(biāo)
評估方法
過擬合評估
模型優(yōu)化
優(yōu)化模型:選擇新模型/修改模型
優(yōu)化數(shù)據(jù):新增顯著自變量
優(yōu)化公式:采用新的計算公式
模型應(yīng)用
模型解讀
模型部署
模型應(yīng)用
好模型是優(yōu)化出來的
特征工程處理
數(shù)據(jù)預(yù)處理的主要任務(wù)
數(shù)據(jù)集成:多個數(shù)據(jù)集的合并
數(shù)據(jù)清洗:異常值的處理
數(shù)據(jù)處理:數(shù)據(jù)篩選、數(shù)據(jù)精簡、數(shù)據(jù)平衡
變量處理:變量變換、變量派生、變量精簡
數(shù)據(jù)歸約:實現(xiàn)降維,避免維災(zāi)難
數(shù)據(jù)集成
數(shù)據(jù)追加(添加數(shù)據(jù))
變量合并(添加變量)
數(shù)據(jù)清洗(異常數(shù)據(jù)處理)
取值范圍限定
重復(fù)值處理
無效值/錯誤值處理
缺失值處理
離群值/極端值處理
特征工程
變量變換:原變量取值更新,比如標(biāo)準(zhǔn)化
變量派生:根據(jù)舊變量生成新的變量
類型轉(zhuǎn)換:數(shù)值型與類別型相互轉(zhuǎn)換
特征選擇:選擇合適的自變量來建模
變量合并:多個變量合并,減少變量個數(shù)
變量變換
為什么要做變量變換?
函數(shù)轉(zhuǎn)換:中心化、對數(shù)變換、平方根變換…
標(biāo)準(zhǔn)化轉(zhuǎn)換:min-max、mean、max absolution、Z-score…
正則化轉(zhuǎn)換:將數(shù)據(jù)縮放到單位范式(L1/L2變換)
正態(tài)化轉(zhuǎn)換:將變量轉(zhuǎn)換成正態(tài)分布(Box-Cox、Yeo-Johnson)
類型轉(zhuǎn)換
數(shù)字化:將字符串轉(zhuǎn)換成數(shù)字
離散化:將數(shù)值型轉(zhuǎn)換成類別型
啞變量化:將類別型轉(zhuǎn)換成數(shù)值型
特征選擇
特征選擇模式:Filter/Wrapper/Embedded
Filter特征選擇:選擇重要變量,剔除不重要的變量
從變量本身考慮:方差閾值法
從輸入變量與目標(biāo)變量的相關(guān)性考慮
變量合并
因子分析(FA)
因子分析的原理
因子個數(shù)如何選擇
如何解讀因子含義
主成分分析(PCA)
案例:提取影響電信客戶流失的主成分分析
回歸算法實現(xiàn)
建模的本質(zhì),其實是一個最優(yōu)化問題
回歸模型的基礎(chǔ)
基本概念:損失函數(shù)
線性回歸常用算法
普通最小二乘法OLS
梯度下降算法
牛頓法/擬牛頓法
最小二乘法
數(shù)學(xué)推導(dǎo)
OLS存在的問題
過擬合解決方法:正則化
嶺回歸(Ridge)
套索回歸Lasso
ElasticNet回歸
各種算法的適用場景
超大規(guī)模數(shù)據(jù)集的回歸模型:迭代算法
梯度概念
梯度下降/上升算法
批量梯度BGD/隨機梯度SGD/小批量梯度MBGD
學(xué)習(xí)率的影響
早期停止法
梯度算法的關(guān)鍵問題
牛頓法/擬牛頓法
泰勒公式(Taylor)
牛頓法(Newton)
擬牛頓法(Quasi-Newton)的優(yōu)化
DFP/BFGS/L-BFGS
算法比較
邏輯回歸算法
邏輯回歸基礎(chǔ)
LR的常用算法
最大似然估計法
梯度算法
牛頓法
最大似然估計法
似然函數(shù)/損失函數(shù)
數(shù)學(xué)推導(dǎo)
模型優(yōu)化
迭代樣本的隨機選擇
變化的學(xué)習(xí)率
邏輯回歸+正則項
求解算法與懲罰項的關(guān)系
多元邏輯回歸處理
ovoovr優(yōu)缺點比較
邏輯回歸建模實戰(zhàn)
案例:用sklearn庫實現(xiàn)銀行貸款違約預(yù)測
案例:訂閱者用戶的典型特征(二元邏輯回歸)
案例:通信套餐的用戶畫像(多元邏輯回歸)
決策樹算法
決策樹簡介
演練:識別銀行欠貨風(fēng)險,提取欠貸者的特征
決策樹的三個關(guān)鍵問題
最優(yōu)屬性選擇
熵、基尼系數(shù)
信息增益、信息增益率
屬性最佳劃分
多元劃分與二元劃分
連續(xù)變量最優(yōu)劃分
決策樹修剪
剪枝原則
預(yù)剪枝與后剪枝
構(gòu)建決策樹的算法
ID3、C4.5、C5.0
CART
決策樹的超參優(yōu)化
決策樹的解讀
決策樹建模過程
案例:商場酸奶購買用戶特征提取
案例:客戶流失預(yù)警與客戶挽留
案例:識別拖欠銀行貨款者的特征,避免不良貨款
案例:識別電信詐騙者嘴臉,讓通信更安全
案例:電力竊漏用戶自動識別
神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)簡介(ANN)
神經(jīng)元基本原理
加法器
激活函數(shù)
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
隱藏層數(shù)量
神經(jīng)元個數(shù)
神經(jīng)網(wǎng)絡(luò)的建立步驟
神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問題
BP算法實現(xiàn)
MLP多層神經(jīng)網(wǎng)絡(luò)
學(xué)習(xí)率的設(shè)置
案例:評估銀行用戶拖欠貨款的概率
案例:神經(jīng)網(wǎng)絡(luò)預(yù)測產(chǎn)品銷量
線性判別算法
判別分析簡介
判別分析算法
中心和方差
類間散席Sb
類內(nèi)散席Sw特征值和特征向量
多分類LDA算法
算法實戰(zhàn)
案例:MBA學(xué)生錄取判別分析
案例:上市公司類別評估
最近鄰算法(KNN)
KNN的基本原理
K近鄰的關(guān)鍵問題
距離公式
投票機制
KNN算法實現(xiàn)
Brute(蠻力計算)
Kd_tree(KD樹)
Ball_tre(球樹)
算法比較
貝葉斯算法(NBN)
貝葉斯簡介
貝葉斯分類原理
先驗概率和后驗概率
條件概率和類概率
常見貝葉斯網(wǎng)絡(luò)
計算類別屬性的條件概率
估計連續(xù)屬性的條件概率
預(yù)測分類概率(計算概率)
拉普拉斯修正
案例:評估銀行用戶拖欠貨款的概率
支持向量機算法(SVM)
支持向量機簡介
適用場景
支持向量機原理
支持向量
最大邊界超平面
線性不可分處理
松弛系數(shù)
非線性SVM分類
常用核函數(shù)
線性核函數(shù)
多項式核
高斯RBF核
核函數(shù)的選擇原則
SMO算法
模型集成優(yōu)化篇
模型的優(yōu)化思想
集成模型的框架
Bagging
Boosting
Stacking
集成算法的關(guān)鍵過程
弱分類器如何構(gòu)建
組合策略:多個弱學(xué)習(xí)器如何形成強學(xué)習(xí)器
Bagging集成算法
數(shù)據(jù)/屬性重抽樣
決策依據(jù):少數(shù)服從多數(shù)
隨機森林RandomForestBoosting集成算法
基于誤分?jǐn)?shù)據(jù)建模
樣本選擇權(quán)重更新
決策依據(jù):加權(quán)投票
AdaBoost模型
GBDT模型
XGBoost模型
LightGBM模型
聚類分析(客戶細分)實戰(zhàn)
聚類基本原理
K均值聚類算法
K均值算法
距離計算公式
閔可夫斯基距離(Minkowski Distance)
曼哈頓距離(Manhattan Distance)
歐氏距離(Euclidean Distance)
切比雪夫距離(Chebyshev Distance)
余弦距離(Cosine)
Pearson相似距離
馬哈拉諾比斯距離(Mahalanobis)
漢明距離(Hamming distance)
杰卡德相似系數(shù)(Jaccard similarity coefficient)
相對熵(K-L距離)
K均值算法的關(guān)鍵問題
初始中心的選取方式
最優(yōu)K值的選取
聚類算法的評價方法
Elbow method(手肘法)
Calinski-Harabasz Index(CH準(zhǔn)則法)
Silhouette Coefficient(輪廓系數(shù)法)
Gap Statistic(間隔統(tǒng)計量法)
Canopy算法
算法實戰(zhàn)
案例:使用SKLearn實現(xiàn)K均值聚類
關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則基本原理
常用關(guān)聯(lián)規(guī)則算法
Apriori算法
發(fā)現(xiàn)頻繁集
生成關(guān)聯(lián)規(guī)則
FP-Growth算法
構(gòu)建FP樹
提取規(guī)則
算法實戰(zhàn)
案例:使用apriori庫實現(xiàn)關(guān)聯(lián)分析
案例:中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘
協(xié)同過濾算法
協(xié)同過濾基本原理
協(xié)同過濾的兩各類型
基于用戶的協(xié)同過濾UserCF基于物品的協(xié)同過濾ItemCF相似度評估常用公式
UserCF算法實現(xiàn)
計算用戶間的興趣相似度
篩選前K個相似用戶
合并相似用戶購買過的物品集
剔除該用戶已經(jīng)購買過的產(chǎn)品,得到候選物品集
計算該用戶對物品的喜歡程度,物品集排序
優(yōu)先推薦前N個物品
ItemCF算法實現(xiàn)
計算物品間的相似度
篩選前K個喜歡的物品
合并與前K個物品相似的前L個物品集
剔除該用戶已經(jīng)購買過的物品,得到候選物品集
計算該用戶到候選物品的喜愛程度,物品排序
優(yōu)先推薦前N個物品
關(guān)于冷啟動問題
協(xié)同過濾算法比較
結(jié)束:課程總結(jié)與問題答疑。

 

傅一航老師的其它課程

數(shù)據(jù)分析方法及生產(chǎn)運營實際應(yīng)用【課程目標(biāo)】本課程主要介紹數(shù)據(jù)分析在生產(chǎn)運營過程中的應(yīng)用,適用于制造行業(yè)/保險行業(yè)的數(shù)據(jù)分析人員等。本課程的主要目的是,幫助學(xué)員了解大數(shù)據(jù)的本質(zhì),培養(yǎng)學(xué)員的數(shù)據(jù)意識和數(shù)據(jù)思維,掌握常用的統(tǒng)計分析方法和工具,以及生產(chǎn)、運營過程中的應(yīng)用,并以概率的方式來進行決策,提升學(xué)員的數(shù)據(jù)分析及應(yīng)用能力。本課程具體內(nèi)容包括:數(shù)據(jù)決策邏輯,數(shù)據(jù)決

 講師:傅一航詳情


大數(shù)據(jù)建模大賽輔導(dǎo)實戰(zhàn)【課程目標(biāo)】本課程主要面向?qū)I(yè)人士的大數(shù)據(jù)建模競賽輔導(dǎo)需求(假定學(xué)員已經(jīng)完成Python建模及優(yōu)化--回歸篇/分類篇的學(xué)習(xí))。通過本課程的學(xué)習(xí),達到如下目的:熟悉大賽常用集成模型掌握模型優(yōu)化常用措施,掌握超參優(yōu)化策略掌握特征工程處理,以及對模型質(zhì)量的影響掌握建模工程管道類(Pipeline,ColumnTransformer)的使用【授

 講師:傅一航詳情


大數(shù)據(jù)時代的精準(zhǔn)營銷【課程目標(biāo)】本課程從實際的市場營銷問題出發(fā),了解大數(shù)據(jù)在市場營銷領(lǐng)域的價值以及應(yīng)用。并對大數(shù)據(jù)分析與挖掘技術(shù)進行了介紹,通過從大量的市場營銷數(shù)據(jù)中分析潛在的客戶特征,挖掘客戶行為特點,實現(xiàn)精準(zhǔn)營銷,幫助市場營銷團隊深入理解業(yè)務(wù)運作,支持業(yè)務(wù)策略制定以及營銷決策。通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)營銷內(nèi)容,掌握大數(shù)據(jù)在營銷中的應(yīng)用。

 講師:傅一航詳情


大數(shù)據(jù)時代的精準(zhǔn)營銷【課程目標(biāo)】本課程從實際的市場營銷問題出發(fā),了解大數(shù)據(jù)在市場營銷領(lǐng)域的價值以及應(yīng)用。并對大數(shù)據(jù)分析與挖掘技術(shù)進行了介紹,通過從大量的市場營銷數(shù)據(jù)中分析潛在的客戶特征,挖掘客戶行為特點,實現(xiàn)精準(zhǔn)營銷,幫助市場營銷團隊深入理解業(yè)務(wù)運作,支持業(yè)務(wù)策略制定以及營銷決策。通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)營銷內(nèi)容,掌握大數(shù)據(jù)在營銷中的應(yīng)用。

 講師:傅一航詳情


大數(shù)據(jù)決策思維與商業(yè)模式創(chuàng)新,賦能企業(yè)增長【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)挖掘工具:SPSSStatistics入門與提高【課程目標(biāo)】本課程為數(shù)據(jù)分析和挖掘的工具篇,本課程面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與挖掘的人士,專注大數(shù)據(jù)挖掘工具SPSSStatistics的培訓(xùn)。IBMSPSS工具是面向非專業(yè)人士的高級的分析工具(挖掘工具),它提供大量的分析方法和分析模型,能夠解決更復(fù)雜的業(yè)務(wù)問題,比如影響因素分析、客戶行為預(yù)測/精

 講師:傅一航詳情


金融行業(yè)風(fēng)險預(yù)測模型實戰(zhàn)【課程目標(biāo)】本課程專注于金融行業(yè)的風(fēng)控模型,面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與建模的人士。本課程的主要目的是,培養(yǎng)學(xué)員的大數(shù)據(jù)意識和大數(shù)據(jù)思維,掌握常用的數(shù)據(jù)分析方法和數(shù)據(jù)分析模型,并能夠用于對客戶行為作分析和預(yù)測,提升學(xué)員的數(shù)據(jù)分析綜合能力。通過本課程的學(xué)習(xí),達到如下目的:掌握數(shù)據(jù)分析和數(shù)據(jù)建模的基本過程和步驟掌握客戶行為分析中常用

 講師:傅一航詳情


COPYRIGT @ 2001-2018 HTTP://m.fanshiren.cn INC. ALL RIGHTS RESERVED. 管理資源網(wǎng) 版權(quán)所有