數(shù)據(jù)挖掘視頻教程下載
2016年
課程介紹:
此套數(shù)據(jù)挖掘視頻教程包括10個課時的內(nèi)容,從基礎入門知識講起,到項目實戰(zhàn)講解,由淺入深、從基礎入門到海量數(shù)據(jù)挖掘/處理,穩(wěn)步推進一套從入門到實戰(zhàn)數(shù)據(jù)挖掘視頻教程。
數(shù)據(jù)挖掘視頻教程目錄結構介紹:
1、數(shù)據(jù)挖掘基礎入門:數(shù)據(jù)科學與數(shù)學基礎知識)
內(nèi)容:數(shù)據(jù)挖掘基礎,微積分、概率論、線性代數(shù)基礎
實踐:用numpy進行矩陣運算
2、數(shù)據(jù)處理/分析與可視化
內(nèi)容:數(shù)據(jù)獲取、數(shù)據(jù)格式、數(shù)據(jù)內(nèi)容處理與分析、數(shù)據(jù)的可視化
實踐:用python解析和清洗數(shù)據(jù),pandas統(tǒng)計與分析數(shù)據(jù),matplotlib和seaborn等做可視化
3、海量數(shù)據(jù)的分布式處理
內(nèi)容:hadoop,Spark介紹,Map Reduce數(shù)據(jù)處理,hive與常見數(shù)據(jù)統(tǒng)計分析
實踐:map reduce計數(shù),文件關聯(lián)與特征mapping,hiveql統(tǒng)計示例
4、數(shù)據(jù)上的關聯(lián)規(guī)則
內(nèi)容:數(shù)據(jù)關聯(lián)分析,海量數(shù)據(jù)的關聯(lián)分析方案,A-Priori與PCY算法
實踐:小型商業(yè)服務中的在線認證企業(yè)資料挖掘,人群背景與身份關聯(lián)挖掘
5、數(shù)據(jù)與聚類
內(nèi)容:聚類與社區(qū)發(fā)現(xiàn)算法,深度剖析Kmeans等算法
實踐:Spark MLlib下的K-Means算法與GraphX下的Label-Propagation算法實踐
6、海量數(shù)據(jù)索引與近似最近鄰
內(nèi)容:海量數(shù)據(jù)檢索問題,近似最近鄰(ANN)常用算法
實踐:海量圖像數(shù)據(jù)與最近圖片檢索
7、數(shù)據(jù)分類與排序
內(nèi)容:有監(jiān)督學習與分類,LR、SVM、深度神經(jīng)網(wǎng)絡與分類排序問題,樣本高效訓練
實踐:kaggle分類問題、海量數(shù)據(jù)下電商的CTR預估問題
8、海量數(shù)據(jù)與推薦系統(tǒng)
內(nèi)容:基于內(nèi)容的推薦算法,協(xié)同過濾,隱因子模型
實踐:基于用戶/商品的協(xié)同過濾推薦,隱因子模型電影推薦
9、海量高維數(shù)據(jù)與維度約減
內(nèi)容:數(shù)據(jù)降維與SVD,CUR分解
實踐:SVD與PCA在推薦系統(tǒng)與數(shù)據(jù)壓縮應用
10、海量網(wǎng)頁搜索與PageRank
內(nèi)容:海量數(shù)據(jù)構成的圖關聯(lián)分析,PageRank與網(wǎng)頁搜索
實踐:PageRank在圖關聯(lián)數(shù)據(jù)上的應用與排序
數(shù)據(jù)挖掘視頻教程部分資料截圖展示: