公開課 內(nèi)訓課 培訓師
首頁 公開課 內(nèi)訓課 特惠課程 培訓師 培訓專題 在線文檔 管理名言 會員專區(qū) 積分兌換 聯(lián)系我們 關于我們 誠聘英才     
首頁 >> 公開課 >> 特色課程 >> 關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知
關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知 下載課程WORD文檔
添加時間:2019-01-15      修改時間: 2019-01-15      課程編號:100287358
《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》課程詳情
點擊下載課大綱及報名表
課程介紹
1. Hadoop板塊
Hadoop 設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優(yōu)點,才使得Hadoop 一出現(xiàn)就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。
對電信運營商而言,用戶上網(wǎng)日志包含了大量用戶個性化需求、喜好信息,對其進行分析和挖掘,能更好地了解客戶需求。傳統(tǒng)經(jīng)營分析系統(tǒng)小型機加關系型數(shù)據(jù)庫的架構無法滿足對海量非結(jié)構化數(shù)據(jù)的處理需求,搭建基于X86的Hadoop 平臺,引入大數(shù)據(jù)處理技術的方式,實現(xiàn)高效率、低成本、易擴展的經(jīng)營分析系統(tǒng)混搭架構成
2. 需求理解
為電信運營商最為傾向的選擇。本課程將全面介紹Hadoop平臺開發(fā)和運維的各項技術,對學員使用該項技術具有很高的應用價值。
3. 培訓課程架構與設計思路


(1)培訓架構:
本課程分為三個主要部分:
第一部分:重點講述大數(shù)據(jù)技術在的應用,使學員對大數(shù)據(jù)技術的廣泛應用有清晰的認識,在這環(huán)節(jié)當中會重點介紹Hadoop技術在整個大數(shù)據(jù)技術應用中的重要地位和應用情況。
第二部分:具體對hadoop技術進行模塊化分拆,從大數(shù)據(jù)文件存儲系統(tǒng)技術和分布式文件系統(tǒng)平臺及其應用談起,介紹Hadoop技術各主要應用工具和方法,以及在運維維護當中的主流做法,使學員全面了解和掌握Hadoop技術的精華。
第三部分:重點剖析大數(shù)據(jù)的應用案例,使學員在案例當中對該項技術有更深入的感觀印象


(2)設計思路:
本課程采用模塊化教學方法,以案例分析為主線,由淺入深、循序漸進、由理論到實踐操作進行設計。
(3)與企業(yè)的貼合點:
本課程結(jié)合企業(yè)轉(zhuǎn)型發(fā)展及大數(shù)據(jù)發(fā)展戰(zhàn)略,圍繞企業(yè)大數(shù)據(jù)業(yè)務及行業(yè)應用市場拓展發(fā)展目標,重點講授Hadoop的應用技術,提升企業(yè)IT技術人員的開發(fā)和運維能力,有很強的貼合度。
大數(shù)據(jù)建模與挖掘板塊
本次課程面向有一定的數(shù)據(jù)分析挖掘算法基礎的工程師,帶大家實踐大數(shù)據(jù)分析挖掘平臺的項目訓練,系統(tǒng)地講解數(shù)據(jù)準備、數(shù)據(jù)建模、挖掘模型建立、大數(shù)據(jù)分析與挖掘算法應用在業(yè)務模型中,結(jié)合主流的Hadoop與Spark大數(shù)據(jù)分析平臺架構,實現(xiàn)項目訓練。
結(jié)合業(yè)界使用最廣泛的主流大數(shù)據(jù)平臺技術,重點剖析基于大數(shù)據(jù)分析算法與BI技術應用,包括分類算法、聚類算法、預測分析算法、推薦分析模型等在業(yè)務中的實踐應用,并根據(jù)講師給定的數(shù)據(jù)集,實現(xiàn)兩個基本的日志數(shù)據(jù)分析挖掘系統(tǒng),以及電商(或內(nèi)容)推薦系統(tǒng)引擎。
本課程基本的實踐環(huán)境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。
學員需要準備的電腦最好是i5及以上CPU,4GB及以上內(nèi)存,硬盤空間預留50GB(可用移動硬盤),基本的大數(shù)據(jù)分析平臺所依賴的軟件包和依賴庫等,講師已經(jīng)提前部署在虛擬機鏡像(VMware鏡像),學員根據(jù)講師的操作任務進行實踐。
本課程采用技術原理與項目實戰(zhàn)相結(jié)合的方式進行教學,在講授原理的過程中,穿插實際的系統(tǒng)操作,本課程講師也精心準備的實際的應用案例供學員動手訓練。


Python機器學習板塊
1.每個算法模塊按照“原理講解→分析數(shù)據(jù)→自己動手實現(xiàn)→特征與調(diào)參”的順序。
2.“Python數(shù)據(jù)清洗和特征提取”,提升學習深度、降低學習坡度。
3.增加網(wǎng)絡爬蟲的原理和編寫,從獲取數(shù)據(jù)開始,重視將實踐問題轉(zhuǎn)換成實際模型的能力,分享工作中的實際案例或Kaggle案例:廣告銷量分析、環(huán)境數(shù)據(jù)異常檢測和分析、數(shù)字圖像手寫體識別、Titanic乘客存活率預測、用戶-電影推薦、真實新聞組數(shù)據(jù)主題分析、中文分詞、股票數(shù)據(jù)特征分析等。
4.強化矩陣運算、概率論、數(shù)理統(tǒng)計的知識運用,掌握機器學習根本。
5.闡述機器學習原理,提供配套源碼和數(shù)據(jù)。
6.以直觀解釋,增強感性理解。
7.對比不同的特征選擇帶來的預測效果差異。
8.重視項目實踐,重視落地。思考不同算法之間的區(qū)別和聯(lián)系,提高在實際工作中選擇算法的能力。
9.涉及和講解的部分Python庫有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn。


培訓大綱
Hadoop培訓內(nèi)容介紹


模塊一 移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算相關技術介紹
1、 數(shù)據(jù)中心與云計算技術應用
2、 智慧城市與云計算技術應用
3、 移動互聯(lián)網(wǎng)、大數(shù)據(jù)與云計算關聯(lián)技術
4、 移動云計算的生態(tài)系統(tǒng)及產(chǎn)業(yè)鏈
5、 大數(shù)據(jù)技術在運營商、金融業(yè)、銀行業(yè)、電子商務行業(yè)、零售業(yè)、制造業(yè)、政務信息化、互聯(lián)網(wǎng)、教育信息化等行業(yè)中的應用實踐
6、 國內(nèi)外主流的大數(shù)據(jù)解決方案介紹
7、 當前大數(shù)據(jù)解決方案與傳統(tǒng)數(shù)據(jù)庫方案的剖析比較
8、 Cloudera Hadoop 大數(shù)據(jù)平臺方案剖析
9、 開源的大數(shù)據(jù)生態(tài)系統(tǒng)平臺剖析


模塊二 大數(shù)據(jù)的挑戰(zhàn)和發(fā)展方向
1、 大數(shù)據(jù)時代的挑戰(zhàn)
 戰(zhàn)略決策能力
 技術開發(fā)和數(shù)據(jù)處理能力
 組織和運營能力
2、 大數(shù)據(jù)時代的發(fā)展方向
 云計算是基礎設施架構
 大數(shù)據(jù)是靈魂資產(chǎn)
 分析、挖掘是手段
 發(fā)現(xiàn)和預測是最終目標
3、 大數(shù)據(jù)挖掘在各行業(yè)應用情況
 電信行業(yè)應用及案例分析
 互聯(lián)網(wǎng)行業(yè)應用及案例分析
 金融行業(yè)應用及案例研究
 銷售行業(yè)應用案例分析




模塊三 大數(shù)據(jù)文件存儲系統(tǒng)技術和分布式文件系統(tǒng)平臺及其應用
1、 Hadoop的發(fā)展歷程
 Hadoop大數(shù)據(jù)平臺架構
 基于Hadoop平臺的PB級大數(shù)據(jù)存儲管理與分析處理的工作原理與機制
 Hadoop 的核心組件剖析
2、 分布式文件系統(tǒng)HDFS
 概述、功能、作用、優(yōu)勢
 應用范疇、應用現(xiàn)狀
 發(fā)展趨勢
3、 分布式文件系統(tǒng)HDFS架構及原理
 核心關鍵技術
 設計精髓
 基本工作原理
 系統(tǒng)架構
 文件存儲模式
 工作機制
 存儲擴容與吞吐性能擴展
4、 分布式文件系統(tǒng)HDFS操作
 SHELL命令操作
 I/O流式操作
 文件數(shù)據(jù)讀取、寫入、追加、刪除
 文件狀態(tài)查詢
 數(shù)據(jù)塊分布機制
 數(shù)據(jù)同步與一致性
 元數(shù)據(jù)管理技術
 主節(jié)點與從節(jié)點工作機制
 大數(shù)據(jù)負載均衡技術
 HDFS大數(shù)據(jù)存儲集群管理技術
5、 Hadoop生態(tài)系統(tǒng)組件
 Storm
 HDFS
 MapReduce
 HIVE
 HBase
 Spark
 GraphX
 MLib
 Shark


模塊四 Hadoop文件系統(tǒng)HDFS最佳實戰(zhàn)
1、 HDFS的設計
2、 HDFS的概念
 數(shù)據(jù)塊
 namenode和datanode
 聯(lián)邦HDFS
 HDFS的高可用性
3、 命令行接口
4、 Hadoop文件系統(tǒng)
5、 Java接口
 從Hadoop URL讀取數(shù)據(jù)
 通過FileSystem API讀取數(shù)據(jù)
 寫入數(shù)據(jù)
 目錄
 查詢文件系統(tǒng)
 刪除數(shù)據(jù)
6、 數(shù)據(jù)流
 剖析文件讀取
 剖析文件寫入
 一致模型
7、 通過Flume和Sqoop導入數(shù)據(jù)
8、 通過distcp并行復制
9、 Hadoop存檔
 使用Hadoop存檔工具
 不足


模塊五 Hadoop運維管理與性能調(diào)優(yōu)
1、 第二代大數(shù)據(jù)處理框架
 Yarn的工作原理及
 DAG并行執(zhí)行機制
 Yarn大數(shù)據(jù)分析處理案例分析
 Yarn 框架并行應用程序?qū)嵺`
2、 集群配置管理
 Hadoop集群配置
 Hadoop性能調(diào)優(yōu)與參數(shù)配置
 Hadoop機架感知策略與配置
 Hadoop壓縮機制
 Hadoop任務負載均衡
 Hadoop 集群維護
 Hadoop監(jiān)控管理
3、 HDFS的靜態(tài)調(diào)優(yōu)技巧
 HDFS 的高吞吐量I/O性能調(diào)優(yōu)技巧
 MapReduce/Yarn的并行處理性能調(diào)優(yōu)技巧
 Hadoop集群的運行故障剖析,以及解決方案
 基于Hadoop大數(shù)據(jù)應用程序的性能瓶頸剖析與提
 Hadoop 大數(shù)據(jù)運維監(jiān)控管理系統(tǒng) HUE 平臺的安裝部署與應用配置
 Hadoop運維管理監(jiān)控系統(tǒng)Ambari平臺的安裝部配置
 Hadoop 集群運維系統(tǒng) Ganglia, Nagios的安裝部署與應用配置


模塊六 NOSQL數(shù)據(jù)庫Hbase與Redis
1、 NOSQL基礎
 CAP理論
 Base與ACID
 NOSQL數(shù)據(jù)庫存儲類型
鍵值存儲
列存儲
文檔存儲
圖形存儲
2、 HBase分布式數(shù)據(jù)基礎
3、 安裝Hbase
4、 Hbase應用
 HBase的邏輯數(shù)據(jù)模型,HBase的表、行、列族、列、單元格、版本、row key排序
 HBase的物理模型,命名空間(表空間)、表模式(Schema)的設計法則
 HBase 主節(jié)點HMaster的工作原理,HMaster的高可用配置,以及性能調(diào)優(yōu)
 HBase 從節(jié)點RegionServer(分區(qū)服務節(jié)點)的工作原理,表分區(qū)及存儲I/O高并發(fā)配置,以及性能調(diào)優(yōu)
 HBase的存儲引擎工作原理,以及HBase表數(shù)據(jù)的鍵值存儲結(jié)構,以及HFile存儲結(jié)構剖析
 HBase表設計與數(shù)據(jù)操作以及數(shù)據(jù)庫管理操作
 HBase集群的安裝部署、參數(shù)配置和性能優(yōu)化
5、 HBase分布式數(shù)據(jù)庫簡介、發(fā)展歷程、應用場景、工作原理、以及應用優(yōu)勢與不足之處
 HBase分布式數(shù)據(jù)庫集群的主從式平臺架構和關鍵技術剖析
 HBase偽分布式和物理集群分布式的控制與運行配置
 HBase從節(jié)點RegionServer(分區(qū)服務節(jié)點)的工作原理,表分區(qū)及存儲I/O高并發(fā)配置,以及性能調(diào)優(yōu)
 HBase的存儲引擎工作原理,以及HBase表數(shù)據(jù)的鍵值存儲結(jié)構,以及HFile存儲結(jié)構剖析
 HBase表設計與數(shù)據(jù)操作以及數(shù)據(jù)庫管理操作
 HBase集群的安裝部署、參數(shù)配置和性能優(yōu)化
 ZooKeeper分布式協(xié)調(diào)服務系統(tǒng)的工作原理、平臺架構、集群部署應用實戰(zhàn)
 ZooKeeper集群的原理架構,以及應用配置
6、 Redis內(nèi)存數(shù)據(jù)庫介紹,以及業(yè)界應用案例
 Redis內(nèi)存數(shù)據(jù)庫集群架構以及核心技術剖析
 Redis 集群的安裝部署與應用開發(fā)實戰(zhàn)


模塊七 類SQL語句工具——Hive
1、 安裝Hive
2、 示例
3、 運行Hive
 配置Hive
 Hive服務
 Metastore
4、 Hive與傳統(tǒng)數(shù)據(jù)庫相比
 讀時模式vs.寫時模式
 更新、事務和索引
5、 HiveQL
 數(shù)據(jù)類型
 操作與函數(shù)
6、 表
 托管表和外部表
 分區(qū)和桶
 存儲格式
 導入數(shù)據(jù)
 表的修改
 表的丟棄
7、 查詢數(shù)據(jù)
 排序和聚集
 MapReduce腳本
 連接
 子查詢
 視圖
8、 用戶定義函數(shù)
 寫UDF
 寫UDAF


模塊八 數(shù)據(jù)挖掘SPARK建;A介紹
1、 Spark簡介
 Spark是什么
 Spark生態(tài)系統(tǒng)BDAS
2、 Spark架構
 Spark分布式架構與單機多核架構的異同
3、 Spark集群的安裝與部署
 Spark的安裝與部署
 Spark集群初試
4、 Spark硬件配置
 Spark硬件
 Spark硬件配置流程


模塊九 Kafka基礎介紹
1、 Kafka介紹
2、 kafka體系結(jié)構
3、 kafka設計理念簡介
4、 kafka通信協(xié)議
5、 kafka的偽分布安裝、集群安裝
6、 kafka的shell操作、java操作
7、 kafka設計理念*
8、 kafka producer和consumer開發(fā)
9、 Kafka分布式消息訂閱系統(tǒng)的應用介紹、平臺架構、集群部署與配置應用實戰(zhàn)
10、 Flume-NG數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)流模型、平臺架構、集群部署與配置應用實戰(zhàn)
11、 Hadoop與DBMS之間數(shù)據(jù)交互工具Sqoop的應用實踐,
12、 Sqoop導入導出數(shù)據(jù)以及Sqoop集群部署與配置
13、 Kettle 集群的平臺架構、核心技術、部署配置和應用實戰(zhàn)
14、 利用Sqoop實現(xiàn) MySQL 與 Hadoop 集群之間


模塊十 大數(shù)據(jù)典型應用與開發(fā)案例分析:互聯(lián)網(wǎng)數(shù)據(jù)運營
1、 案例1:貴州數(shù)據(jù)交易中心
 交易所交易形式:電子交易
 交易所服務:大數(shù)據(jù)交易、大數(shù)據(jù)清洗建模分析、大數(shù)據(jù)定向采購、大數(shù)據(jù)平臺技術開發(fā)
 大數(shù)據(jù)交易安全性探討分析
 數(shù)據(jù)交易中心商業(yè)模式探討分析
2、 案例2:大數(shù)據(jù)應用案例:公共交通線路的智能規(guī)劃
 UrbanInsights:為公交公司提供基于訂閱訪問的大數(shù)據(jù)工具以及大數(shù)據(jù)咨詢服務
 Urban Insights數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)倉庫、數(shù)據(jù)分析——設計運營線路
 Urban Insights通過互聯(lián)網(wǎng)數(shù)據(jù)的運營
3、 討論:浙江移動大數(shù)據(jù)應用與開發(fā)方向


模塊十一 當前數(shù)據(jù)中心的改造和轉(zhuǎn)換分析-以國內(nèi)外運營商、互聯(lián)網(wǎng)公司為例
1、 流商業(yè)大數(shù)據(jù)解決方案比較
2、 主流開源云計算系統(tǒng)比較
3、 國內(nèi)外代表性大數(shù)據(jù)平臺比較
4、 各廠商最新的大數(shù)據(jù)產(chǎn)品介紹
5、 案例分析
 Facebook的SNS平臺應用
 Google的搜索引擎應用
 Rackspace的日志處理
 Verizon成立精準市場營銷部
 TelefonicaDynamicInsights推出的名為“智慧足跡”的商業(yè)服務
 中國聯(lián)通的“移動通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)”


大數(shù)據(jù)建模與分析挖掘培訓內(nèi)容
業(yè)界主流的數(shù)據(jù)倉庫工具和大數(shù)據(jù)分析挖掘工具
1. 業(yè)界主流的基于Hadoop和Spark的大數(shù)據(jù)分析挖掘項目解決方案
2. 業(yè)界數(shù)據(jù)倉庫與數(shù)據(jù)分析挖掘平臺軟件工具
3. Hadoop數(shù)據(jù)倉庫工具Hive
4. Spark實時數(shù)據(jù)倉庫工具SparkSQL
5. Hadoop數(shù)據(jù)分析挖掘工具Mahout
6. Spark機器學習與數(shù)據(jù)分析挖掘工具MLlib
7. 大數(shù)據(jù)分析挖掘項目的實施步驟 配置數(shù)據(jù)倉庫工具Hadoop Hive和SparkSQL
實踐訓練
部署數(shù)據(jù)分析挖掘工具Hadoop Mahout和Spark MLlib


大數(shù)據(jù)分析挖掘項目的數(shù)據(jù)集成操作訓練
1. 日志數(shù)據(jù)解析和導入導出到數(shù)據(jù)倉庫的操作訓練
2. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉庫
3. 數(shù)據(jù)分析挖掘模塊從大型的集中式數(shù)據(jù)倉庫中訪問數(shù)據(jù),一個數(shù)據(jù)倉庫面向一個主題,構建兩個數(shù)據(jù)倉庫
4. 同一個數(shù)據(jù)倉庫中的事實表數(shù)據(jù),可以給多個不同類型的分析挖掘任務調(diào)用
5. 去除噪聲
實踐訓練
項目數(shù)據(jù)集加載ETL到Hadoop Hive數(shù)據(jù)倉庫并建立多維模型


基于Hadoop的大型數(shù)據(jù)倉庫管理平臺—HIVE數(shù)據(jù)倉庫集群的多維分析建模應用實踐
1. 基于Hadoop的大型分布式數(shù)據(jù)倉庫在行業(yè)中的數(shù)據(jù)倉庫應用案例
2. Hive數(shù)據(jù)倉庫集群的平臺體系結(jié)構、核心技術剖析
3. Hive Server的工作原理、機制與應用
4. Hive數(shù)據(jù)倉庫集群的安裝部署與配置優(yōu)化
5. Hive應用開發(fā)技巧
6. Hive SQL剖析與應用實踐
7. Hive數(shù)據(jù)倉庫表與表分區(qū)、表操作、數(shù)據(jù)導入導出、客戶端操作技巧
8. Hive數(shù)據(jù)倉庫報表設計
9. 將原始的日志數(shù)據(jù)集,經(jīng)過整理后,加載至Hadoop + Hive數(shù)據(jù)倉庫集群中,用于共享訪問
實踐訓練
利用HIVE構建大型數(shù)據(jù)倉庫項目的操作訓練實踐


Spark大數(shù)據(jù)分析挖掘平臺實踐操作訓練
1. Spark大數(shù)據(jù)分析挖掘平臺的部署配置
2. Spark數(shù)據(jù)分析庫MLlib的開發(fā)部署
3. Spark數(shù)據(jù)分析挖掘示例操作,從Hive表中讀取數(shù)據(jù)并在分布式內(nèi)存中運行


聚類分析建模與挖掘算法的實現(xiàn)原理和技術應用
1. 聚類分析建模與算法原理及其在Spark MLlib中的實現(xiàn)與應用,包括:
a) Canopy聚類(canopy clustering)
b) K均值算法(K-means clustering)
c) 模糊K均值(Fuzzy K-means clustering)
d) EM聚類,即期望最大化聚類(Expectation Maximization)
e) 以上算法在Spark MLib中的實現(xiàn)原理和實際場景中的應用案例。
2. Spark聚類分析算法程序示例
實踐訓練
基于Spark MLlib的聚類分析算法,實現(xiàn)日志數(shù)據(jù)集中的用戶聚類


分類分析建模與挖掘算法的實現(xiàn)原理和技術應用
1. 分類分析建模與算法原理及其在Spark MLlib中的實現(xiàn)與應用, 包括:
a) Spark決策樹算法實現(xiàn)
b) 邏輯回歸算法(logistics regression)
c) 貝葉斯算法(Bayesian與Cbeyes)
d) 支持向量機(Support vector machine)
e) 以上算法在Spark MLlib中的實現(xiàn)原理和實際場景中的應用案例。
2. Spark客戶資料分析與給用戶貼標簽的程序示例
3. Spark實現(xiàn)給商品貼標簽的程序示例
4. Spark實現(xiàn)用戶行為的自動標簽和深度技術
實踐訓練
基于Spark MLlib的分類分析算法模型與應用操作


關聯(lián)分析建模與挖掘算法的實現(xiàn)原理和技術應用
1. 預測、推薦分析建模與算法原理及其在Spark MLlib中的實現(xiàn)與應用,包括:
a) Spark頻繁模式挖掘算法(parallel FP Growth Algorithm)應用
b) Spark關聯(lián)規(guī)則挖掘(Apriori)算法及其應用
c) 以上算法在Spark MLib中的實現(xiàn)原理和實際場景中的應用案例。
2. Spark關聯(lián)分析程序示例
實踐訓練
基于Spark MLlib的關聯(lián)分析操作


推薦分析挖掘模型與算法技術應用
1. 推薦算法原理及其在Spark MLlib中的實現(xiàn)與應用,包括:
a) Spark協(xié)同過濾算法程序示例
b) Item-based協(xié)同過濾與推薦
c) User-based協(xié)同過濾與推薦
d) 交叉銷售推薦模型及其實現(xiàn)
實踐訓練
推薦分析實現(xiàn)步驟與操作(重點)


回歸分析模型與預測算法
1. 利用線性回歸(多元回歸)實現(xiàn)訪問量預測
2. 利用非線性回歸預測成交量和訪問量的關系
3. 基于R+Spark實現(xiàn)回歸分析模型及其應用操作
4. Spark回歸程序?qū)崿F(xiàn)異常點檢測的程序示例
實踐訓練
回歸分析預測操作例子


圖關系建模與分析挖掘及其鏈接分析和社交分析操作
1. 利用Spark GraphX實現(xiàn)網(wǎng)頁鏈接分析,計算網(wǎng)頁重要性排名
2. 實現(xiàn)信息傳播的社交關系傳遞分析,互聯(lián)網(wǎng)用戶的行為關系分析任務的操作訓練 實踐訓練
圖數(shù)據(jù)的分析挖掘操作,實現(xiàn)微博數(shù)據(jù)集的社交網(wǎng)絡建模與關系分析


神經(jīng)網(wǎng)絡與深度學習算法模型及其應用實踐
1. 神經(jīng)網(wǎng)絡算法Neural Network的實現(xiàn)方法和挖掘模型應用
2. 基于人工神經(jīng)網(wǎng)絡的深度學習的訓練過程
a) 傳統(tǒng)神經(jīng)網(wǎng)絡的訓練方法
b) Deep Learning的訓練方法
3. 深度學習的常用模型和方法
a) CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡
b) RNN(Recurrent Neural Network)循環(huán)神經(jīng)網(wǎng)絡模型
c) Restricted Boltzmann Machine(RBM)限制波爾茲曼機
4. 基于Spark的深度學習算法模型庫的應用程序示例
實踐訓練
基于Spark或TensorFlow神經(jīng)網(wǎng)絡深度學習庫實現(xiàn)文本與圖片數(shù)據(jù)挖掘


項目實踐
1. 日志分析系統(tǒng)與日志挖掘項目實踐
a) Hadoop,Spark,ELK技術構建日志數(shù)據(jù)倉庫
b) 互聯(lián)網(wǎng)微博日志分析系統(tǒng)項目
2. 推薦系統(tǒng)項目實踐
a) 電影數(shù)據(jù)分析與個性化推薦關聯(lián)分析項目
實踐訓練
項目數(shù)據(jù)集和詳細的實驗指導手冊由講師提供


培訓總結(jié)
1. 項目方案的課堂討論,討論實際業(yè)務中的分析需求,剖析各個環(huán)節(jié)的難點、痛點、瓶頸,啟發(fā)出解決之道;完成講師布置的項目案例,鞏固學過的大數(shù)據(jù)分析挖掘處理平臺技術知識以及應用技能
討論交流


Python機器學習培訓內(nèi)容


模塊一:機器學習的數(shù)學基礎1 - 數(shù)學分析
1. 機器學習的一般方法和橫向比較
2. 數(shù)學是有用的:以SVD為例
3. 機器學習的角度看數(shù)學
4. 復習數(shù)學分析
5. 直觀解釋常數(shù)e
6. 導數(shù)/梯度
7. 隨機梯度下降
8. Taylor展式的落地應用
9. gini系數(shù)
10. 凸函數(shù)
11. Jensen不等式
12. 組合數(shù)與信息熵的關系


模塊二:機器學習的數(shù)學基礎2 - 概率論與貝葉斯先驗
1. 概率論基礎
2. 古典概型
3. 貝葉斯公式
4. 先驗分布/后驗分布/共軛分布
5. 常見概率分布
6. 泊松分布和指數(shù)分布的物理意義
7. 協(xié)方差(矩陣)和相關系數(shù)
8. 獨立和不相關
9. 大數(shù)定律和中心極限定理的實踐意義
10. 深刻理解最大似然估計MLE和最大后驗估計MAP
11. 過擬合的數(shù)學原理與解決方案


模塊三:機器學習的數(shù)學基礎3 - 矩陣和線性代數(shù)
1. 線性代數(shù)在數(shù)學科學中的地位
2. 馬爾科夫模型
3. 矩陣乘法的直觀表達
4. 狀態(tài)轉(zhuǎn)移矩陣
5. 矩陣和向量組
6. 特征向量的思考和實踐計算
7. QR分解
8. 對稱陣、正交陣、正定陣
9. 數(shù)據(jù)白化及其應用
10. 向量對向量求導
11. 標量對向量求導
12. 標量對矩陣求導工作機制


模塊四:Python基礎1 - Python及其數(shù)學庫
1. 解釋器Python2.7與IDE:Anaconda/Pycharm
2. Python基礎:列表/元組/字典/類/文件
3. Taylor展式的代碼實現(xiàn)
4. numpy/scipy/matplotlib/panda的介紹和典型使用
5. 多元高斯分布
6. 泊松分布、冪律分布
7. 典型圖像處理
8. 蝴蝶效應
9. 分形與可視化


模塊五:Python基礎2 - 機器學習庫
1. scikit-learn的介紹和典型使用
2. 損失函數(shù)的繪制
3. 多種數(shù)學曲線
4. 多項式擬合
5. 快速傅里葉變換FFT
6. 奇異值分解SVD
7. Soble/Prewitt/Laplacian算子與卷積網(wǎng)絡
8. 卷積與(指數(shù))移動平均線
9. 股票數(shù)據(jù)分析


模塊六:Python基礎3 - 數(shù)據(jù)清洗和特征選擇
1. 實際生產(chǎn)問題中算法和特征的關系
2. 股票數(shù)據(jù)的特征提取和應用
3. 一致性檢驗
4. 缺失數(shù)據(jù)的處理
5. 環(huán)境數(shù)據(jù)異常檢測和分析
6. 模糊數(shù)據(jù)查詢和數(shù)據(jù)校正方法、算法、應用
7. 樸素貝葉斯用于鳶尾花數(shù)據(jù)
8. GaussianNB/MultinomialNB/BernoulliNB
9. 樸素貝葉斯用于18000+篇/Sogou新聞文本的分類


模塊七: 回歸
1. 線性回歸
2. Logistic/Softmax回歸
3. 廣義線性回歸
4. L1/L2正則化
5. Ridge與LASSO
6. Elastic Net
7. 梯度下降算法:BGD與SGD
8. 特征選擇與過擬合


模塊八:Logistic回歸
1. Sigmoid函數(shù)的直觀解釋
2. Softmax回歸的概念源頭
3. Logistic/Softmax回歸
4. 最大熵模型
5. K-L散度
6. 損失函數(shù)
7. Softmax回歸的實現(xiàn)與調(diào)參


模塊九:回歸實踐
1. 機器學習sklearn庫介紹
2. 線性回歸代碼實現(xiàn)和調(diào)參
3. Softmax回歸代碼實現(xiàn)和調(diào)參
4. Ridge回歸/LASSO/Elastic Net
5. Logistic/Softmax回歸
6. 廣告投入與銷售額回歸分析
7. 鳶尾花數(shù)據(jù)集的分類
8. 交叉驗證
9. 數(shù)據(jù)可視化


模塊十:決策樹和隨機森林
1. 熵、聯(lián)合熵、條件熵、KL散度、互信息
2. 最大似然估計與最大熵模型
3. ID3、C4.5、CART詳解
4. 決策樹的正則化
5. 預剪枝和后剪枝
6. Bagging
7. 隨機森林
8. 不平衡數(shù)據(jù)集的處理
9. 利用隨機森林做特征選擇
10. 使用隨機森林計算樣本相似度
11. 數(shù)據(jù)異常值檢測


模塊十一:隨機森林實踐
1. 隨機森林與特征選擇
2. 決策樹應用于回歸
3. 多標記的決策樹回歸
4. 決策樹和隨機森林的可視化
5. 葡萄酒數(shù)據(jù)集的決策樹/隨機森林分類
6. 波士頓房價預測


模塊十二:提升
1. 提升為什么有效
2. 梯度提升決策樹GBDT
3. XGBoost算法詳解
4. Adaboost算法
5. 加法模型與指數(shù)損失


模塊十三:提升實踐
1. Adaboost用于蘑菇數(shù)據(jù)分類
2. Adaboost與隨機森林的比較
3. XGBoost庫介紹
4. Taylor展式與學習算法
5. KAGGLE簡介
6. 泰坦尼克乘客存活率估計


模塊十四:SVM
1. 線性可分支持向量機
2. 軟間隔的改進
3. 損失函數(shù)的理解
4. 核函數(shù)的原理和選擇
5. SMO算法
6. 支持向量回歸SVR


模塊十五:SVM實踐
1. libSVM代碼庫介紹
2. 原始數(shù)據(jù)和特征提取
3. 葡萄酒數(shù)據(jù)分類
4. 數(shù)字圖像的手寫體識別
5. SVR用于時間序列曲線預測
6. SVM、Logistic回歸、隨機森林三者的橫向比較


模塊十六:聚類(一)
1. 各種相似度度量及其相互關系
2. Jaccard相似度和準確率、召回率
3. Pearson相關系數(shù)與余弦相似度
4. K-means與K-Medoids及變種
5. AP算法(Sci07)/LPA算法及其應用


模塊十七:聚類(二)
1. 密度聚類DBSCAN/DensityPeak(Sci14)
2. DensityPeak(Sci14)
3. 譜聚類SC
4. 聚類評價AMI/ARI/Silhouette
5. LPA算法及其應用


模塊十八:聚類實踐
1. K-Means++算法原理和實現(xiàn)
2. 向量量化VQ及圖像近似
3. 并查集的實踐應用
4. 密度聚類的代碼實現(xiàn)
5. 譜聚類用于圖片分割


模塊十九:EM算法
1. 最大似然估計
2. Jensen不等式
3. 樸素理解EM算法
4. 精確推導EM算法
5. EM算法的深入理解
6. 混合高斯分布
7. 主題模型pLSA


模塊二十:EM算法實踐
1. 多元高斯分布的EM實現(xiàn)
2. 分類結(jié)果的數(shù)據(jù)可視化
3. EM與聚類的比較
4. Dirichlet過程EM
5. 三維及等高線等圖件的繪制
6. 主題模型pLSA與EM算法


模塊二十一:主題模型LDA
1. 貝葉斯學派的模型認識
2. Beta分布與二項分布
3. 共軛先驗分布
4. Dirichlet分布
5. Laplace平滑
6. Gibbs采樣詳解


模塊二十二:LDA實踐
1. 網(wǎng)絡爬蟲的原理和代碼實現(xiàn)
2. 停止詞和高頻詞
3. 動手自己實現(xiàn)LDA
4. LDA開源包的使用和過程分析
5. Metropolis-Hastings算法
6. MCMC
7. LDA與word2vec的比較
8. TextRank算法與實踐


模塊二十三:隱馬爾科夫模型HMM
1. 概率計算問題
2. 前向/后向算法
3. HMM的參數(shù)學習
4. Baum-Welch算法詳解
5. Viterbi算法詳解
6. 隱馬爾科夫模型的應用優(yōu)劣比較


模塊二十四:HMM實踐
1. 動手自己實現(xiàn)HMM用于中文分詞
2. 多個語言分詞開源包的使用和過程分析
3. 文件數(shù)據(jù)格式UFT-8、Unicode
4. 停止詞和標點符號對分詞的影響
5. 前向后向算法計算概率溢出的解決方案
6. 發(fā)現(xiàn)新詞和分詞效果分析
7. 高斯混合模型HMM
8. GMM-HMM用于股票數(shù)據(jù)特征提取


模塊二十五:課堂提問與互動討論


頒發(fā)證書
參加相關培訓并通過考試的學員,可以獲得:
工業(yè)和信息化部頒發(fā)的-《大數(shù)據(jù)工程師證書》。該證書可作為專業(yè)技術人員職業(yè)能力考核的證明,以及專業(yè)技術人員崗位聘用、任職、定級和晉升職務的重要依據(jù)。注:請學員帶一寸彩照2張(背面注明姓名)、身份證復印件一張。



《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》培訓受眾
各地高校大數(shù)據(jù)產(chǎn)業(yè)相關講師,信息中心相關人員、系主任、院長或?qū)Υ髷?shù)據(jù)感興趣的相關人員。

《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》課程目的
掌握大數(shù)據(jù)處理平臺(Hadoop、Spark、Storm)技術架構、以及平臺的安裝部署、運維配置、應用開發(fā);掌握主流大數(shù)據(jù)Hadoop平臺和Spark實時處理平臺的技術架構和實際應用;利用Hadoop+Spark對行業(yè)大數(shù)據(jù)進行存儲管理和分析挖掘的技術應用;講解Hadoop生態(tài)系統(tǒng)組件,包括Storm,HDFS,MapReduce,HIVE,HBase,Spark,GraphX,MLib,Shark, ElasticSearch等大數(shù)據(jù)存儲管理、分布式數(shù)據(jù)庫、大型數(shù)據(jù)倉庫、大數(shù)據(jù)查詢與搜索、大數(shù)據(jù)分析挖掘與分布式處理技術
讓學員充分掌握大數(shù)據(jù)平臺技術架構、大數(shù)據(jù)分析的基本理論、機器學習的常用算法、國內(nèi)外主流的大數(shù)據(jù)分析與BI商業(yè)智能分析解決方案、以及大數(shù)據(jù)分析在搜索引擎、廣告服務推薦、電商數(shù)據(jù)分析、金融客戶分析方面的應用案例。
強調(diào)主流的大數(shù)據(jù)分析挖掘算法技術的應用和分析平臺的實施,讓學員掌握主流的基于大數(shù)據(jù)Hadoop和Spark、R的大數(shù)據(jù)分析平臺架構和實際應用,并用結(jié)合實際的生產(chǎn)系統(tǒng)案例進行教學,掌握基于Hadoop大數(shù)據(jù)平臺的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫分布式系統(tǒng)平臺應用,以及商業(yè)和開源的數(shù)據(jù)分析產(chǎn)品加上Hadoop平臺形成大數(shù)據(jù)分析平臺的應用剖析。
讓學員掌握常見的機器學習算法,深入講解業(yè)界成熟的大數(shù)據(jù)分析挖掘與BI平臺的實踐應用,并以客戶分析系統(tǒng)、日志分析和電商推薦系統(tǒng)為案例,串聯(lián)常用的數(shù)據(jù)挖掘技術進行應用教學。
從數(shù)學層面推導最經(jīng)典的機器學習算法,以及每種算法的示例和代碼實現(xiàn)(Python)、如何做算法的參數(shù)調(diào)試、以實際應用案例分析各種算法的選擇等。


《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》所屬分類
特色課程

《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》所屬專題
excel培訓、營銷數(shù)據(jù)分析、新媒體營銷培訓分析銷售數(shù)據(jù)、

《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》授課培訓師簡介
張老師
張老師:阿里大數(shù)據(jù)高級專家,國內(nèi)資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經(jīng)驗。近年主要典型的項目有:某電信集團網(wǎng)絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。
《關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知》報名服務流程
-----------------------------------------------------------------------------------

選擇課程

選擇上課時間

報名參加

確認報名

支付課款

參加課程

我們的優(yōu)勢
十六年誠信品牌值得信賴
一站式培訓顧問服務想你所需
海量課程及專業(yè)師資隨需應變
多城市開課,讓您擁有更多選擇更多便利
會員折扣讓您更合理有效的使用您的費用預算
公開課需求        課程編號:100287358          咨詢熱線:020-29042042
課程名稱:  關于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓班的通知
您的真實姓名:  * (請一定使用真實姓名)
性    別:  先生女士
公司名稱: 
E-mail地址:  *
電話/手機:  * (電話請帶上區(qū)號,謝謝)
QQ: 
上課時間:  (時間格式:2025-01-08)
上課地點: 
費用預算:  * 元人民幣。(請?zhí)顚憯?shù)字,不需要填寫單位。)
其它咨詢: 
驗證數(shù)字:   驗證碼,看不清楚?請點擊刷新驗證碼 *
準時開課
報名有禮!
1、報名參加本課程,可獲得雙倍積分!
  點擊這里查看積分的用途
2、老客戶介紹新客戶參加本課程,老客戶將可額外獎勵0.5倍積分!
  點擊這里查看積分的用途
3、報名參加指定課程可按會員享受8.5折優(yōu)惠!
4、報名參加本站特惠課程最高可享受300元/人的交通食宿補貼!
  點擊這里查看所有活動特惠課程
相關專題
excel培訓
營銷數(shù)據(jù)分析
新媒體營銷培訓
分析銷售數(shù)據(jù)
相關培訓
[內(nèi)訓課] 看板和數(shù)據(jù)管控提升生產(chǎn)績效 ——打造高效工廠運
[內(nèi)訓課] 制造業(yè)數(shù)據(jù)管理與績效考核 ——打造高效工廠運作
[內(nèi)訓課] 基于數(shù)據(jù)的財務經(jīng)營決策與成本控制
[內(nèi)訓課] 大數(shù)據(jù)時代的O2O實戰(zhàn)課程
[內(nèi)訓課] 企業(yè)財務excel數(shù)據(jù)建模與分析
[內(nèi)訓課] EXCEL自動化數(shù)據(jù)處理課程
[內(nèi)訓課] EXCEL系統(tǒng)化數(shù)據(jù)分析課程
[內(nèi)訓課] ACCESS數(shù)據(jù)庫開發(fā)與設計
[內(nèi)訓課] “互聯(lián)網(wǎng)+”時代下的大數(shù)據(jù)營銷
[內(nèi)訓課] 大數(shù)據(jù)思維與企業(yè)轉(zhuǎn)型創(chuàng)新
分析銷售數(shù)據(jù)相關培訓師
馮進
  • 培訓師:馮進
  • 所在地:深圳
  • 國際EAP協(xié)會權威認證,國際EAP咨詢師
李明(佛山)
分析銷售數(shù)據(jù)相關內(nèi)訓課
新媒體營銷培訓相關培訓師
陳銳
  • 培訓師:陳銳
  • 所在地:深圳
  • 華為狼性營銷/大客戶營銷/銷售管理
郭。ū本
  • 培訓師:郭。ū本
  • 所在地:北京
  • 中國新型城鎮(zhèn)化的開拓者
新媒體營銷培訓相關內(nèi)訓課
營銷數(shù)據(jù)分析相關培訓師
宋甲偉
  • 培訓師:宋甲偉
  • 所在地:深圳
  • 大數(shù)據(jù)與前瞻技術分析專家
傅一航
  • 培訓師:傅一航
  • 所在地:深圳
  • 大數(shù)據(jù)分析專家
營銷數(shù)據(jù)分析相關內(nèi)訓課
關于我們 | 聯(lián)系我們 | 友情連接 | 培訓分類導航
Copyright © 2009-2025 peixune.com . All rights reserved.
廣州必學企業(yè)管理咨詢有限公司 版權所有  頁面執(zhí)行時間: 22.4 毫秒

粵公網(wǎng)安備 44011302000582號


粵ICP備16013335號
培訓易在線客服 ×