廣州總校區(qū)切換校區(qū)
復(fù)制成功
微信號(hào):togogoi
添加微信好友, 詳細(xì)了解課程
已復(fù)制成功,如果自動(dòng)跳轉(zhuǎn)微信失敗,請(qǐng)前往微信添加好友
打開(kāi)微信

Spark和Hadoop上的數(shù)據(jù)科學(xué)

課時(shí)總數(shù):18課時(shí)

課程介紹

      通過(guò)Cloudera公司提供的數(shù)據(jù)科學(xué)培訓(xùn)和認(rèn)證,將您的知識(shí)提升到一個(gè)新的水平。

 數(shù)據(jù)科學(xué)家?guī)椭⑵笫聵I(yè)單位及科研院校創(chuàng)建大數(shù)據(jù)時(shí)代的新型信息平臺(tái),用于對(duì)海量數(shù)據(jù)進(jìn)行深度挖掘、從中提取有用的信息,用于回答以前無(wú)法解決甚至是無(wú)法想象的問(wèn)題。

學(xué)員將學(xué)習(xí)數(shù)據(jù)科學(xué)家是如何使用Hadoop和Spark技術(shù)來(lái)幫助企業(yè)改進(jìn)現(xiàn)有產(chǎn)品、開(kāi)發(fā)新產(chǎn)品新應(yīng)用,留住用戶(hù)并開(kāi)拓市場(chǎng),降低成本,提高收益,發(fā)現(xiàn)和帶來(lái)新的商業(yè)機(jī)會(huì)。

Cloudera大學(xué)為期3天的數(shù)據(jù)科學(xué)家課程幫助學(xué)員理解什么是數(shù)據(jù)科學(xué)家,他們解決什么樣的問(wèn)題,以及使用何種高效工具和新技術(shù)。通過(guò)課堂模擬,學(xué)員學(xué)會(huì)如何運(yùn)用數(shù)據(jù)科學(xué)的方法來(lái)應(yīng)對(duì)并解決現(xiàn)實(shí)中來(lái)自不同行業(yè)的挑戰(zhàn),為以后勝任數(shù)據(jù)科學(xué)家的角色做好準(zhǔn)備。

 

一. 培訓(xùn)內(nèi)容

       通過(guò)講師在課堂上的講解,以及實(shí)操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:

  •  如何獲取、清洗和綜合來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),為分析提供統(tǒng)一全面的視圖。
  •  了解用于從海量數(shù)據(jù)探索潛在商業(yè)價(jià)值的統(tǒng)計(jì)方法。
  •  掌握何時(shí)將Hadoop streaming 和Apache Spark 嵌入搭建數(shù)據(jù)科學(xué)所需的數(shù)據(jù)產(chǎn)品流水線(xiàn)中去。
  •  了解數(shù)據(jù)科學(xué)項(xiàng)目所需的機(jī)器學(xué)習(xí)技術(shù)。
  •  如何使用SparkMLlib實(shí)現(xiàn)和管理推薦系統(tǒng),如何設(shè)置和評(píng)估結(jié)果。
  •  了解將新開(kāi)發(fā)的分析項(xiàng)目部署到大規(guī)模產(chǎn)品環(huán)境中可能碰到的擴(kuò)展能力問(wèn)題及如何規(guī)避。


 

二. 培訓(xùn)對(duì)象及學(xué)員基礎(chǔ)

本課程面向軟件開(kāi)發(fā)人員、大數(shù)據(jù)工程師以及高級(jí)數(shù)據(jù)分析人員。學(xué)員需掌握使用Linux環(huán)境的基本技能,建議具備Hadoop方面的基本知識(shí)或經(jīng)驗(yàn):HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟練使用至少一種腳本編程語(yǔ)言,建議Python,或者熟悉其他語(yǔ)言譬如Perl或Ruby。

 

三. 數(shù)據(jù)科學(xué)家認(rèn)證

在完成本課程的學(xué)習(xí)后,我們鼓勵(lì)培訓(xùn)學(xué)員繼續(xù)深造并注冊(cè)參加Cloudera認(rèn)證專(zhuān)家:數(shù)據(jù)科學(xué)家(CCP:DS)考試。獲得該認(rèn)證可以讓學(xué)員脫穎而出;它可以幫助學(xué)員成為該領(lǐng)域的精英,并向雇主和客戶(hù)提供與您的專(zhuān)業(yè)知識(shí)相關(guān)的確鑿證據(jù)。

 

四. 課程大綱

1. 引言

  •  課程簡(jiǎn)介
  •  Cloudera簡(jiǎn)介
  •  課程安排
  •  介紹


2. 數(shù)據(jù)科學(xué)概述

  •  什么是數(shù)據(jù)科學(xué)?
  •  數(shù)據(jù)科學(xué)日益增長(zhǎng)的需求
  •  數(shù)據(jù)科學(xué)家的角色


3. 使用案例

  •  金融行業(yè)
  •  零售行業(yè)
  •  廣告行業(yè)
  •  國(guó)防和情報(bào)行業(yè)
  •  電信及公用事業(yè)行業(yè)
  •  醫(yī)療健康及制藥行業(yè)


4. 項(xiàng)目生命周期

  •  項(xiàng)目生命周期的流程步驟
  •  實(shí)操練習(xí)應(yīng)用場(chǎng)景說(shuō)明


5. 數(shù)據(jù)采集

  •  從哪里獲取數(shù)據(jù)
  •  數(shù)據(jù)采集技術(shù)


6. 評(píng)估輸入數(shù)據(jù)

  •  數(shù)據(jù)格式
  •  數(shù)據(jù)容量
  •  數(shù)據(jù)質(zhì)量


7. 數(shù)據(jù)轉(zhuǎn)換

  •  文件格式轉(zhuǎn)換
  •  連接數(shù)據(jù)集
  •  數(shù)據(jù)匿名化


8. 數(shù)據(jù)分析和統(tǒng)計(jì)方法

  •  統(tǒng)計(jì)與概率之間的關(guān)系
  •  描述性統(tǒng)計(jì)
  •  推理性統(tǒng)計(jì)
  •  向量和矩陣


9. 機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)

  •  概述
  •  機(jī)器學(xué)習(xí)的3C分類(lèi)
  •  數(shù)據(jù)和算法的重要性
  •  聚焦:樸素貝葉斯分類(lèi)器


10. 推薦系統(tǒng)概述

  •  什么是推薦系統(tǒng)
  •  協(xié)同過(guò)濾的類(lèi)型
  •  推薦系統(tǒng)的局限性
  •  基本概念


11. Apache Spark和MLlib簡(jiǎn)介

  •  什么是Apache Spark ?
  •  MapReduce的比較
  •  Apache Spark基礎(chǔ)知識(shí)
  •  Spark的MLlib Package


12. 通過(guò)MLlib實(shí)現(xiàn)推薦系統(tǒng)

  •  針對(duì)潛在因子推薦系統(tǒng)的ALS方法概述
  •  ALS推薦系統(tǒng)超參數(shù)
  •  MLlib中構(gòu)建推薦系統(tǒng)
  •  調(diào)整超參數(shù)
  •  加權(quán)


13. 實(shí)驗(yàn)和評(píng)估

  •  設(shè)計(jì)有效的實(shí)驗(yàn)
  •  進(jìn)行有效的實(shí)驗(yàn)
  •  推薦系統(tǒng)的用戶(hù)界面


14. 生產(chǎn)部署和超越


  •  生產(chǎn)部署
  •  提升數(shù)據(jù)產(chǎn)品擴(kuò)展能力技巧和技術(shù)
  •  結(jié)果匯總和可視化
  •  如何改進(jìn)
  •  推薦系統(tǒng)未來(lái)展望


15. 總結(jié)


Cloudera大數(shù)據(jù)課程體系



<
在線(xiàn)咨詢(xún) ×

您好,請(qǐng)問(wèn)有什么可以幫您?我們將竭誠(chéng)提供最優(yōu)質(zhì)服務(wù)!