廣州總校區(qū)切換校區(qū)
復(fù)制成功
微信號:togogoi
添加微信好友, 詳細(xì)了解課程
已復(fù)制成功,如果自動跳轉(zhuǎn)微信失敗,請前往微信添加好友
打開微信

Cloudera檢索培訓(xùn)

課時總數(shù):0課時

課程介紹

通過Cloudera公司提供的Hadoop和企業(yè)數(shù)據(jù)中心培訓(xùn),將您的知識提升到一個新的水平并有助于您解決實際問題。

Cloudera大學(xué)提供的為期3天的檢索培訓(xùn)課程是專門針對希望在Hadoop中索引數(shù)據(jù)以實現(xiàn)更強(qiáng)大的實時查詢功能的開發(fā)人員和工程師而設(shè)計的。培訓(xùn)學(xué)員將學(xué)習(xí)如何通過將Cloudera檢索系統(tǒng)與外部應(yīng)用程序進(jìn)行整合,以挖掘他們的數(shù)據(jù)更多的價值。

 

提升您的生態(tài)系統(tǒng)專業(yè)知識

Cloudera檢索系統(tǒng)具備全文本、交互式搜索功能,并且具備針對Hadoop和企業(yè)數(shù)據(jù)中心的可擴(kuò)展、靈活索引功能。Cloudera檢索系統(tǒng)由Apache Solr提供技術(shù)支持,可以針對新一代集成式、多工作負(fù)載查詢提供規(guī)模性和可靠性。

 

一. 培訓(xùn)內(nèi)容

       過講師在課堂上的講解,以及實操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:

  • 對存儲在HDFS和HBase中的數(shù)據(jù)進(jìn)行批量索引。
  •  通過Flume以近實時的方式執(zhí)行流數(shù)據(jù)的索引。
  •  以多語言和多文件格式對內(nèi)容進(jìn)行索引。
  •  通過Morphlines處理和轉(zhuǎn)換輸入數(shù)據(jù)。
  •  使用Hue創(chuàng)建索引的用戶界面。
  •  Cloudera檢索系統(tǒng)與外部應(yīng)用程序進(jìn)行整合。
  •  使用層面搜索(faceting)、高亮(highlighting)、拼寫糾錯等功能改善搜索體驗。

 

二. 培訓(xùn)對象及學(xué)員基礎(chǔ)

   本課程是專門針對至少基本了解Hadoop和具備通用語言(例如Java、C、C ++、Perl或Python)編程經(jīng)驗的開發(fā)人員和工程師設(shè)計的。培訓(xùn)學(xué)員應(yīng)非常熟悉Linux命令行,并且應(yīng)該能夠執(zhí)行基本任務(wù)(例如,創(chuàng)建和刪除目錄、查看和更改文件權(quán)限、執(zhí)行腳本、并檢查文件輸出)。不要求培訓(xùn)學(xué)員必需具備Apache Solr或Cloudera檢索系統(tǒng)使用經(jīng)驗,同時也不要求具備HBase或SQL使用經(jīng)驗。

 

三. 課程大綱

1. Cloudera Search概述

  •  什么是Cloudera Search?
  •  特性
  •  使用案例
  •  基本架構(gòu)


2. 執(zhí)行基本查詢

  •  Admin UI中執(zhí)行查詢
  •  基本語法
  •  近似匹配技術(shù)
  •  控制輸出


3. 編寫功能更強(qiáng)大的查詢

  •  相關(guān)性和過濾器
  •  查詢解析器
  •  函數(shù)
  •  地理空間搜索
  •  層面搜索(Faceting)


4. 準(zhǔn)備索引文檔

  •  索引過程概述
  •  了解Morphlines
  •  生成配置文件
  •  模式設(shè)計
  •  文檔集管理


5. 通過MapReduce批量索引HDFS數(shù)據(jù)

  •  HDFS批量索引過程概述
  •  MapReduce索引工具的使用
  •  測試和故障排除


6. 通過Flume的近實時索引

  •  近實時索引過程概述
  •  Apache Flume簡介
  •  如何通過Flume執(zhí)行近實時索引
  •  測試和故障排除


7. 通過Lily索引HBase數(shù)據(jù)

  •  什么是Apache HBase?
  •  HBase的批量索引
  •  以近實時方式索引HBase表


8. 以其他語言和格式索引數(shù)據(jù)

  •  字段類型和分析器鏈
  •  單詞衍生、字符映射和語言支持
  •  Admin UI中的模式和分析支持
  •  通過Apache Tika進(jìn)行元數(shù)據(jù)和


9. 內(nèi)容提取

  •  通過SolrCell索引二進(jìn)制文件類型


10. 提高搜索質(zhì)量和性能

  •  相關(guān)結(jié)果遞送
  •  幫助用戶查找信息
  •  查詢性能和故障排除


11. 構(gòu)建搜索用戶界面

  •  搜索UI概述
  •  通過Hue構(gòu)建用戶界面
  •  將搜索(Search)功能集成到自定義


12. 應(yīng)用程序中


13. 部署注意事項


  •  部署規(guī)劃
  •  確定硬件需求
  •  安全性概述
  •  文檔集別名


14. 結(jié)論


Cloudera大數(shù)據(jù)課程體系





<
在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質(zhì)服務(wù)!