一、本課程是怎么樣的一門課程(全面介紹)
1.1、課程的背景
作為企業(yè)Hadoop應(yīng)用的核心產(chǎn)品,Hive承載著FaceBook、淘寶等大佬 95%以上的離線統(tǒng)計(jì),很多企業(yè)里的離線統(tǒng)計(jì)甚至全由Hive完成,如我所在的電商。
Hive在企業(yè)云計(jì)算平臺(tái)發(fā)揮的作用和影響愈來愈大,如何優(yōu)化提速已經(jīng)顯得至關(guān)重要。
Hive作業(yè)的規(guī)模決定著優(yōu)化層級,一個(gè)Hive作業(yè)的優(yōu)化和一萬的Hive作業(yè)的優(yōu)化截然不同。
擁有1萬多個(gè)Hive作業(yè)的大電商如何進(jìn)行Hive優(yōu)化的?本系列課結(jié)合企業(yè)實(shí)戰(zhàn)和場景從作業(yè)架構(gòu)層面、Hql(Hive sql)語法層面、Hive參數(shù)層面依次講述。
1.2、課程內(nèi)容簡介
當(dāng)然,好的架構(gòu)勝過任何優(yōu)化,有哪些策略構(gòu)建好Hive Job架構(gòu)?
好的Hql同樣會(huì)效率大增,如何寫出高效的Hql?
修改Hive參數(shù),有時(shí)也能起到很好的效果
1.3、課程大綱
第一章:架構(gòu)方面優(yōu)化策略(5講)
Hadoop的主要性能瓶頸是IO負(fù)載,降IO負(fù)載是優(yōu)化的重頭戲。
本章大綱:
作業(yè)架構(gòu)優(yōu)化手段大探底
多個(gè)降IO負(fù)載的策略和場景...
分表、源表歸納
合理設(shè)計(jì)表分區(qū)、動(dòng)態(tài)分區(qū)
壓縮、分布式緩存
第二章:Hive Sql語法層面和Properties參數(shù)層面優(yōu)化(4講)
語法優(yōu)化手段歸納
Map數(shù)和Reduce數(shù)的決定和控制及案例分析
數(shù)據(jù)傾斜的避免和解決辦法
執(zhí)行計(jì)劃剖析,從執(zhí)行計(jì)劃上找傾斜根本
Properties參數(shù)
高效Join、MapJoin、SEMI JOIN
減少Job 合并MR
Mapreduce中間參數(shù)
第三章:Impala熟悉和使用(1講)
Impala是Cloudera 公司推出仿Hive的一個(gè)產(chǎn)品,目前已經(jīng)有穩(wěn)定的發(fā)行版本。
理論上性能比Hive好,但目前版本功能和擴(kuò)展性上遠(yuǎn)不能替代Hive。
未來該產(chǎn)品或會(huì)有一定影響力。
特點(diǎn):同Hive一樣是類sql產(chǎn)品
公用Hive的元數(shù)據(jù)庫
第一講:Hive體系結(jié)構(gòu)及Hive作業(yè)形式
第二講:Hive優(yōu)化策略大探底及架構(gòu)優(yōu)化案例一
第三講:架構(gòu)優(yōu)化案例二之降IO負(fù)載策略I
第四講:架構(gòu)優(yōu)化案例二之降IO負(fù)載策略II
第五講:架構(gòu)優(yōu)化案例二之降IO負(fù)載策略III—壓縮和分布式緩存
第六講:Hive語法、參數(shù)層面優(yōu)化一
第七講:Hive語法、參數(shù)層面優(yōu)化二
第八講:Hive語法、參數(shù)層面優(yōu)化三
二、課程環(huán)境:
Cloudera Hadoop 4 (Hadoop 2.0)
Hive-0.90
三、所需技術(shù)基礎(chǔ):
Hadoop基礎(chǔ)、Hive基礎(chǔ)、Linux基礎(chǔ),其他不限制(不分Java和.Net方向,皆適合)。