渴望技術轉型
轉換行業的IT小白
有一定技術基礎
希望增長經驗
接觸更廣技術面
從事一定年限技術開發
目標突破自我
學習大數據技術
突破職業瓶頸
Linux、Hadoop
Java、Hive、Flume
Kafka等基礎框架
充分了解在線教育行業的業務數據體系熟悉在線教育行業的離線指標體系熟悉在線教育行業的實時指標體系
數據采集策略數據建模理論了解認識多種數據倉庫技術模塊充分掌握多種大數據技術框架的協調應用
數據清洗思路離線數據分析經驗實時數據分析經驗定時調度
數據可視化接口編寫性能優化集群運維任務部署
項目涵蓋40多個Shell腳本,6大類用戶行為日志數據,25張業務數據原始表格,100多張在線教育大數據表格,100多個在線教育統計指標;
充分調研各大廠數倉建模體系,以阿里巴巴的數據倉庫建模理論為最終藍本,搭建實用且貼近生產實際的數倉建模體系;
應用建模理論,提出可實踐性強的數倉搭建理論過程,數據調研→明確數據域→構建業務總線矩陣→維度模型設計→明確統計指標→匯總模型設計→分層構建數倉;
多方參考大廠數倉分層體系,合理數據分層,降低數據耦合度,提高數據分析效率,降低數據計算成本。
實戰式數據模擬策略,模擬生成全面的原始數據,針對真實數據執行數據采集工作;
采用Flume采集用戶行為日志數據,適配組件全面調研,給出詳細貼近實戰的配置文件,自定義采集組件,解決時間戳零點漂移,優化小文件存儲帶來問題,提供更多實戰經驗;
采用流行數據采集框架DataX采集業務數據,提供詳細配置文件及腳本解讀,掌握更多腳本編寫技巧;
采用Maxwell監控業務數據變動情況,做到更實時更準確的變動數據采集,靈活使用Maxwell框架,全面掌握使用技巧;
真實數據ETL實操,掌握如何對原始數據進行清洗、脫敏、數據分類、整合;
基于業務總線矩陣構建數據倉庫DWD層,完成事務型事實表、周期型事實表、累積快照事實表搭建和數據裝載;
基于業務總線矩陣構建數據倉庫DIM層,針對緩慢變化維度,構建拉鏈表;
基于指標體系分析構建DWS層,將相同粒度、統計周期的派生指標整合統計為寬表,提高計算結果復用性;
安裝部署受各大廠歡迎的DolphinScheduler工作流調度系統,實現數據倉庫搭建全流程定時自動化調度以及故障自動郵件告警;
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進行多圖表、儀表盤可視化展示;
采用Echarts,結合SpringBoot對結果數據進行可視化展示,充分掌握數據展示接口編寫流程;
基于企業級數據倉庫的海量數據計算業務,對CPU配置、內存分配、任務提交、任務執行計劃等方面進行全面的性能調優;
項目涵蓋幾十個Flink實時計算任務、幾十個實時計算指標、上萬行實時開發代碼。
參照大廠實際數倉建模理論,分層構建實時數據倉庫,ODS層、DIM層、DWD層、DWS層、ADS層,分層計算,數據分流,提高效率,降低耦合度;
使用HBase+Phoenix的組合存儲DIM層維度數據,大大提高響應速度;
使用Flink CDC結合MySQL動態配置表,動態獲取維度表配置,實現數據動態自動分流;
采用Redis進行旁路緩存,提高響應速度,并使用Flink提供的異步IO進行優化;
提供針對多種場景的雙流Join解決方案,深入分析各種解決方案的優劣,培養問題解決能力;
靈活運用Flink的狀態編程實現數據去重,計算去重類指標;
對所有指標計算需求提供基于Table API和Flink SQL的兩種解決方案,滿足不同企業開發需求,培養多角度開發能力;
使用FlinkCEP技術實現不同用戶行為模式的識別,完成用戶跳出行為的篩選;
采用Doris存儲最終寬表數據,大大提高數據查詢效率,并為用戶提供即席查詢、可視化報表展示的多樣可能性;
采用SpringBoot編寫數據展示接口對接SugarBI實現數據可視化大屏展示,熟練掌握數據展示接口的編寫流程
詳細講解生產環境中會產生的反壓問題,對反壓原因、反壓定位、反壓處理進行詳細分解;
多角度分析大數據分析中常見的數據傾斜問題,提供詳盡的問題定位策略和多種解決方案;
? 詳細講解生產環境中常見的故障:非法配置異常、Java 堆空間異常、直接緩沖存儲器異常、元空間異常、網絡緩沖區數量不足、超出容器內存異常、Checkpoint 失敗、Checkpoint 慢、Kafka動態發現分區、Watermark不更新、依賴沖突、超出文件描述符限制、臟數據導致數據轉發失敗等,令學員在短時間內掌握生產環境中常見到、難解決的開發難題,迅速增長經驗,提升能力。