渴望技術轉型
轉換行業的IT小白
有一定技術基礎
希望增長經驗
接觸更廣技術面
從事一定年限技術開發
目標突破自我
學習大數據技術
突破職業瓶頸
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
能全面了解數據倉庫建模理論充分熟悉電商行業數據分析指標體系快速掌握多種大數據技術框架
數據分析建模理論數據清洗數據采集了解認識多種數據倉庫技術模塊
定時調度郵件報警可視化圖表數據質量監控性能調優集群運維
項目涵蓋40多個Shell腳本,5大類用戶行為日志數據,34張業務數據原始表格,100多張電商大數據表格,100多個電商統計指標;
充分調研各大廠數倉建模體系,以阿里巴巴的數據倉庫建模理論為最終藍本,搭建實用且貼近生產實際的數倉建模體系;
應用建模理論,提出可實踐性強的數倉搭建理論過程,數據調研 → 明確數據域 → 構建業務總線矩陣 → 維度模型設計 → 明確統計指標 → 匯總模型設計 → 分層構建數倉;
多方參考大廠數倉分層體系,合理數據分層,降低數據耦合度,提高數據分析效率,降低數據計算成本;
基于五大主題指標,分析統計100余個指標,構建ADS層;
采用Flume采集用戶行為日志數據,適配組件廣泛調研,給出詳細貼近實戰的配置文件,自定義采集組件,解決時間戳零點漂移,優化小文件存儲帶來問題,提供更多實戰經驗;
采用流行數據采集框架DataX采集業務數據,提供詳細配置文件及腳本解讀,掌握更多腳本編寫技巧;
安裝部署受各大廠歡迎的DolphinScheduler工作流調度系統,實現數據倉庫搭建全流程定時自動化調度以及故障自動郵件告警;
基于業務總線矩陣構建數據倉庫DIM層,針對緩慢變化維度,構建拉鏈表;
基于指標體系分析構建DWS層,將相同粒度、統計周期的派生指標整合統計為寬表,提高計算結果復用性;
基于業務總線矩陣構建數據倉庫DWD層,完成事務型事實表、周期型事實表、累積快照事實表搭建和數據裝載;
真實數據ETL實操,掌握如何對原始數據進行清洗、脫敏、數據分類、整合;
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進行多圖表、儀表盤可視化展示;
采用Echart,結合SpringBoot對結果數據進行可視化展示,充分掌握數據展示接口編寫流程;
基于企業級數據倉庫的海量數據計算業務,對CPU配置、內存分配、任務提交、任務執行計劃等方面進行廣泛性能調優;
分析總結項目搭建過程中遇到的問題,增加開發經驗,提升實戰問題解決能力;
采用Maxwell監控業務數據變動情況,做到更實時更準確的變動數據采集,靈活使用Maxwell框架,掌握使用技巧。