IT小白向大數據領域邁進
掌握實用技能
增長經驗
搭建完善的項目
接觸廣泛技術面
學習前沿技術
突破職業瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
全面了解新能源車企的數據分析流程
充分熟悉汽車傳感器分析的離線指標體系
熟練掌握數據倉庫技術框架的協同應用
熟練應用數倉建模理論
項目包含數十個 Shell 腳本、多個傳感器日志數據和數十個統計指標。
深入研究各大企業的數據倉庫建模體系,并以阿里巴巴的數據倉庫建模理論作為基準,構建實用、貼近實際生產且具有廣泛應用性的數據倉庫建模體系。
根據建模理論,提出強實踐性的數據倉庫搭建理論過程,包括數據調研、明確數據域、構建業務總線矩陣、維度模型設計、明確統計指標、匯總模型設計和分層構建數據倉庫。
參考大型企業的數據倉庫分層體系,合理劃分數據層次,降低數據耦合度,提高數據分析效率并降低數據計算成本。
采用實戰式數據模擬策略,生成全面的原始數據,并針對實際數據進行數據采集。
使用 Flume 收集傳感器日志數據,深入研究適配組件,提供詳細的實戰配置文件,自定義采集組件,解決時間戳漂移和優化小文件存儲問題,分享更多實戰經驗。
采用當前流行的數據采集框架 DataX 收集業務數據,提供詳細的配置文件和腳本解讀,掌握更多腳本編寫技巧。
真實數據ETL實踐,學會對原始數據進行清洗、脫敏、數據分類和整合。
基于業務總線矩陣,構建數據倉庫的DWD層,完成事務型事實表、周期型事實表和累積快照事實表的搭建與數據裝載。
通過Hive窗口的靈活運用從日志數據中提取關鍵業務過程,構建相應的事實表,為下游分析做準備。
為連續型度量構建相應的周期快照事實表,為下游統計提供便利。
根據業務總線矩陣,構建數據倉庫的 DIM 層,并針對緩慢變化維度構建拉鏈表。
依據指標體系分析,構建 DWS 層,整合相同粒度、統計周期的派生指標為寬表,提高計算結果復用性。
基于多個主題的指標,分析統計數十個指標,構建 ADS 層。
安裝部署業內主流的工作流調度系統 DolphinScheduler,實現數據倉庫搭建全流程定時自動化調度及故障自動郵件告警。
使用 SuperSet 對調度采集至 RDBMS 數據庫中的結果數據進行多圖表、儀表盤可視化展示。
采用 Echarts 結合 SpringBoot 對結果數據進行可視化展示,充分掌握數據展示接口編寫流程。
針對企業級數據倉庫的海量數據計算業務,基于對任務執行計劃等的分析全面優化 CPU 配置、內存分配等,提升任務提交性能。