IT小白向大數據領域邁進
掌握實用技能
增長經驗
搭建完善的項目
接觸廣泛技術面
學習前沿技術
突破職業瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
全面了解在線聽書行業運營流程
充分熟悉在線聽書行業離線指標體系
充分熟悉在線聽書行業實時指標體系
熟悉掌握數據倉庫技術框架的協調應用
熟練應用數倉建模理論
數據建模理論數據采集策略數據清洗思路
離線數據分析經驗實時數據分析經驗定時調度任務部署集群運維性能優化數據可視化接口編寫
調研各大廠數倉建模體系,以阿里巴巴的數據倉庫建模理論為藍本,搭建實用有效的數倉建模體系;
應用建模理論,提出可實踐性強的數倉建模流程,數據調研→明確數據域→構建業務總線矩陣→維度模型設計→明確統計指標→匯總模型設計→分層構建數倉;
合理數倉分層,降低數據耦合度,提高數據分析效率,降低數據計算成本。
實戰式數據模擬策略,模擬生成全面的原始數據,針對真實數據執行數據采集工作;
采用Flume采集用戶行為日志數據,調研組件選型,給出詳細貼近實戰的配置文件,自定義采集組件,解決時間戳零點漂移,優化小文件存儲帶來問題,提供更多實戰經驗;
采用流行數據采集框架DataX采集業務數據,提供詳細配置文件及腳本解讀,掌握更多腳本編寫技巧;
采用Maxwell監控業務數據變動情況,做到更實時更準確的變動數據采集;
真實數據ETL實操,掌握如何對原始數據進行清洗、脫敏、數據分類、整合;
基于業務總線矩陣構建數據倉庫DWD層,完成事務型事實表、周期型事實表、累積快照事實表搭建和數據裝載;
基于業務總線矩陣構建數據倉庫DIM層,針對緩慢變化維度,構建拉鏈表;
基于指標體系分析構建DWS層,將相同粒度、統計周期的派生指標整合統計為寬表,提高計算結果復用性;
安裝部署受各大廠歡迎的DolphinScheduler工作流調度系統,實現數據倉庫搭建全流程定時自動化調度以及故障自動郵件告警;
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進行多圖表、儀表盤可視化展示;
采用Echarts,結合SpringBoot對結果數據進行可視化展示,充分掌握數據展示接口編寫流程;
基于企業級數據倉庫的海量數據計算業務,對整體項目進行性能調優,掌握全面可實踐的性能調優技巧。
項目包含數十個 Flink 實時計算任務、幾十個實時計算指標和數萬行實時開發代碼。
遵循行內大廠的數據倉庫建模理論,實時數據倉庫分為 ODS 層、DIM 層、DWD 層、DWS 層和 ADS 層,實現分層計算和數據分流,從而提高效率并降低耦合度。
利用 HBase 和 Phoenix 組合存儲 DIM 層的維度數據,顯著提升響應速度。
通過 Flink CDC 和 MySQL 動態配置表,實現維度表配置的動態獲取和數據自動分流。
采用 Redis 實現旁路緩存,提高響應速度,同時使用 Flink 提供的異步 IO 進行優化。
提供適用于多種場景的雙流 Join 解決方案,深入分析各種解決方案的優缺點,培養解決問題的能力。
靈活運用狀態編程、FlinkCEP、窗口函數、自定義處理函數等Flink技術點解決復雜需求。
為所有需求提供 Flink 的 Table API 和 Flink SQL 兩種解決方案,滿足不同企業的開發需求,培養多角度開發能力。
使用 FlinkCEP 技術識別不同用戶行為模式,分析用戶跳出行為。
采用 ClickHouse 存儲最終寬表數據,顯著提高數據查詢效率,并為用戶提供即席查詢和可視化報表展示的多種可能性。
利用 SpringBoot 編寫數據展示接口與 Sugar 對接,實現數據可視化大屏展示,并熟練掌握數據展示接口編寫流程。
針對企業級海量數據分析任務,詳細講解分析生產環境中可能遇到的反壓問題、數據傾斜問題、檢查點配置關鍵點、狀態調優、鏈路延遲監控等多種性能調優問題。