熟悉Linux、Hadoop、Hive、Flume、Kafka
Spark、Springboot、Flink、Vue等基礎框架
以一個數據平臺的搭建為切入點,了解數據治理的相關業務知識
通過獲取Hive元數據,實現元數據的查詢、血緣查詢、數據治理等等
深度了解DolphinScheduler,實現對數倉的調度管理 ,并整合其底層數據實現一定的數據治理和質量監控
深度了解StreamX, 實現實時數倉的調度管理
學習數據質量監控的設計與實現
學習以評分績效方式對數據治理各個方便的管控
采集并分析Hive元數據;
DolphinScheduler的使用及底層元數據整合;
StreamX的使用及底層元數據整合;
Neo4j實現數倉血緣管理;
利用Debezium實現接多種數據源的采集;
利用Presto實現即席查詢;
設計并實現自定義數據質量監控;
設計并實現動態數據治理評分;
對接多種預警平臺,包括企業號、微信、語言通話;
通過Vue.js 和 Echarts實現可視化及圖表展示。