数据工程
把数据工程做成稳定系统
从采集、建模、调度到质量治理,这里是一套面向真实业务的数据工程实践指南。
5
学习阶段
6
实战项目
35+
核心考点
成长路线图
STAGE 1
数据建模基础
理解维度建模、宽表设计、主键策略与数据口径。
STAGE 2
ETL/ELT 实践
掌握批处理与增量处理,设计可恢复的任务流。
STAGE 3
调度与编排
用 Airflow/Prefect 构建可观察、可重跑、可告警的 DAG。
STAGE 4
数据质量治理
落地完整性、唯一性、时效性与异常监控。
STAGE 5
实时数据链路
理解 Kafka + 流处理的语义、延迟与一致性权衡。
数据平台能力栈
Ingestion
CDC、日志采集、第三方 API 抽取
Storage
Data Lake / Warehouse 分层与成本控制
Transform
dbt / Spark SQL / Python Pipeline
Serve
BI 报表、特征服务、下游 API 提供
Governance
血缘、权限、质量与 SLA 体系
实战项目建议
从业务库做 CDC 到仓库,搭一条完整日增量链路
用 dbt 规范模型层并加入测试、文档和血缘
为核心事实表建立质量规则和告警通知
构建一条流式处理链路并计算分钟级指标
常见坑位与规避
口径不统一:先定义指标字典和数据契约
任务偶发失败:设计幂等和断点续跑机制
数据延迟不可见:必须有端到端时延监控
成本失控:建立分层存储与冷热数据策略
面试高频自检
能解释星型模型和雪花模型的取舍
能描述批流一体架构的关键挑战
能给出数据质量体系落地方案
能说清一次线上数据事故的排查路径
想要了解什么?
如果你对某个数据工程话题特别感兴趣,欢迎通过联系页面告诉我,我会优先考虑创作相关内容!