返回首页
数据工程

把数据工程做成稳定系统

从采集、建模、调度到质量治理,这里是一套面向真实业务的数据工程实践指南。

5

学习阶段

6

实战项目

35+

核心考点

成长路线图

STAGE 1

数据建模基础

理解维度建模、宽表设计、主键策略与数据口径。

STAGE 2

ETL/ELT 实践

掌握批处理与增量处理,设计可恢复的任务流。

STAGE 3

调度与编排

用 Airflow/Prefect 构建可观察、可重跑、可告警的 DAG。

STAGE 4

数据质量治理

落地完整性、唯一性、时效性与异常监控。

STAGE 5

实时数据链路

理解 Kafka + 流处理的语义、延迟与一致性权衡。

数据平台能力栈

Ingestion

CDC、日志采集、第三方 API 抽取

Storage

Data Lake / Warehouse 分层与成本控制

Transform

dbt / Spark SQL / Python Pipeline

Serve

BI 报表、特征服务、下游 API 提供

Governance

血缘、权限、质量与 SLA 体系

实战项目建议

从业务库做 CDC 到仓库,搭一条完整日增量链路
用 dbt 规范模型层并加入测试、文档和血缘
为核心事实表建立质量规则和告警通知
构建一条流式处理链路并计算分钟级指标

常见坑位与规避

口径不统一:先定义指标字典和数据契约
任务偶发失败:设计幂等和断点续跑机制
数据延迟不可见:必须有端到端时延监控
成本失控:建立分层存储与冷热数据策略

面试高频自检

能解释星型模型和雪花模型的取舍
能描述批流一体架构的关键挑战
能给出数据质量体系落地方案
能说清一次线上数据事故的排查路径

想要一套可复制的数据工程模板?

我可以按你当前技术栈,给你定制化的学习与项目落地路径。

想要了解什么?

如果你对某个数据工程话题特别感兴趣,欢迎通过联系页面告诉我,我会优先考虑创作相关内容!