数据工程师 2026 学习路线图

Q: 学数据工程必须先学好哪些基础？

三大不可绕过的基础：（1）SQL——数据工程师 80% 时间在写 SQL，必须精通 join、窗口函数、CTE、查询优化、执行计划；（2）Python——pandas/Polars 处理小批数据、PySpark 处理大数据、写 DAG 调度，编程功底要扎实；（3）数据建模——星型/雪花/Data Vault，理解事实表与维度表、缓慢变化维（SCD Type 1/2）。这三块是面试与日常工作的核心，缺一项都很难胜任。

Q: 数据工程师面试主要考什么？

四大模块：（1）SQL 现场写——窗口函数、复杂 join、连续登录、TOPK 这类经典题；（2）数据建模——给一个业务设计星型模型，画事实表、维度表、SCD 处理；（3）系统设计——设计一个用户行为日志数据流水线（采集、清洗、入仓、消费），考察整体架构能力；（4）项目深挖——简历项目数据量、QPS、技术选型理由、踩过的坑。算法题相对少（不像后端那么重），但 Python 基础与数据结构要扎实。

数据工程（Data Engineering）是过去十年增长最快的工程岗位之一。每个公司都喊"数据驱动"，但能让数据稳定、准确、低延迟到达分析师与算法工程师手里的，是数据工程师。这个岗位融合数据库、分布式系统、ETL、云基础设施、数据建模、可观测性多领域知识，国内外薪资普遍高于普通后端开发。但路线图分散——SQL 学到什么程度？Spark 和 Flink 都要学吗？dbt 还是 Airflow？云栈先学哪个？本文给出一份从零到能拿 offer 的完整 2026 年数据工程师学习路线图，分八个阶段，每段标注核心目标、推荐资源与里程碑项目。

一、数据工程师与相邻岗位的区别

先认清岗位定位。数据工程师（Data Engineer，DE）是数据基础设施的搬运工与建设者——负责把业务系统、第三方 API、日志、外部数据源的数据，可靠、低延迟、高质量地搬到数据仓库或数据湖，让下游能直接消费。日常工作：写 ETL/ELT 代码、维护数据管道、做数据建模、保数据质量、监控延迟。数据分析师（Data Analyst，DA）从数仓出发写 SQL、做报表、给业务方做洞察。数据科学家（Data Scientist，DS）做机器学习与预测模型。

三者协作链条：DE 把数据备好 → DA/DS 用数据产出价值。DE 比 DA 工程深、比 DS 算法浅，是连接 OLTP 业务系统与 OLAP 分析系统的桥梁。薪资上 DE 与后端工程师相当，国内大厂 P6/P7 区间，外企硅谷 senior 数据工程师常见 20-30 万美元。岗位最大优势是稀缺——会写 SQL 的人多，会从零设计 PB 级流水线的人少，工作年限到 5 年以上议价能力很强。如果你已经是后端、运维、分析师想转 DE，是非常合理的路径。

二、阶段一：SQL 与 Python 基础（1-3 个月）

SQL 是数据工程师的母语，80% 的工作时间在写 SQL。必须掌握：基础 join（inner、left、full、cross）、聚合（group by、having）、子查询与 CTE（WITH 语法）、窗口函数（ROW_NUMBER、LAG、LEAD、SUM OVER PARTITION BY）、UNION 与集合运算、字符串与日期处理、性能优化（看执行计划、加索引、避免全表扫描）。学习资源：LeetCode SQL 50 题、HackerRank SQL、Mode Analytics SQL Tutorial、阿里云大学 SQL 课程。里程碑——能在 30 分钟内写出"求每个用户最近一次登录前的连续登录天数"这类窗口函数题。可以用本站的 SQL 格式化工具整理复杂查询。

Python 是数据工程第二语言。重点不是 LeetCode 算法（DE 面试算法占比低），而是数据处理与脚本能力——pandas/Polars 处理 CSV/Parquet、requests 调 API、json 解析、文件 IO、多进程多线程基本概念、装饰器、异常处理。再加上 PySpark API（DataFrame、SQL 接口）。Python 学到能写 100-300 行 ETL 脚本独立完成日常任务即可。可以参考本站的 Pandas vs Polars 选择处理工具。

三、阶段二：数据建模（1 个月）

数据建模是 DE 区别于分析师的核心能力。Kimball 维度建模是工业标准——把业务过程抽象为事实表（Fact Table）+ 维度表（Dimension Table）。事实表存可加性数值（订单金额、点击次数），通过外键关联维度表（用户、商品、时间、地理）。星型模式（Star Schema）是事实表周围一圈维度表，简单查询快；雪花模式（Snowflake Schema）维度表再细分子维度，规范化好但 join 多。

必须掌握缓慢变化维（SCD）——用户的城市、手机号变了怎么办？SCD Type 1 直接覆盖（不保留历史）；Type 2 加 start_date / end_date / is_current 保留全量历史，是最常用方案；Type 3 只保留上次值。再学一致性维度（同一份用户维度跨主题域共用）、退化维度（订单号直接放事实表）、累积事实表（订单状态变化）。Inmon 范式建模、Data Vault 也是另两种思路，但工业界 Kimball 占主流。Ralph Kimball《数据仓库工具箱》是必读书。里程碑——能给一个电商业务设计完整数仓分层（ODS/DWD/DWS/ADS）与维度模型。

四、阶段三：流水线工具——Airflow / dbt / Dagster（1-2 个月）

数据流水线工具是 DE 日常主战场。dbt（Data Build Tool）必学——它把 SQL 转换层标准化，让你用 Jinja + SQL 写出可测试、可文档、可血缘追踪的 ELT 代码，所有现代数仓团队都在用。dbt 核心概念：model（一个 SELECT 查询对应一张表/视图）、materialization（视图/表/增量/快照）、seeds（小静态数据）、tests（数据质量断言）、docs（自动生成文档与血缘图）、macros（Jinja 函数复用）。学完能用 dbt 重构一个杂乱 SQL 项目就算掌握。

调度层选 Airflow、Dagster、Prefect 之一。Airflow 是 Apache 顶级项目、社区最大、生态最全（operator 覆盖几乎所有数据源），是 2016 年起的事实标准，但 DAG 用 Python 写偏老派、UI 略陈旧。Dagster 是新一代调度，资产（Software-Defined Asset）思维更先进——你定义"我要这张表"，Dagster 自动算依赖、调度、监控；UI 现代、可观测性强；2024-2026 年新项目首选。Prefect 是另一个轻量选择。学习顺序：dbt 必学，Airflow 看团队既有栈，新项目从 Dagster 起步。可以参考本站的 MLOps 完全指南了解流水线工具如何在 ML 场景延伸。

五、阶段四：分布式计算——Spark 与 Flink（2 个月）

当数据量超过单机能力，必须分布式。Apache Spark 是离线批处理事实标准——RDD（底层弹性分布式数据集）、DataFrame（高阶 SQL 风格 API）、Spark SQL（直接写 SQL）、PySpark（Python 接口）、Structured Streaming（流式）。Spark 也支持 ML（MLlib）、图计算（GraphX）。重点学：DataFrame API、各种 join 策略（broadcast、sort-merge、shuffle hash）、partition 与 bucket、性能调优（cache、coalesce、广播变量、避免 skew）、Spark on K8s。

实时计算选 Apache Flink 或 Spark Streaming。Flink 是真正的流式优先（事件时间、watermark、checkpoint、exactly-once 语义最完整），阿里、字节、Uber、Netflix 大规模使用。Spark Structured Streaming 是 micro-batch 模式，延迟略高但与 Spark 生态无缝。新项目要做实时计算优先 Flink，已有 Spark 团队选 Spark Streaming。中国境内大厂 Flink 用得更多，外企 Spark 占优。学完能独立写一个 Spark 离线任务（百亿行级 join + 聚合）与一个 Flink 流式任务（Kafka 消费 + 窗口聚合 + 入仓），就达到中级水平。可以参考本站的 Kafka vs RabbitMQ了解流式底座。

六、阶段五：云上数据栈（1-2 个月）

2026 年几乎所有数据团队都在云上跑。云数据栈五大组件：（1）对象存储——S3 / GCS / Azure Blob / 阿里 OSS，是数据湖底座，必学 bucket 策略、生命周期、版本控制、IAM 权限。（2）数据仓库——Snowflake / BigQuery / Redshift / 阿里 MaxCompute / AnalyticDB，对应不同云厂商，详见本站的数据仓库 2026 选型。（3）流计算——AWS Kinesis、Kafka、Pulsar、阿里 LogService、Datahub。（4）查询引擎——Athena（S3 上 SQL）、Trino/Presto（联邦查询）、StarRocks/Doris。（5）调度——AWS Step Functions、Glue Workflows、阿里 DataWorks。

建议路径——先精通一朵云形成深度认知，再横向了解其他云对应组件。AWS 全球占有率第一、简历加分最多，从 AWS 起步是稳妥选择，重点学 S3、Glue（ETL）、Athena（查询）、Redshift（数仓）、EMR（Spark/Hive）、Lambda（无服务器）、Step Functions（调度）。中国业务侧重阿里云栈：OSS、MaxCompute（离线大数据）、DataWorks（一站式开发）、AnalyticDB（实时数仓）、Hologres（实时分析）、Flink VVR（实时计算）。考一个云认证（AWS Solutions Architect Associate 或阿里云 ACP）对简历是加分项。

七、阶段六：数据质量、可观测性与现代数据栈（1 个月）

数据质量是 DE 的隐藏 50% 工作。Garbage in, garbage out——管道再快，数据错了下游全错。核心概念：（1）数据契约（Data Contract）——上游业务 schema 变化前必须通知下游，避免"上游字段悄悄改类型导致下游 ETL 全挂"。（2）数据测试——dbt tests、Great Expectations、Soda 写断言（不能为空、唯一、范围、参考完整性），跑在每次流水线后。（3）数据血缘——OpenMetadata、DataHub、Marquez 自动追踪表与列级依赖，影响分析必备。

数据可观测性（Data Observability）是新兴方向——监控数据"健康"五维：新鲜度（数据是否按时到达）、容量（行数是否在预期）、分布（数值分布是否漂移）、schema、血缘。Monte Carlo、Bigeye、Datafold 是商业代表，OpenMetadata 是开源方案。再学一些现代工具：Apache Iceberg / Delta Lake / Hudi（湖仓表格式）、DuckDB（嵌入式 OLAP）、Dagster（资产化调度）、Soda Cloud（数据质量平台）。这些都属于"现代数据栈（Modern Data Stack）"，2026 年高级 DE 岗位的标配。

八、阶段七与八：项目实战与面试准备（持续）

项目是简历最重要的部分。建议做 2-3 个完整项目展示能力：（1）端到端数据流水线——采集（API/爬虫/Kafka）→ 入湖（S3 + Iceberg）→ 转换（Spark/dbt）→ 入仓（Snowflake/BigQuery/MaxCompute）→ BI 可视化（Superset/Metabase/Tableau），写完整 README、画架构图、上 GitHub。（2）实时数据流水线——Kafka + Flink/Spark Streaming + ClickHouse/Doris 做实时大屏。（3）开源贡献——给 dbt、Airflow、Spark 提 PR 或写 plugin，简历巨大加分。

面试准备四大模块：SQL 现场写（窗口函数、连续登录、TOPK 经典题，至少能写 30 道经典题）；数据建模（给业务设计星型模型，能讲清事实/维度/SCD）；系统设计（设计一个用户行为日志或电商订单数据流水线，覆盖采集、清洗、入仓、消费、监控全链路）；项目深挖（简历项目数据量、QPS、技术选型理由、踩过的坑、最有挑战的部分）。算法题相对后端少（不会问动态规划之类），但二叉树、双指针、Hash 这种基础题要会。可以阅读本站的中国技术面试指南了解整体节奏，JSON 格式化工具调试 API 数据。持续学习——关注 r/dataengineering、Substack 上的 Seattle Data Guy、Joe Reis、Ben Stancil 等数据工程领袖博客。2026 年是 DE 黄金时代，AI 让数据需求暴增，岗位远未饱和。

常见问题

数据工程师和数据分析师、数据科学家有什么区别？

三者分工不同：数据工程师（DE）负责数据从源系统到数仓的可靠流动——建管道、保质量、做建模，技能偏后端工程；数据分析师（DA）从数仓出发做业务洞察，写 SQL、做报表与可视化，偏业务；数据科学家（DS）做机器学习与预测建模，偏算法。三者协作链条：DE 把数据备好 → DA/DS 用数据产出价值。DE 是数据团队基础设施，工程比重最高、薪资也通常更稳定，岗位稀缺度高。

学数据工程必须先学好哪些基础？

三大不可绕过的基础：SQL——数据工程师 80% 时间在写 SQL，必须精通 join、窗口函数、CTE、查询优化、执行计划；Python——pandas/Polars 处理小批数据、PySpark 处理大数据、写 DAG 调度，编程功底要扎实；数据建模——星型/雪花/Data Vault，理解事实表与维度表、缓慢变化维（SCD Type 1/2）。这三块是面试与日常工作的核心，缺一项都很难胜任。其余工具（dbt、Airflow、Spark）都是建立在这三大基础上。

Airflow、dbt、Dagster 该学哪个？

三者层次不同。dbt 是 SQL 转换层（T in ELT），所有现代数仓都在用，必学。Airflow 是通用 DAG 调度，社区最大、生态最全，传统选择，但 Python 写 DAG 偏老派。Dagster 是新一代调度，资产（asset）思维更清晰、UI 更现代、可观测性强，新项目推荐。Prefect 是另一个轻量选择。学习顺序：dbt 必学 → Airflow 看团队栈 → 新建项目首选 Dagster。这三者底层概念相通，学一个再换其他工具几天就能上手。

云上数据栈优先学哪个云？

AWS 全球市场份额第一，简历加分最多，先学 AWS（S3、Glue、Athena、Redshift、EMR、Lambda、Step Functions）。GCP 数据工具最现代（BigQuery、Dataflow、Pub/Sub），AI 与数据团队的最爱。Azure 国内外政企多见。中国境内业务必学阿里云（OSS、MaxCompute、DataWorks、AnalyticDB、Hologres）。建议路径：先精通一朵云（AWS 或阿里云），再了解其他云对应组件，跨云迁移概念是相通的。考一个云认证对简历加分。

数据工程师面试主要考什么？

四大模块：SQL 现场写——窗口函数、复杂 join、连续登录、TOPK 这类经典题；数据建模——给一个业务设计星型模型，画事实表、维度表、SCD 处理；系统设计——设计一个用户行为日志数据流水线（采集、清洗、入仓、消费），考察整体架构能力；项目深挖——简历项目数据量、QPS、技术选型理由、踩过的坑。算法题相对少（不像后端那么重），但 Python 基础与数据结构要扎实，二叉树、双指针、Hash 这种基础题要会。