数据仓库 2026 选型:Snowflake / BigQuery / 阿里云 MaxCompute
数据仓库已经是任何中等规模以上公司的标配。当业务方不再满足于"昨天 GMV 是多少"而是要"过去 365 天里每个城市每个品类每周的同比、环比、滚动 LTV",OLTP 数据库立刻被压垮,必须把数据导出到一套专门为分析优化的列式系统里。2026 年的数据仓库赛道与五年前已截然不同:传统 MPP(Teradata、Greenplum)几乎退出新建项目,云原生存算分离架构成为绝对主流,Snowflake 与 BigQuery 占据国际市场,国内则是阿里云 MaxCompute、火山 ByteHouse、腾讯 CDW 三足鼎立,再加上 Databricks 推动的湖仓一体浪潮。本文系统梳理这一代数据仓库的核心架构、主流产品对比、定价模型、China 可用方案与选型决策框架。
一、传统数据仓库与现代云仓的分水岭
2010 年代以前的数据仓库以 Teradata、Oracle Exadata、Greenplum 为代表,称为 MPP(Massively Parallel Processing)架构。每个节点本地挂磁盘,数据按 Hash 或 Range 切分到节点,查询并行下推到所有节点再聚合。优点是成熟稳定、SQL 兼容性高;缺点是存储和计算紧耦合——加节点必须同时加 CPU 和磁盘,扩容慢、成本高、节点故障数据要重新分发,10TB 以上集群运维相当复杂。
2014 年 Snowflake 推出存算分离架构,把数据放在 S3 上,计算节点无状态。同一份数据可以被多个独立"虚拟仓库"(warehouse)并发查询,BI 用一个、ETL 用另一个,互不影响。计算想扩容只要再起一个节点,几分钟生效,不用时秒级关停。这种架构彻底改变了行业:BigQuery、Redshift Spectrum、阿里云 MaxCompute 全部走向类似设计。2026 年新建数据仓库基本不会再考虑老 MPP,存算分离是事实标准。
二、列式存储与向量化执行:底层为什么快
OLTP 数据库行式存储——一行的所有字段连续放在磁盘上,单行读取一次 IO。OLAP 几乎不查整行,而是 SUM、AVG、GROUP BY 几个特定列。列式存储把同一列的所有值连续存放,于是有三大优势:(1)列裁剪——查询只扫需要的列,IO 大幅减少;(2)压缩率高——同列数据类型一致,重复值多,常见 5-10 倍压缩;(3)向量化执行——一次处理一批列值(通常 1024 行),CPU SIMD 指令吃满,单核每秒处理几十亿行。
主流列式格式 Parquet(Spark 生态)、ORC(Hive 生态)已成事实标准,被所有现代仓库支持。Snowflake、BigQuery 内部用各自专有格式但概念一致。再叠加分区剪枝(按日期分区,查 2026 年 1 月只扫一个分区)、min/max 索引(每个 row group 存最小最大值,过滤条件不命中直接跳过),扫 1TB 数据可能只需读几 GB。理解这一层对写好 SQL 很关键——避免 SELECT *、永远带分区过滤、避免对分区列做函数运算。
三、Snowflake:跨云 SQL 仓库标杆
Snowflake 是云原生数据仓库的开创者与 2026 年仍是国际市场份额最高的产品。核心架构三层:底层是对象存储(AWS S3 / Azure Blob / GCS),中层是无状态计算节点(virtual warehouse),上层是云服务层(元数据、查询优化、权限管理)。一份数据可被多个仓库并发读取,每个仓库独立扩缩,互不干扰,这是其最大杀手锏。
定价按虚拟仓库的"信用点"(credit)计费,规模 X-Small 到 6X-Large,查询时启动、空闲一定时间自动挂起。优点是 SQL 标准(与 PostgreSQL 高度兼容)、生态最丰富(Tableau、Looker、dbt 都首选 Snowflake)、跨云灵活、共享数据(Snowflake Marketplace)、time travel 和零拷贝克隆。缺点是成本控制偏粗放——团队不规范的查询很容易月底账单爆炸。Snowflake 2024 年起也推出 Iceberg 表支持,可以读写外部数据湖,向湖仓一体方向演进。
四、BigQuery:Serverless 极致体验
BigQuery 是 Google 自家数据仓库,仅在 GCP 可用。最大特色是 Serverless——没有"集群"概念,用户只管写 SQL,背后由 Google Dremel 引擎调度全球资源执行,无需选实例规格、无需扩缩容、无需维护。新手 5 分钟可上手,建表、导数据、查询全部在 Web UI 完成。
定价两种模式:on-demand(按扫描数据量收费,每 TB 几美元,适合突发查询);capacity(按 slot 长期预留,适合稳定大批量)。BigQuery 与 GCP 生态深度集成——Pub/Sub 流式入仓、Dataflow 处理、Looker Studio 可视化、Vertex AI 直接对仓内数据训模型,全栈一气呵成。BigQuery ML 让用户在仓内用 SQL 训练简单模型,对数据团队是革命性体验。劣势是只在 GCP,且部分高级功能(如 BI Engine 加速、Storage API)需要额外付费。已经站在 GCP 上的团队几乎没有理由不用 BigQuery。
五、Redshift、Databricks 与湖仓一体趋势
AWS Redshift 是 AWS 自家方案,老一代基于 PostgreSQL 改造,是 MPP 与云仓的过渡形态。2022 年推出 Redshift Serverless 才真正走向存算分离。强项是 AWS 内部集成(S3、Glue、QuickSight),价格相对 Snowflake 略低。劣势是 SQL 兼容性、并发能力、生态丰富度都略逊 Snowflake。已深度绑定 AWS 且对成本敏感的团队会选 Redshift。
Databricks 推动的湖仓一体(Lakehouse)是 2026 年最大趋势。其逻辑是:数据湖(S3 上的 Parquet 文件)廉价灵活但缺事务、缺元数据;传统数据仓库结构化强但封闭。Delta Lake、Apache Iceberg、Apache Hudi 三种表格式给数据湖加上 ACID 事务、time travel、schema 演进,让一份数据既能跑 Spark 训练,也能跑 SQL 分析。Databricks 是 Lakehouse 旗舰产品,主打"一份数据、多种引擎"。Snowflake 2024 起、BigQuery 也都加了 Iceberg 支持,湖仓一体已经成为大数据量新建系统的默认形态。可以参考本站的 特征工程指南,看 ML 团队如何在 Lakehouse 上构建特征仓。
六、中国可用方案:MaxCompute、ByteHouse、CDW
合规与数据出境限制下,国内业务无法使用海外仓库。中国主流选择:阿里云 MaxCompute(原 ODPS)是国内市场份额最高的离线大数据仓库,背后是阿里十年生产验证、与 DataWorks 一站式开发平台深度集成、TPC-DS 性能业内领先,适合 PB 级离线数仓。阿里云另有 AnalyticDB(实时分析)、Hologres(HSAP 实时分析)、PAI 机器学习平台,组成完整数据栈。
火山引擎 ByteHouse 基于 ClickHouse 改造,主打实时 OLAP 与亚秒级响应,字节内部大规模生产使用,对实时大屏、用户行为分析场景有优势。腾讯云 CDW 提供基于 PostgreSQL 与 ClickHouse 的两套方案。华为 GaussDB(DWS) 在政企市场占有率高。中小团队也可以自建——ClickHouse、StarRocks、Doris 都是开源高性能 OLAP,国内社区活跃,TCO 远低于商业方案。选型主要看数据量级、实时性要求、与已有云厂商绑定关系。本站的 阿里云 vs 腾讯云讨论了云厂商整体生态对比。
七、定价模型与成本治理
云仓最大的运营痛点是成本失控。Snowflake、Redshift Serverless、阿里云按量计费:写一句不带分区过滤的 SELECT 可能扫几 TB,单条查询成本几百元。BigQuery on-demand 模式更直接——每查一次按扫描数据量计费,成本能直接翻译成数据量。容量模式(capacity / reserved)则是按 slot 或节点长期预留,适合稳定大量查询的场景,平均单价更低但要预估好需求。
成本治理最佳实践:(1)所有大表必须分区(按日期是最常见的),查询必须带分区过滤;(2)用列式裁剪——禁用 SELECT *,只查需要的列;(3)针对长期重复查询用物化视图(materialized view)或预聚合表;(4)开启查询配额——单查询、单用户、单项目都设置上限,避免误操作账单爆炸;(5)打开慢查询审计,定期 review TOP N 高消耗查询并优化;(6)冷数据归档到对象存储归档层,热数据留仓。Snowflake 的 resource monitor、BigQuery 的 quota、MaxCompute 的项目配额都是必开设施。
八、选型框架:从需求到决策
数据仓库选型可以按以下五个维度拆解:(1)地域与合规——业务在中国境内只能选国内仓,跨境业务考虑 Snowflake 多云。(2)已有云厂商——AWS 选 Redshift 或 Snowflake on AWS,GCP 选 BigQuery,Azure 选 Synapse 或 Snowflake,阿里云选 MaxCompute + Hologres,多云选 Snowflake。(3)数据量级与查询模式——TB 级离线分析任意主流仓都行,PB 级实时分析考虑 ByteHouse / ClickHouse / StarRocks,混合 BI 与 ML 考虑 Databricks Lakehouse。(4)团队 SQL 能力——SQL 强 Snowflake/BigQuery 上手最快,需要复杂数据科学选 Databricks。(5)预算与成本控制能力——成本敏感团队优先 capacity 模式或 ClickHouse 自建。
决策路径:先确定地域与云厂商范围,再筛选 2-3 个候选,做 POC 跑实际工作负载(同一份数据、同一组查询,对比性能与成本),最后看生态——dbt 集成、BI 工具支持、数据质量与血缘工具(如 OpenMetadata、Datafold)适配情况。不要被 marketing 话术带偏——TPC-DS 跑分只是参考,自己的真实查询效率才是答案。建议同时阅读本站的 MySQL vs PostgreSQL 与 MLOps 完全指南,构建从 OLTP 到 OLAP 再到模型上线的完整数据栈观感。可以用本站的 JSON 格式化工具调试 SQL 元数据导出。
常见问题
数据仓库和数据库有什么本质区别?
数据库(OLTP)面向事务处理,行式存储,强调单行读写延迟、高并发短事务,典型如 MySQL、PostgreSQL;数据仓库(OLAP)面向分析查询,列式存储,强调批量扫描、聚合统计,典型如 Snowflake、BigQuery、MaxCompute。OLTP 关心 ACID 与索引命中,OLAP 关心列裁剪、向量化执行与分区剪枝,两者数据模型、存储格式、优化目标完全不同,通常 OLTP 数据通过 ETL 或 CDC 同步到数仓做分析。
什么是存算分离,为什么 2026 年仍是主流?
存算分离指数据存在对象存储(S3、OSS、GCS)上,计算节点无状态、按需启停。优点是存储成本极低(每 GB 每月几分钱)、计算可弹性扩缩(从 0 到数百节点几分钟内完成)、多集群隔离(BI 与 ETL 互不影响)。Snowflake 与 BigQuery 是这一架构的代表,传统 MPP 如 Greenplum、Teradata 已逐渐退出新建项目舞台。它的另一个好处是数据共享与 zero-copy clone 几乎零成本,对组织内部协同非常关键。
Snowflake 与 BigQuery 怎么选?
Snowflake 跨云(AWS/Azure/GCP 都可),SQL 标准、生态成熟,按虚拟仓库(warehouse)小时计费,团队对 SQL 友好但成本控制偏粗放。BigQuery 仅 GCP,按扫描数据量计费(on-demand)或按 slot 计费(capacity),无服务器体验最佳,与 GCP 服务深度集成。已用 GCP 选 BigQuery,多云或独立选 Snowflake。如果团队还没决定云厂商,BigQuery 的零运维体验对中小团队往往更友好。
中国境内业务数据仓库怎么选?
中国合规与数据出境限制下,海外仓库不可用。主流选择:阿里云 MaxCompute(原 ODPS,离线大数据首选,与 DataWorks 一站式集成)、阿里云 AnalyticDB 与 Hologres(实时与 OLAP 混合)、火山引擎 ByteHouse(基于 ClickHouse,字节自研)、腾讯云 CDW(基于 PostgreSQL/ClickHouse)、华为 GaussDB(DWS)。MaxCompute 用户基数最大,ByteHouse 在实时分析场景增长很快,中小团队也可自建 ClickHouse、StarRocks、Doris 等开源方案。
湖仓一体(Lakehouse)和数据仓库是什么关系?
数据湖(S3 上一堆 parquet)廉价灵活但缺事务、缺元数据;数据仓库结构化强但封闭。湖仓一体(Lakehouse)通过 Delta Lake、Iceberg、Hudi 等表格式给数据湖加上 ACID、time travel、schema 演进,让一份数据既能跑 Spark 又能跑 SQL。Databricks 是 Lakehouse 旗舰,Snowflake、BigQuery 也都接入了 Iceberg 支持。2026 年,湖仓一体在大数据量场景已成新建系统的默认选择,传统纯数仓更多用于已有项目存量。
相关工具
- JSON 格式化工具 — 调试 SQL 元数据导出
- MySQL vs PostgreSQL — 上游 OLTP 数据库选型
- MLOps 完全指南 — 数据仓库下游 ML 工作流