数据仓库 2026 选型：Snowflake / BigQuery / 阿里云 MaxCompute

数据仓库已经是任何中等规模以上公司的标配。当业务方不再满足于"昨天 GMV 是多少"而是要"过去 365 天里每个城市每个品类每周的同比、环比、滚动 LTV"，OLTP 数据库立刻被压垮，必须把数据导出到一套专门为分析优化的列式系统里。2026 年的数据仓库赛道与五年前已截然不同：传统 MPP（Teradata、Greenplum）几乎退出新建项目，云原生存算分离架构成为绝对主流，Snowflake 与 BigQuery 占据国际市场，国内则是阿里云 MaxCompute、火山 ByteHouse、腾讯 CDW 三足鼎立，再加上 Databricks 推动的湖仓一体浪潮。本文系统梳理这一代数据仓库的核心架构、主流产品对比、定价模型、China 可用方案与选型决策框架。

一、传统数据仓库与现代云仓的分水岭

2010 年代以前的数据仓库以 Teradata、Oracle Exadata、Greenplum 为代表，称为 MPP（Massively Parallel Processing）架构。每个节点本地挂磁盘，数据按 Hash 或 Range 切分到节点，查询并行下推到所有节点再聚合。优点是成熟稳定、SQL 兼容性高；缺点是存储和计算紧耦合——加节点必须同时加 CPU 和磁盘，扩容慢、成本高、节点故障数据要重新分发，10TB 以上集群运维相当复杂。

2014 年 Snowflake 推出存算分离架构，把数据放在 S3 上，计算节点无状态。同一份数据可以被多个独立"虚拟仓库"（warehouse）并发查询，BI 用一个、ETL 用另一个，互不影响。计算想扩容只要再起一个节点，几分钟生效，不用时秒级关停。这种架构彻底改变了行业：BigQuery、Redshift Spectrum、阿里云 MaxCompute 全部走向类似设计。2026 年新建数据仓库基本不会再考虑老 MPP，存算分离是事实标准。

二、列式存储与向量化执行：底层为什么快

OLTP 数据库行式存储——一行的所有字段连续放在磁盘上，单行读取一次 IO。OLAP 几乎不查整行，而是 SUM、AVG、GROUP BY 几个特定列。列式存储把同一列的所有值连续存放，于是有三大优势：（1）列裁剪——查询只扫需要的列，IO 大幅减少；（2）压缩率高——同列数据类型一致，重复值多，常见 5-10 倍压缩；（3）向量化执行——一次处理一批列值（通常 1024 行），CPU SIMD 指令吃满，单核每秒处理几十亿行。

主流列式格式 Parquet（Spark 生态）、ORC（Hive 生态）已成事实标准，被所有现代仓库支持。Snowflake、BigQuery 内部用各自专有格式但概念一致。再叠加分区剪枝（按日期分区，查 2026 年 1 月只扫一个分区）、min/max 索引（每个 row group 存最小最大值，过滤条件不命中直接跳过），扫 1TB 数据可能只需读几 GB。理解这一层对写好 SQL 很关键——避免 SELECT *、永远带分区过滤、避免对分区列做函数运算。

三、Snowflake：跨云 SQL 仓库标杆

Snowflake 是云原生数据仓库的开创者与 2026 年仍是国际市场份额最高的产品。核心架构三层：底层是对象存储（AWS S3 / Azure Blob / GCS），中层是无状态计算节点（virtual warehouse），上层是云服务层（元数据、查询优化、权限管理）。一份数据可被多个仓库并发读取，每个仓库独立扩缩，互不干扰，这是其最大杀手锏。

定价按虚拟仓库的"信用点"（credit）计费，规模 X-Small 到 6X-Large，查询时启动、空闲一定时间自动挂起。优点是 SQL 标准（与 PostgreSQL 高度兼容）、生态最丰富（Tableau、Looker、dbt 都首选 Snowflake）、跨云灵活、共享数据（Snowflake Marketplace）、time travel 和零拷贝克隆。缺点是成本控制偏粗放——团队不规范的查询很容易月底账单爆炸。Snowflake 2024 年起也推出 Iceberg 表支持，可以读写外部数据湖，向湖仓一体方向演进。

四、BigQuery：Serverless 极致体验

BigQuery 是 Google 自家数据仓库，仅在 GCP 可用。最大特色是 Serverless——没有"集群"概念，用户只管写 SQL，背后由 Google Dremel 引擎调度全球资源执行，无需选实例规格、无需扩缩容、无需维护。新手 5 分钟可上手，建表、导数据、查询全部在 Web UI 完成。

定价两种模式：on-demand（按扫描数据量收费，每 TB 几美元，适合突发查询）；capacity（按 slot 长期预留，适合稳定大批量）。BigQuery 与 GCP 生态深度集成——Pub/Sub 流式入仓、Dataflow 处理、Looker Studio 可视化、Vertex AI 直接对仓内数据训模型，全栈一气呵成。BigQuery ML 让用户在仓内用 SQL 训练简单模型，对数据团队是革命性体验。劣势是只在 GCP，且部分高级功能（如 BI Engine 加速、Storage API）需要额外付费。已经站在 GCP 上的团队几乎没有理由不用 BigQuery。

五、Redshift、Databricks 与湖仓一体趋势

AWS Redshift 是 AWS 自家方案，老一代基于 PostgreSQL 改造，是 MPP 与云仓的过渡形态。2022 年推出 Redshift Serverless 才真正走向存算分离。强项是 AWS 内部集成（S3、Glue、QuickSight），价格相对 Snowflake 略低。劣势是 SQL 兼容性、并发能力、生态丰富度都略逊 Snowflake。已深度绑定 AWS 且对成本敏感的团队会选 Redshift。

Databricks 推动的湖仓一体（Lakehouse）是 2026 年最大趋势。其逻辑是：数据湖（S3 上的 Parquet 文件）廉价灵活但缺事务、缺元数据；传统数据仓库结构化强但封闭。Delta Lake、Apache Iceberg、Apache Hudi 三种表格式给数据湖加上 ACID 事务、time travel、schema 演进，让一份数据既能跑 Spark 训练，也能跑 SQL 分析。Databricks 是 Lakehouse 旗舰产品，主打"一份数据、多种引擎"。Snowflake 2024 起、BigQuery 也都加了 Iceberg 支持，湖仓一体已经成为大数据量新建系统的默认形态。可以参考本站的特征工程指南，看 ML 团队如何在 Lakehouse 上构建特征仓。

六、中国可用方案：MaxCompute、ByteHouse、CDW

合规与数据出境限制下，国内业务无法使用海外仓库。中国主流选择：阿里云 MaxCompute（原 ODPS）是国内市场份额最高的离线大数据仓库，背后是阿里十年生产验证、与 DataWorks 一站式开发平台深度集成、TPC-DS 性能业内领先，适合 PB 级离线数仓。阿里云另有 AnalyticDB（实时分析）、Hologres（HSAP 实时分析）、PAI 机器学习平台，组成完整数据栈。

火山引擎 ByteHouse 基于 ClickHouse 改造，主打实时 OLAP 与亚秒级响应，字节内部大规模生产使用，对实时大屏、用户行为分析场景有优势。腾讯云 CDW 提供基于 PostgreSQL 与 ClickHouse 的两套方案。华为 GaussDB(DWS) 在政企市场占有率高。中小团队也可以自建——ClickHouse、StarRocks、Doris 都是开源高性能 OLAP，国内社区活跃，TCO 远低于商业方案。选型主要看数据量级、实时性要求、与已有云厂商绑定关系。本站的阿里云 vs 腾讯云讨论了云厂商整体生态对比。

七、定价模型与成本治理

云仓最大的运营痛点是成本失控。Snowflake、Redshift Serverless、阿里云按量计费：写一句不带分区过滤的 SELECT 可能扫几 TB，单条查询成本几百元。BigQuery on-demand 模式更直接——每查一次按扫描数据量计费，成本能直接翻译成数据量。容量模式（capacity / reserved）则是按 slot 或节点长期预留，适合稳定大量查询的场景，平均单价更低但要预估好需求。

成本治理最佳实践：（1）所有大表必须分区（按日期是最常见的），查询必须带分区过滤；（2）用列式裁剪——禁用 SELECT *，只查需要的列；（3）针对长期重复查询用物化视图（materialized view）或预聚合表；（4）开启查询配额——单查询、单用户、单项目都设置上限，避免误操作账单爆炸；（5）打开慢查询审计，定期 review TOP N 高消耗查询并优化；（6）冷数据归档到对象存储归档层，热数据留仓。Snowflake 的 resource monitor、BigQuery 的 quota、MaxCompute 的项目配额都是必开设施。

八、选型框架：从需求到决策

数据仓库选型可以按以下五个维度拆解：（1）地域与合规——业务在中国境内只能选国内仓，跨境业务考虑 Snowflake 多云。（2）已有云厂商——AWS 选 Redshift 或 Snowflake on AWS，GCP 选 BigQuery，Azure 选 Synapse 或 Snowflake，阿里云选 MaxCompute + Hologres，多云选 Snowflake。（3）数据量级与查询模式——TB 级离线分析任意主流仓都行，PB 级实时分析考虑 ByteHouse / ClickHouse / StarRocks，混合 BI 与 ML 考虑 Databricks Lakehouse。（4）团队 SQL 能力——SQL 强 Snowflake/BigQuery 上手最快，需要复杂数据科学选 Databricks。（5）预算与成本控制能力——成本敏感团队优先 capacity 模式或 ClickHouse 自建。

决策路径：先确定地域与云厂商范围，再筛选 2-3 个候选，做 POC 跑实际工作负载（同一份数据、同一组查询，对比性能与成本），最后看生态——dbt 集成、BI 工具支持、数据质量与血缘工具（如 OpenMetadata、Datafold）适配情况。不要被 marketing 话术带偏——TPC-DS 跑分只是参考，自己的真实查询效率才是答案。建议同时阅读本站的 MySQL vs PostgreSQL 与 MLOps 完全指南，构建从 OLTP 到 OLAP 再到模型上线的完整数据栈观感。可以用本站的 JSON 格式化工具调试 SQL 元数据导出。

常见问题

数据仓库和数据库有什么本质区别？

数据库（OLTP）面向事务处理，行式存储，强调单行读写延迟、高并发短事务，典型如 MySQL、PostgreSQL；数据仓库（OLAP）面向分析查询，列式存储，强调批量扫描、聚合统计，典型如 Snowflake、BigQuery、MaxCompute。OLTP 关心 ACID 与索引命中，OLAP 关心列裁剪、向量化执行与分区剪枝，两者数据模型、存储格式、优化目标完全不同，通常 OLTP 数据通过 ETL 或 CDC 同步到数仓做分析。

什么是存算分离，为什么 2026 年仍是主流？

存算分离指数据存在对象存储（S3、OSS、GCS）上，计算节点无状态、按需启停。优点是存储成本极低（每 GB 每月几分钱）、计算可弹性扩缩（从 0 到数百节点几分钟内完成）、多集群隔离（BI 与 ETL 互不影响）。Snowflake 与 BigQuery 是这一架构的代表，传统 MPP 如 Greenplum、Teradata 已逐渐退出新建项目舞台。它的另一个好处是数据共享与 zero-copy clone 几乎零成本，对组织内部协同非常关键。

Snowflake 与 BigQuery 怎么选？

Snowflake 跨云（AWS/Azure/GCP 都可），SQL 标准、生态成熟，按虚拟仓库（warehouse）小时计费，团队对 SQL 友好但成本控制偏粗放。BigQuery 仅 GCP，按扫描数据量计费（on-demand）或按 slot 计费（capacity），无服务器体验最佳，与 GCP 服务深度集成。已用 GCP 选 BigQuery，多云或独立选 Snowflake。如果团队还没决定云厂商，BigQuery 的零运维体验对中小团队往往更友好。

中国境内业务数据仓库怎么选？

中国合规与数据出境限制下，海外仓库不可用。主流选择：阿里云 MaxCompute（原 ODPS，离线大数据首选，与 DataWorks 一站式集成）、阿里云 AnalyticDB 与 Hologres（实时与 OLAP 混合）、火山引擎 ByteHouse（基于 ClickHouse，字节自研）、腾讯云 CDW（基于 PostgreSQL/ClickHouse）、华为 GaussDB(DWS)。MaxCompute 用户基数最大，ByteHouse 在实时分析场景增长很快，中小团队也可自建 ClickHouse、StarRocks、Doris 等开源方案。

湖仓一体（Lakehouse）和数据仓库是什么关系？

数据湖（S3 上一堆 parquet）廉价灵活但缺事务、缺元数据；数据仓库结构化强但封闭。湖仓一体（Lakehouse）通过 Delta Lake、Iceberg、Hudi 等表格式给数据湖加上 ACID、time travel、schema 演进，让一份数据既能跑 Spark 又能跑 SQL。Databricks 是 Lakehouse 旗舰，Snowflake、BigQuery 也都接入了 Iceberg 支持。2026 年，湖仓一体在大数据量场景已成新建系统的默认选择，传统纯数仓更多用于已有项目存量。