云 GPU 选型 2026：RunPod / Lambda / Vast.ai / 国内

2026 年自己买卡训练越来越不划算：H100 单卡 25 万元，整机 8 卡 200 万起，电费一个月 8000 元。除非你已经稳定每天跑超过 18 小时训练任务，否则租云 GPU 永远更划算。本文横向对比 RunPod、Lambda、Vast.ai、CoreWeave 与国内阿里云、腾讯云、火山引擎、AutoDL，覆盖卡型选择、按量与竞价定价、网络存储规划、训练与推理不同需求下的最优组合。

2026 年 GPU 卡型现状

NVIDIA 阵营仍然占据 95% 以上市场份额。A100 80GB 是 2020 发布的老旗舰，2026 年仍然是性价比甜点，FP16 算力 312 TFLOPS，跑 7B / 13B 模型微调与中型推理足够。H100 80GB 加入 FP8 与 Transformer Engine，长上下文与 70B 训练首选。H200 把内存升级到 141GB HBM3e，跑 70B FP16 推理无需切片，比 H100 贵 30% 但性价比更高。B200 是 2024 发布的新一代，FP4 算力 20 PFLOPS，主要进入大型 AI 公司手里，零散单卡仍然难租。L40S 与 RTX 6000 Ada 是推理与小规模训练的性价比选择。AMD MI300X 192GB 在 2026 年开始大规模供货，TensorRT-LLM 与 vLLM 已支持，价格比 H100 便宜 25%。国产卡昇腾 910B 与寒武纪 MLU370 在国内云平台已有规模化部署，但生态与工具链仍以 NVIDIA 为基准。

海外平台横向对比

RunPod 是 2026 年开发者最爱的容器化平台。Pod 模式拉一个 Docker 镜像几秒启动，Network Volume 跨 Pod 持久化数据，Serverless 模式按秒计费适合稀疏推理。A100 80GB 时租 1.0 到 1.4 美元，H100 时租 1.8 到 2.5 美元，Spot Pod 比 On-demand 便宜 50% 到 60%。Lambda Labs 走企业级裸金属路线，A100 / H100 持续可用、网络稳定，价格比 RunPod 高 20% 但 SLA 更可靠，适合不能容忍中断的生产任务。Vast.ai 是市场化竞价平台，散户矿工挂卡出租，最低 0.3 美元一张 4090，A100 80GB 也能压到 0.8 美元，缺点是机器位置在全球随机分布，磁盘速度、网络稳定性参差不齐。CoreWeave 是大客户首选，主打 H100 / H200 / B200 集群与 InfiniBand，价格最贵但训练 70B 以上模型几乎只能选它或 AWS。

国内云 GPU 全景

阿里云灵骏 / PAI、腾讯云 TI、火山引擎机器学习平台是三巨头，A100 80GB 时租 18 到 25 元，H100 / H800 时租 28 到 40 元，包月折扣 5 到 7 折。优势是合规、发票、企业流程顺畅，劣势是按量价格贵海外 1.5 到 2 倍。专业 AI 二线平台 AutoDL、潞晨云、智星云、共绩计算、矩池云价格便宜 30% 到 50%，A100 80GB 时租低至 8 到 14 元，3090 / 4090 时租 1.5 到 3 元，缺点是高峰期一卡难求。国内平台普遍内置 HuggingFace、PyPI、Github 镜像或学术加速，省去翻墙麻烦。需要走美元支付时可以先用美元人民币汇率预估成本，再决定海外还是国内更划算。

训练 vs 推理：完全不同的取舍

训练任务对算力、带宽、显存敏感。70B 模型全参微调需要 8 张 H100 + InfiniBand 200Gbps + 1TB 内存的集群，单卡跑不动。LoRA 微调小很多，单张 A100 80GB 跑 13B LoRA 没问题。推理对延迟敏感、显存可以小一些。Llama 3 70B 在 4 张 A100 上 vLLM 部署能跑 50 到 80 token/s，B200 单卡 FP4 量化能跑 200 token/s。实时聊天用 H100，批量异步推理用 L40S 或 4090 性价比更高。训练用 Spot 节省成本，推理永远用 On-demand 保证 SLA。

Spot vs On-demand 实战

Spot 实例价格便宜 50% 到 70%，被回收概率约 5% 到 30%（看时段与卡型）。适合可重启的任务：超参搜索、数据预处理、批量推理、Trainer 自动 checkpoint 的微调。被打断时从最近 checkpoint 恢复，重启成本 5 到 10 分钟。On-demand 适合：3 小时内能跑完的任务（被打断风险低）、面向用户的实时推理、Notebook 交互调试、不熟悉 checkpoint 自动恢复的新手。组合策略：开发与调试用便宜的 4090 / 3090 On-demand，训练正式跑用 H100 Spot，推理生产环境用 A100 / H100 On-demand 配多区域负载均衡。

容器化、镜像与冷启动优化

2026 年所有主流云 GPU 平台都支持 Docker，PyTorch、TensorRT-LLM、vLLM、SGLang、Axolotl、Llama Factory 官方镜像分钟级拉起。冷启动优化关键三招：第一，把模型权重放 Network Volume 而不是每次重新下载，节省 5 到 30 分钟；第二，预热镜像缓存，Lambda 与 RunPod 都支持镜像 pin；第三，用 Modal 或 Beam 这类抽象层把容器编排自动化，按秒计费没有冷启动浪费。Serverless GPU 推理推荐 RunPod Serverless、Modal、Replicate，请求量小时按秒计费，请求量大时自动 scale，比租整卡便宜。

需要快速生成 API 的请求样本和测试 JSON 可以用 JSON 格式化工具，把推理服务的输入输出标准化后定位问题更快。

合规、出海与跨境带宽

从中国大陆访问海外云 GPU 平台有三个挑战：第一是支付，需要外币信用卡或开通国际虚拟卡；第二是带宽，下载几十 GB 数据集与模型权重在不同节点速度差异大，建议选东京、首尔、新加坡节点；第三是合规，企业用海外 GPU 训练涉及数据出境的需评估个人信息保护法与数据安全法。简单的研究和个人微调用海外便宜稳定，企业生产用国内云合规省心。中型团队混合架构常见：开发与小规模训练用 RunPod / Vast.ai，正式生产部署放阿里云 / 火山引擎。

常见问题

A100、H100、H200、B200 我应该租哪一种？

A100 80GB 在 2026 年是性价比最高的旗舰，跑 7B 到 13B 微调、SDXL 训练、Whisper 推理足够，时租 1.0 到 1.5 美元。H100 适合 70B LLM 训练、长序列上下文、需要 FP8 优化的场景，时租 1.8 到 2.5 美元。H200 内存 141GB 适合超大模型，比 H100 贵 30% 但性价比更高。B200 主要面向超大集群训练，零散单卡很难租到，时租 5 到 8 美元。

RunPod、Lambda、Vast.ai 三家区别是什么？

RunPod 走容器化，几秒拉起，Spot Pod 价格最低，Serverless 适合稀疏推理。Lambda 走传统裸金属，企业级，A100 / H100 持续可用，价格稳定但贵 20%。Vast.ai 是市场化竞价平台，连接全球散户矿工 GPU，价格最低 0.3 美元一张 4090，缺点是稳定性参差不齐，适合容错任务。三家都用 Docker，迁移成本低。

Spot 与按量付费在什么场景下分别合适？

Spot 价格便宜 50% 到 70%，但随时可能被回收。适合：短时间微调、超参搜索、批量推理、checkpoint 频繁的训练任务。On-demand 适合：交互式开发调试、面向用户的实时推理、连续训练超过 6 小时不愿被打断。混合策略：开发用 On-demand 小卡，正式训练用 Spot 大卡。

国内有哪些好用的 GPU 云平台？

阿里云灵骏 / PAI 与腾讯云 TI、火山引擎机器学习平台是三大头部，A100 / H800 / H20 现货充足，价格 H100 折合时租 25 到 40 元。专业 AI 平台有潞晨云、AutoDL、智星云、共绩计算，价格便宜 30% 到 50%，A100 时租 8 到 14 元。访问 HuggingFace 与 Github 等海外资源时，国内 GPU 平台多自带境外镜像或专线加速。

训练时网络带宽和存储要怎么规划？

单卡训练对带宽要求不高，1Gbps 够。多卡同机用 NVLink，跨节点训练必须 InfiniBand 200Gbps 或 400Gbps，否则梯度同步会成为瓶颈，训练速度可能减半。存储推荐分两层：模型 / 数据集放高速 NVMe（数据本地缓存），checkpoint 放对象存储 S3 兼容（异地容灾）。RunPod 与 Vast.ai 提供 Network Volume 跨节点持久化，避免被回收时数据丢失。