在线工具集

云 GPU 选型 2026:RunPod / Lambda / Vast.ai / 国内

2026 年自己买卡训练越来越不划算:H100 单卡 25 万元,整机 8 卡 200 万起,电费一个月 8000 元。除非你已经稳定每天跑超过 18 小时训练任务,否则租云 GPU 永远更划算。本文横向对比 RunPod、Lambda、Vast.ai、CoreWeave 与国内阿里云、腾讯云、火山引擎、AutoDL,覆盖卡型选择、按量与竞价定价、网络存储规划、训练与推理不同需求下的最优组合。

2026 年 GPU 卡型现状

NVIDIA 阵营仍然占据 95% 以上市场份额。A100 80GB 是 2020 发布的老旗舰,2026 年仍然是性价比甜点,FP16 算力 312 TFLOPS,跑 7B / 13B 模型微调与中型推理足够。H100 80GB 加入 FP8 与 Transformer Engine,长上下文与 70B 训练首选。H200 把内存升级到 141GB HBM3e,跑 70B FP16 推理无需切片,比 H100 贵 30% 但性价比更高。B200 是 2024 发布的新一代,FP4 算力 20 PFLOPS,主要进入大型 AI 公司手里,零散单卡仍然难租。L40S 与 RTX 6000 Ada 是推理与小规模训练的性价比选择。AMD MI300X 192GB 在 2026 年开始大规模供货,TensorRT-LLM 与 vLLM 已支持,价格比 H100 便宜 25%。国产卡昇腾 910B 与寒武纪 MLU370 在国内云平台已有规模化部署,但生态与工具链仍以 NVIDIA 为基准。

海外平台横向对比

RunPod 是 2026 年开发者最爱的容器化平台。Pod 模式拉一个 Docker 镜像几秒启动,Network Volume 跨 Pod 持久化数据,Serverless 模式按秒计费适合稀疏推理。A100 80GB 时租 1.0 到 1.4 美元,H100 时租 1.8 到 2.5 美元,Spot Pod 比 On-demand 便宜 50% 到 60%。Lambda Labs 走企业级裸金属路线,A100 / H100 持续可用、网络稳定,价格比 RunPod 高 20% 但 SLA 更可靠,适合不能容忍中断的生产任务。Vast.ai 是市场化竞价平台,散户矿工挂卡出租,最低 0.3 美元一张 4090,A100 80GB 也能压到 0.8 美元,缺点是机器位置在全球随机分布,磁盘速度、网络稳定性参差不齐。CoreWeave 是大客户首选,主打 H100 / H200 / B200 集群与 InfiniBand,价格最贵但训练 70B 以上模型几乎只能选它或 AWS。

国内云 GPU 全景

阿里云灵骏 / PAI、腾讯云 TI、火山引擎机器学习平台是三巨头,A100 80GB 时租 18 到 25 元,H100 / H800 时租 28 到 40 元,包月折扣 5 到 7 折。优势是合规、发票、企业流程顺畅,劣势是按量价格贵海外 1.5 到 2 倍。专业 AI 二线平台 AutoDL、潞晨云、智星云、共绩计算、矩池云价格便宜 30% 到 50%,A100 80GB 时租低至 8 到 14 元,3090 / 4090 时租 1.5 到 3 元,缺点是高峰期一卡难求。国内平台普遍内置 HuggingFace、PyPI、Github 镜像或学术加速,省去翻墙麻烦。需要走美元支付时可以先用 美元人民币汇率预估成本,再决定海外还是国内更划算。

训练 vs 推理:完全不同的取舍

训练任务对算力、带宽、显存敏感。70B 模型全参微调需要 8 张 H100 + InfiniBand 200Gbps + 1TB 内存的集群,单卡跑不动。LoRA 微调小很多,单张 A100 80GB 跑 13B LoRA 没问题。推理对延迟敏感、显存可以小一些。Llama 3 70B 在 4 张 A100 上 vLLM 部署能跑 50 到 80 token/s,B200 单卡 FP4 量化能跑 200 token/s。实时聊天用 H100,批量异步推理用 L40S 或 4090 性价比更高。训练用 Spot 节省成本,推理永远用 On-demand 保证 SLA。

Spot vs On-demand 实战

Spot 实例价格便宜 50% 到 70%,被回收概率约 5% 到 30%(看时段与卡型)。适合可重启的任务:超参搜索、数据预处理、批量推理、Trainer 自动 checkpoint 的微调。被打断时从最近 checkpoint 恢复,重启成本 5 到 10 分钟。On-demand 适合:3 小时内能跑完的任务(被打断风险低)、面向用户的实时推理、Notebook 交互调试、不熟悉 checkpoint 自动恢复的新手。组合策略:开发与调试用便宜的 4090 / 3090 On-demand,训练正式跑用 H100 Spot,推理生产环境用 A100 / H100 On-demand 配多区域负载均衡。

容器化、镜像与冷启动优化

2026 年所有主流云 GPU 平台都支持 Docker,PyTorch、TensorRT-LLM、vLLM、SGLang、Axolotl、Llama Factory 官方镜像分钟级拉起。冷启动优化关键三招:第一,把模型权重放 Network Volume 而不是每次重新下载,节省 5 到 30 分钟;第二,预热镜像缓存,Lambda 与 RunPod 都支持镜像 pin;第三,用 Modal 或 Beam 这类抽象层把容器编排自动化,按秒计费没有冷启动浪费。Serverless GPU 推理推荐 RunPod Serverless、Modal、Replicate,请求量小时按秒计费,请求量大时自动 scale,比租整卡便宜。

需要快速生成 API 的请求样本和测试 JSON 可以用 JSON 格式化工具,把推理服务的输入输出标准化后定位问题更快。

合规、出海与跨境带宽

从中国大陆访问海外云 GPU 平台有三个挑战:第一是支付,需要外币信用卡或开通国际虚拟卡;第二是带宽,下载几十 GB 数据集与模型权重在不同节点速度差异大,建议选东京、首尔、新加坡节点;第三是合规,企业用海外 GPU 训练涉及数据出境的需评估个人信息保护法与数据安全法。简单的研究和个人微调用海外便宜稳定,企业生产用国内云合规省心。中型团队混合架构常见:开发与小规模训练用 RunPod / Vast.ai,正式生产部署放阿里云 / 火山引擎。

常见问题

A100、H100、H200、B200 我应该租哪一种?

A100 80GB 在 2026 年是性价比最高的旗舰,跑 7B 到 13B 微调、SDXL 训练、Whisper 推理足够,时租 1.0 到 1.5 美元。H100 适合 70B LLM 训练、长序列上下文、需要 FP8 优化的场景,时租 1.8 到 2.5 美元。H200 内存 141GB 适合超大模型,比 H100 贵 30% 但性价比更高。B200 主要面向超大集群训练,零散单卡很难租到,时租 5 到 8 美元。

RunPod、Lambda、Vast.ai 三家区别是什么?

RunPod 走容器化,几秒拉起,Spot Pod 价格最低,Serverless 适合稀疏推理。Lambda 走传统裸金属,企业级,A100 / H100 持续可用,价格稳定但贵 20%。Vast.ai 是市场化竞价平台,连接全球散户矿工 GPU,价格最低 0.3 美元一张 4090,缺点是稳定性参差不齐,适合容错任务。三家都用 Docker,迁移成本低。

Spot 与按量付费在什么场景下分别合适?

Spot 价格便宜 50% 到 70%,但随时可能被回收。适合:短时间微调、超参搜索、批量推理、checkpoint 频繁的训练任务。On-demand 适合:交互式开发调试、面向用户的实时推理、连续训练超过 6 小时不愿被打断。混合策略:开发用 On-demand 小卡,正式训练用 Spot 大卡。

国内有哪些好用的 GPU 云平台?

阿里云灵骏 / PAI 与腾讯云 TI、火山引擎机器学习平台是三大头部,A100 / H800 / H20 现货充足,价格 H100 折合时租 25 到 40 元。专业 AI 平台有潞晨云、AutoDL、智星云、共绩计算,价格便宜 30% 到 50%,A100 时租 8 到 14 元。访问 HuggingFace 与 Github 等海外资源时,国内 GPU 平台多自带境外镜像或专线加速。

训练时网络带宽和存储要怎么规划?

单卡训练对带宽要求不高,1Gbps 够。多卡同机用 NVLink,跨节点训练必须 InfiniBand 200Gbps 或 400Gbps,否则梯度同步会成为瓶颈,训练速度可能减半。存储推荐分两层:模型 / 数据集放高速 NVMe(数据本地缓存),checkpoint 放对象存储 S3 兼容(异地容灾)。RunPod 与 Vast.ai 提供 Network Volume 跨节点持久化,避免被回收时数据丢失。

相关工具