向量数据库横评:Pinecone / Weaviate / Milvus / Qdrant
RAG 与 Agent 时代的标配是向量数据库。市面上选项繁多,托管 SaaS、开源自建、嵌入式数据库形态各异。本文聚焦四款最主流的方案:Pinecone(托管 SaaS 的标杆)、Weaviate(开源加云的混合形态)、Milvus(中国背景的企业级开源)、Qdrant(来自俄罗斯的高性能开源)。从存储架构、查询性能、混合搜索、过滤能力、成本结构、向量维度上限、SDK 语言、国内可用性、RAG 场景适配九个维度做正面对比,帮你在 2026 年做出最合适的技术选型。
四款数据库的整体定位
Pinecone 由前 Cloudera 工程师创立,最早把向量搜索做成纯 SaaS 服务,零运维体验是其杀手锏,2024 年推出的 Serverless 模式按使用量计费,进一步降低了起步成本。Weaviate 来自荷兰,定位是 AI 原生数据库,原生支持向量、图、对象的混合查询,并提供丰富的模块(如 generative search 直接在数据库里调用 LLM)。Milvus 由 ZilliZ 开源,2019 年起源于中国,是 LF AI & Data 基金会顶级项目,主打企业级可靠性与超大规模,背后商业公司 ZilliZ Cloud 提供托管服务。Qdrant 来自俄罗斯团队,用 Rust 实现,性能基准测试常居榜首,社区版完全免费,云版本提供托管。从市场份额看,Pinecone 在北美初创圈占比最高,Milvus 与 Qdrant 在工程师重视性能与成本的项目中流行,Weaviate 则在欧洲与企业客户中受青睐。
存储架构与索引算法
四款数据库都基于近似最近邻搜索(ANN)算法,但实现细节差异很大。Pinecone 内部细节不公开,宣传是自研的 graph + IVF 混合索引,Serverless 模式额外提供分层存储与冷热数据自动迁移。Weaviate 默认使用 HNSW,并提供 PQ、BQ(Binary Quantization)等压缩选项,最近版本加入了 Acorn 算法以处理过滤场景下的性能下滑。Milvus 是四家中索引最丰富的,支持 IVF_FLAT、IVF_SQ8、IVF_PQ、HNSW、DiskANN、GPU_IVF_FLAT 等十多种,可按数据规模与硬件灵活选择。Qdrant 默认 HNSW,加上自研的 Quantization(标量量化、乘积量化、二值量化)可大幅降内存。如果你的数据规模在亿级以上,Milvus 的 DiskANN 与 GPU 索引能显著降低单次查询成本。
查询性能与吞吐
第三方基准测试 ann-benchmarks 与 VectorDBBench 在 2025 年的多次评测中,Qdrant 与 Milvus 的吞吐量长期占据前两位,Weaviate 紧随其后,Pinecone 因为是托管服务无法直接对比单机性能。在 100 万向量、768 维、Top-10、召回率 0.95 的标准任务下,Qdrant 单核可达到约 800 QPS,Milvus 在多核优化下接近 1200 QPS,Weaviate 约 600 QPS。延迟方面,Qdrant 与 Milvus 的 P95 都能控制在 10 毫秒以内,Pinecone Serverless 因网络往返通常 30 至 100 毫秒。注意性能与召回率之间存在权衡,调高 ef_search、nprobe 等参数会牺牲速度换召回率,做选型时要把召回率指标对齐再比较。
混合搜索与过滤能力
混合搜索是 2025 年成为标配的功能。Weaviate 用 BM25F 与向量分数加权融合,权重可在查询时指定,是四家中体验最直观的。Qdrant 在 1.10 版本后原生支持 SPLADE 等稀疏向量与密集向量混合查询,配合 Reranker 可实现端到端的混合检索。Milvus 在 2.4 版本引入 Sparse Vector 类型,混合查询能力对齐主流。Pinecone 的实现是把稀疏向量与密集向量分别上传,由查询接口加权合并。过滤方面,四家都支持元数据过滤,但实现性能差异很大:Qdrant 的 Payload Filter 与 HNSW 索引深度集成,过滤后仍能保持高召回率;Milvus 的标量过滤接近原生数据库;Pinecone 在过滤选择性极低(命中率 1% 以下)时性能下降明显。
向量维度与多向量支持
四家对单条记录的最大维度都支持 65535 以上,2026 年常用的 384、768、1024、1536、3072 维都不是问题。但实际部署有差异:Pinecone 的 Pod 类型决定单 Pod 可索引的总向量数,从几百万到几亿不等;Weaviate 单实例理论无上限,实际由内存决定;Milvus 通过分布式可扩展到百亿级;Qdrant 单节点可承载亿级,集群版无上限。多向量支持是 2025 年新趋势,ColBERT 等晚交互模型要求每文档多向量。Qdrant 在 1.10 后原生支持 Multi-Vector,Milvus 通过 Hybrid Search 实现,Weaviate 通过命名向量字段,Pinecone 暂时通过多 namespace 模拟。如果你计划用 ColBERT、Late Interaction,Qdrant 与 Milvus 体验最佳。
成本结构对比
Pinecone Serverless 按写入量、读取量、存储量分别计费,每月 5 至 100 美元可支撑大多数初创项目,10 GB 数据加上日均 10 万查询大约每月 50 美元。Pod-based 起步价更高(每月 70 美元起)。Weaviate Cloud 按集群规模与节点小时数计费,最小集群每月约 25 美元起,企业版按合同。Milvus 自建免费,托管服务 ZilliZ Cloud 起步约每月 50 美元,企业版按实例规格。Qdrant Cloud 起步价低,免费 1GB,付费集群每月 25 美元起。如果完全自建,硬件成本上 Qdrant 内存占用最低,Milvus 因组件多(etcd、MinIO、Pulsar)整体占用较高,Weaviate 居中。预算敏感的项目优先 Qdrant 自建,预算充足且求省心则 Pinecone Serverless 最优。
SDK、生态与国内部署
四家都提供 Python、JavaScript、Go、Java SDK,Python 完整度最高。Rust SDK 上 Qdrant 自家最完整。LangChain 与 LlamaIndex 都默认集成四家。运维生态上 Milvus 提供完整的 Helm Chart、Operator、Attu 可视化管理工具;Qdrant 提供 Docker、Helm、Web UI;Weaviate 提供 Console;Pinecone 是 SaaS 无运维。国内部署方面,Milvus 在阿里云、腾讯云、华为云上有完整的部署案例,ZilliZ Cloud 已在国内开放可用区。Qdrant 国内自建无障碍。Weaviate 自建可行但社区案例较少。Pinecone 没有国内可用区,跨境调用涉及合规问题,企业项目不建议采用。如果团队有合规要求,优先 Milvus 或 Qdrant 自建。
RAG 场景的选型建议
RAG 是向量库当下最大的应用场景,给三类典型项目做出推荐:第一类是个人开发者做副业 RAG demo,数据量不到 1GB,建议直接用 Qdrant 单机或 Chroma 嵌入式,几行代码即可上线;第二类是中型 SaaS 做企业知识库,数据量 10GB 至 100GB、要求混合搜索与过滤,推荐 Qdrant Cloud 或 ZilliZ Cloud,免运维且支持高级特性;第三类是大型企业做内部 Copilot,亿级向量、严格合规,推荐 Milvus 自建集群,搭配 Attu 与 Prometheus 监控。无论选哪家,请把抽象层做薄:用 LangChain Retriever 或 LlamaIndex VectorStore 接口屏蔽差异,将来切换数据库时改几行配置即可,避免被 SDK 锁死。
常见问题
初创团队首选哪个向量数据库
若数据量小于 10GB 且想最快出活,Chroma 或 Qdrant 单机版即可;若希望托管免运维并且预算充足,Pinecone Serverless 是最省心的选项;若坚持自建并希望未来可以扩展到亿级向量,Qdrant 集群版的性价比最好。注意国内访问 Pinecone 需要走代理,会增加延迟。
向量数据库和 PostgreSQL pgvector 有什么区别
pgvector 把向量当作 PostgreSQL 的一种扩展类型,适合中小规模(百万级以下)且本身已有 Postgres 的项目,运维心智成本最低。专用向量库在 HNSW、IVF、PQ、Quantization 等索引算法上更成熟,吞吐和召回率更高,并提供过滤、混合检索、重排等高级功能。一般 1000 万向量以下两者性能相近,亿级以上专用库优势明显。
如何评估向量库的查询性能
关注四个核心指标:召回率、QPS、P95/P99 延迟、索引构建时间。建议使用真实数据做压测,工具可选 ann-benchmarks、VectorDBBench。注意把过滤条件、数据量、向量维度、并发数都压到接近生产值,避免理论性能误导。
国内可以部署哪些向量库
Milvus 和 Qdrant 都支持自建,可在阿里云、腾讯云、华为云上部署,完全没有跨境合规问题。Weaviate 也可自建。Pinecone 是 SaaS 形态,国内调用需要走代理,企业项目不推荐。国产替代如 ZilliZ Cloud 已在国内有可用区域,是合规友好的选择。
混合搜索具体是什么
混合搜索是把向量相似度搜索与传统关键字搜索(BM25)的结果融合,再统一排序。它解决了纯向量搜索对精确词汇不敏感的问题。Weaviate、Qdrant、Milvus 都内置了混合搜索,权重可调;Pinecone 通过稀疏-密集向量混合实现。在企业知识库等含大量专有名词的场景,混合搜索比纯向量召回率可提升 10% 至 20%。