2025 AI 模型大战:Claude 4、GPT-5 与 Gemini 2.5 的巅峰对决
2025 年刚开年,AI 领域就上演了一场前所未有的「三国杀」。
Anthropic 在 5 月甩出 Claude 4,OpenAI 紧跟着推出 GPT-5,Google 则在 Cloud Next 25 上放出了 Gemini 2.5 Pro 和 Ironwood TPU。三家巨头几乎在同一时间亮出底牌,每家都声称自己在特定领域做到了业界最佳。
作为每天跟这些模型打交道的开发者,我梳理了一下最近这些重磅更新,看看它们各自的优势在哪,以及——更实际的问题——我们该怎么选。
Claude 4:代码能力的标杆
Anthropic 这次发了两个模型:Claude Opus 4 和 Claude Sonnet 4。
Opus 4 的定位非常明确:它是目前最强的编程模型。在 SWE-bench 基准测试中拿到了 72.5% 的成绩,Terminal-bench 更是高达 43.2%。Cursor 直接称它是 “state-of-the-art for coding”,Replit 则表示在处理跨多文件的复杂变更时进步明显。
最夸张的是 Block 的测试:他们让 Opus 4 在一个开源重构任务上跑了 7 个小时,性能一直保持在高位。这意味着它真的能胜任那种需要长时间专注的复杂工程任务。
Sonnet 4 则是效率与能力的平衡,SWE-bench 得分 72.7%(居然比 Opus 还高一点点)。GitHub 已经宣布会用它作为新版 Copilot Coding Agent 的底层模型。
Claude 4 还引入了几个值得关注的特性:
- Extended thinking with tool use:模型可以在深度思考过程中调用工具,比如搜索网页、读取文件,然后继续推理
- 并行工具调用:一次性发起多个工具请求,提高效率
- 本地文件记忆:如果给 Claude Code 访问本地文件的权限,它可以记住关键信息,在后续对话中保持连续性
价格方面,Opus 4 保持 $15/$75 per million tokens(输入/输出),Sonnet 4 是 $3/$15。
GPT-5:统一模型的野心
OpenAI 在 8 月发布 GPT-5,核心思路是「一个模型搞定所有事」。
不用再纠结该用 Turbo 还是 o-series 了。GPT-5 内置了一个实时路由器,自动判断当前任务需要多少推理深度。简单问题直接秒回,复杂任务自动开启「思考模式」。
GPT-5 的几个关键数据:
- 幻觉率降低约 80%(在 thinking 模式下)
- 上下文窗口:API 支持 40 万 tokens 输入、12.8 万 tokens 输出;ChatGPT 界面支持 25.6 万 tokens
- Agent 能力:可以直接操作 Google Calendar、Gmail,处理日程和邮件
- 编码能力:OpenAI 称其为「最强编码模型」,支持构建完整应用、运行日历逻辑
另外,GPT-5 的多模态能力更强了。可以同时处理图片、文本,还能记住用户偏好的声音和视觉主题。
Google 的反击:Gemini 2.5 Pro 与 AI Mode
Google 在 4 月和 5 月也放了一波大招。
Gemini 2.5 Pro 进入了公开预览阶段, rate limits 大幅提升。Google 说在测试中,用它生成的 Deep Research 报告比竞争对手好两倍以上。
AI Mode 的多模态搜索是另一个亮点。你可以拍张照片,然后问关于照片内容的问题,Gemini 会结合 Google Lens 的视觉识别能力给出详细回答。
还有几个值得关注的发布:
- Ironwood TPU:Google 最强的 AI 加速器,专为推理时代设计
- Agent2Agent (A2A) 协议:一个开放协议,让不同厂商的 AI Agent 可以互相协作,不管它们是用什么框架开发的
- Veo 视频生成:文本直接生成短视频,已经集成到 Gemini 应用里
Google 还在推「Google AI 免费给大学生」的计划,美国大学生可以免费使用 Gemini Advanced、NotebookLM Plus 和 2TB 存储,直到 2026 年春季期末。
怎么选?
如果你主要关注 代码能力和复杂工程任务:
- Claude Opus 4 是目前公认的最强
- GPT-5 在统一体验上做得更顺
如果你看重 长文档处理和多应用集成:
- Claude 的 200k token 上下文和 Google Drive/Slack/Notion 连接器很强
- GPT-5 的 40 万 token 上下文窗口理论上是最大的
如果你想要 免费或高性价比:
- Claude Sonnet 4 免费用户可用
- Gemini 2.5 Flash 是 Google 的经济型选择
一个趋势:Agent 正在成为主战场
三家都在押注「Agent」这个方向。
Claude Code 正式 GA,支持 GitHub Actions 和 VS Code/JetBrains 插件。Anthropic 还发布了四个新的 API 能力:代码执行工具、MCP 连接器、Files API 和提示缓存。
OpenAI 让 GPT-5 可以直接操作 Google 服务。
Google 搞了个 A2A 协议,想让不同 Agent 能协作。
本质上,它们都在争夺同一个位置:成为开发者和工作流的「默认入口」。
写在最后
说实话,现在的模型能力已经有点「够用就好」的意思了。Claude 4 写代码很强,GPT-5 体验很顺,Gemini 2.5 Pro 在某些基准上也很能打——选哪个,更多取决于你的工作流已经绑定了哪家生态。
真正的差异化可能在于谁能把 Agent 体验做得更稳、更可靠。毕竟,能连续跑 7 小时不出错的 Agent,比单纯会写代码的模型更有价值。
接下来几个月,估计我们会看到更多关于 Agent 可靠性和长时任务处理能力的竞争。这才是 2025 年 AI 竞赛的真正看点。