你的电脑能跑 AI 吗？CanIRun.ai 引发的本地部署思考

最近 Hacker News 上有一个话题爆火：一位开发者做了 CanIRun.ai，通过浏览器 WebGPU API 检测你的硬件配置，然后告诉你哪些 AI 模型可以在本地运行。

这个网站简单直接——打开页面，它自动读取你的 GPU、内存带宽等信息，列出你能跑的模型清单。1247 个 upvote、309 条评论，说明这确实戳中了开发者的痛点。

能跑 ≠ 好用

网站给出的评级从 S 到 F，基于预估的 token/s。但评论区很快出现了「现实主义者」的声音：

“My $3k Macbook can run GPT-OSS 20B at ~16 tok/s… Or I can run GPT-OSS 120B at 360 tok/s on Groq.”

翻译一下：三千刀的 MacBook 跑 20B 模型每秒 16 个 token，而云端跑 120B（大 6 倍）快 30 倍。按 Groq 的定价，跑到回本需要连续跑 10 年。

这不是说本地运行没意义，而是要明确边界。

从讨论中可以看到，开发者选择本地部署主要出于三个原因：

1. 隐私
处理敏感数据、个人健康记录、内部代码库——这些东西不该上云。小模型（如 4B-9B 的 Qwen 3.5）虽然不如 Claude 聪明，但做文本清理、格式化、简单分类绰绰有余。

2. 成本结构不同
云端 API 的隐性成本是缓存读取和工具调用。agent 场景下动辄几百万 token/小时，本地跑虽然慢，但「token 无限量」。

3. 可控性
可以换量化版本、调 temperature、用 LoRA 微调。对一些窄域任务，本地小模型+微调可能比通用大模型效果更好。

评论区暴露了很多 CanIRun.ai 的局限：

一位 AMD Strix Halo 用户说网站显示他跑不了 Qwen 3.5 35B-A3B，实际上他能跑到 32 tok/s。

如果你考虑本地部署，建议按这个顺序：

本地 AI 不是云端的替代品，而是特定场景下的补充。CanIRun.ai 的价值在于让开发者快速有个概念，但真正的答案只能在实际部署中找到。

参考来源