最近 Hacker News 上有一个话题爆火:一位开发者做了 CanIRun.ai,通过浏览器 WebGPU API 检测你的硬件配置,然后告诉你哪些 AI 模型可以在本地运行。

这个网站简单直接——打开页面,它自动读取你的 GPU、内存带宽等信息,列出你能跑的模型清单。1247 个 upvote、309 条评论,说明这确实戳中了开发者的痛点。

能跑 ≠ 好用

网站给出的评级从 S 到 F,基于预估的 token/s。但评论区很快出现了「现实主义者」的声音:

“My $3k Macbook can run GPT-OSS 20B at ~16 tok/s… Or I can run GPT-OSS 120B at 360 tok/s on Groq.”

翻译一下:三千刀的 MacBook 跑 20B 模型每秒 16 个 token,而云端跑 120B(大 6 倍)快 30 倍。按 Groq 的定价,跑到回本需要连续跑 10 年。

这不是说本地运行没意义,而是要明确边界。

本地运行的真正价值

从讨论中可以看到,开发者选择本地部署主要出于三个原因:

1. 隐私
处理敏感数据、个人健康记录、内部代码库——这些东西不该上云。小模型(如 4B-9B 的 Qwen 3.5)虽然不如 Claude 聪明,但做文本清理、格式化、简单分类绰绰有余。

2. 成本结构不同
云端 API 的隐性成本是缓存读取和工具调用。agent 场景下动辄几百万 token/小时,本地跑虽然慢,但「token 无限量」。

3. 可控性
可以换量化版本、调 temperature、用 LoRA 微调。对一些窄域任务,本地小模型+微调可能比通用大模型效果更好。

硬件现实的复杂性

评论区暴露了很多 CanIRun.ai 的局限:

  • MoE 模型被低估:GPT-OSS 20B 实际只有 3.6B active 参数,速度应该按 active 参数算,而非总参数量
  • 量化版本没体现:Q4_K_M、Q6_K 不同量化等级对内存和速度影响巨大
  • CPU offload 缺失:llama.cpp 的层卸载策略可以让「理论上跑不动」的模型实际运行

一位 AMD Strix Halo 用户说网站显示他跑不了 Qwen 3.5 35B-A3B,实际上他能跑到 32 tok/s。

给开发者的建议

如果你考虑本地部署,建议按这个顺序:

  1. 明确用例:代码补全?文本总结?RAG?不同任务对模型要求完全不同
  2. 从小开始:Qwen 3.5 4B/9B、Llama 3.2 3B 这些轻量模型先试试
  3. 用对工具:Ollama 最简单,LM Studio 功能最全,llama.cpp 最灵活
  4. 别只看参数量:MoE 架构、量化等级、上下文长度都会影响实际体验

本地 AI 不是云端的替代品,而是特定场景下的补充。CanIRun.ai 的价值在于让开发者快速有个概念,但真正的答案只能在实际部署中找到。


参考来源