
两条路线
云端 API(OpenAI、Anthropic、Google、国内网关):
- 强模型、零运维、按量付费;
- 数据出网,依赖网络与配额。
本地 LLM(Ollama、llama.cpp、LM Studio):
- 数据不出机器,可离线;
- 硬件门槛、模型能力通常弱于旗舰云模型。
四维对比
| 维度 | 本地 | 云端 |
|---|---|---|
| 隐私 | 优 | 需信任供应商与条款 |
| 成本 | 硬件一次性 + 电费 | 随 token 增长 |
| 质量 | 7B~70B 视任务 | 旗舰模型整体更强 |
| 延迟 | 无网络 RTT | 受网络与排队影响 |
本地适合的任务
- 草稿注释、commit message 本地生成;
- 内网环境、不能出网的代码片段;
- 学习推理框架、微调实验;
- 大量低价值批量(摘要)用 7B 模型省 API 钱。
云端适合的任务
- Agent 多步 + 工具调用;
- 长上下文旗舰模型;
- 多模态(图生文、PDF);
- 不想折腾 GPU 驱动。
混合策略(推荐)
本地 7B/14B → 快速草稿、敏感片段初稿
云端 flagship → 合并前 review、复杂 Agent
自建网关 → 统一路由,按任务选模型
One API / New API 类网关可配置「简单问题走本地,复杂走 GPT」——和本博客 OPENAI_BASE_URL 思路一致。
硬件粗算
- 16GB 统一内存:7B~8B 量化模型可用,开发辅助够用;
- 32GB+ / 独显 12GB+:34B 量化、体验更好;
- 无 GPU:云端更实际,别硬扛。
隐私与合规
- 公司代码:看合同是否允许上云;
- 个人项目:开源可相对宽松,密钥永远不进 prompt;
- 欧洲用户注意 GDPR,选 region 与 DPA。
小结
没有绝对答案:敏感 + 轻量 → 本地;复杂 Agent + 旗舰质量 → 云端。混合 + 网关是 solo 开发者最省心的长期方案。
工具示例:Ollama、LM Studio、OpenAI-compatible local server。