
Gemini 的定位
Google Gemini 是面向多模态 + 长上下文的模型家族。对开发者来说,差异化通常体现在:
- 上下文窗口大:整库 README、长 PDF、多文件打包分析;
- 原生多模态:截图、线框图、架构图、表格一起喂;
- 与 Google 生态:Search grounding、Workspace、Vertex AI 企业部署。
如果你经常处理「几十页 spec + 设计稿 + 现有代码」,Gemini 往往比短上下文模型更省切片功夫。
常见开发场景
1. 读大型遗留代码
把模块目录说明、核心 5~10 个文件、依赖关系写进 prompt,问:
- 请求链路是怎样的?
- 哪些类违反分层?
- 如果要加缓存,改哪里风险最小?
长上下文减少「漏文件」导致的幻觉。
2. 设计稿 / 截图 → 代码草稿
上传 UI 截图,要求:
- 用 React + Tailwind 还原布局;
- 组件拆分建议;
- 可访问性注意事项。
输出是草稿,颜色、间距、响应式必须人工过一遍。
3. 文档与 API 对照
OpenAPI JSON + 后端实现 + 前端调用处,让 Gemini 找:
- 字段不一致;
- 遗漏错误码;
- Breaking change 影响面。
4. 技术写作与翻译
长文润色、多语言摘要——配合本博客的 AI 翻译模块,Gemini 类模型在长文一致性上有时更稳(仍要人工审校)。
接入方式
- Google AI Studio:快速试验 API Key;
- Vertex AI:企业 VPC、审计、SLA;
- Gemini in Android Studio / IDE 插件:移动端与 Google 栈开发者友好。
环境变量形态(示意):
GEMINI_API_KEY=...
# 或 Vertex 用 service account
使用技巧
- 分段仍必要:即使窗口大,也按「目标 → 约束 → 现有代码 → 输出格式」组织 prompt;
- 多模态说明图意:上传截图时用文字标「左侧导航、右侧列表、顶栏搜索」;
- Grounding:需要最新 API 行为时开启搜索 grounding,避免用旧训练数据;
- 安全:不要把密钥、用户数据放进免费 tier 做实验。
与 Cursor / Claude 对比(简表)
| 场景 | Gemini | Cursor (Claude/GPT) |
|---|---|---|
| 100k+ token 文档 | 强 | 依赖模型与方案 |
| IDE 内改代码 | 需插件 | 原生 |
| 截图理解 | 强 | 视模型而定 |
| 终端自动化 | 弱 | Claude Code 强 |
可以 Gemini 做分析与 spec,Cursor 做落地实现。
注意点
- 生成代码的许可证与依赖要自查;
- 数学、 cryptography 等仍要测试验证;
- 企业合规选 Vertex,个人试验用 AI Studio。
小结
Gemini 适合「信息量大、介质杂、要先理解再动手」的开发阶段。把它当高级技术阅读助手 + 原型生成器,而不是免测试的部署流水线。
参考:Google AI Gemini 文档 · 作者使用总结。