Agent开发测评体验
杂谈 | 共 608 字 | 2026/6/16 发表 | 2026/6/21 更新
最近天天用各种大模型和coding agent,分享一下自己的体验和打分。
排名
首先声明:以下内容都是个人游戏开发和科研感受,而且不是专业对大模型本身的评价,而是结合实际agent的综合主观体验,可能被harness影响。主要都是用的claude code,gpt用的是codex,glm是zcode。
总体来说除了最强的GPT5.5和Opus 4.8感觉明显能力更强,区别在于gpt更像是经验丰富的senior engineer,考虑问题比较周全,读文档和更新也更全面。opus更像是搞竞赛出身的实习生,有很多聪明的想法,但是完成度还还是稍逊一筹,需要人工再过一两遍。glm5.2我觉得很接近第一梯队,剩下的几家都差不太多,只能说比豆包强。
6分及格档
大概是 gpt 5.5 ~= Fable 5 > Opus 4
- gpt 5.5 有的时候特别慢,但活完成的都不错,干完会自己更新doc
- Fable 5我当时觉得有点比Opus好,但是用的不够多
- Opus 4.6/4.7/4.8 感觉都差不多,大部分时候比较好用,有的时候也很蠢(最近感觉越来越蠢),还曾经revert掉我的local change还找不回来
5分勉强能用档
大概是 glm 5.2 > Gemini 3.5 flash ~= kimi 2.7
- glm 5.2 感觉真的还可以,但是中国 coding plan 耍猴,所以先放到下面这档
- Gemini 3.5 flash 快是真的快,但是感觉antigravity经常不看doc,可能是我没设置好,但确实很快
- kimi 2.7 感觉就还行,但是国际版20刀 coding plan不如cc/codex
4分不用白不用档
composer 2.5 ~= mimo 2.5 ~= deepseek v4 ~= minimax m3
- composer 2.5 感觉笨笨的,勉强能用的水平,但cursor真的很便宜
- mimo 2.5 跟composer 2.5差不太多,mimo code免费用还不错
- deepseek v4 pro 跟mimo 2.5差不多
- minimax m3 我刚注册的时候手机号一直发不了,看了下小红书是普遍问题,感觉m3本身能力确实也没有跑分那么高,没觉得跟deepseek/mimo有啥区别,而且出现过minimax code几次卡死的情况
经验
对于稍微大一点的项目,需要多个agent同时开发的时候,我目前是这样管理的:
AGENTS.md
SUMMARY.md
docs/
specs/
SPEC.md
01-总览.md
milestones/
MILESTONE.md
completed/
README.md
archive/
README.md
# AGENTS.md
开工前阅读顺序:
1. AGENTS.md
2. SUMMARY.md
3. docs/milestones/MILESTONE.md
4. 相关 docs/specs/
## 文档规则
- docs/specs/ 是当前有效规格,默认 source of truth。
- docs/archive/ 只放旧稿、review、分析、头脑风暴,默认不能作为当前要求。
- docs/milestones/ 只放未完成计划。
- docs/completed/ 放已完成 milestone 的完成记录。
- SUMMARY.md 是短状态快照,不写长历史。
## 工作规则
- 小改动:改代码、跑相关测试、必要时更新就近 docs。
- milestone completion:
- review 自上个 completion 以来的 diff。
- 更新 SUMMARY.md。
- 从 docs/milestones/MILESTONE.md 移除已完成项。
- 删除对应 docs/milestones/M###-*.md。
- 新增 docs/completed/M###-*.md。
- commit message 必须包含“完成 M###”。
## Commit
所有 commit message 必须以 `[agent名]` 或 `[人类名]` 开头。
# Milestones
本文件只记录未完成工作。
## Current / Planned
- **M001 xxx**:当前目标。计划见 `M001-xxx.md`。
## Future / Not Planned
这些是想法,不是当前实现要求。
- **R1 xxx**:中期方向,未分配 milestone。
SPEC.md 模板
# Specs
docs/specs/ 是当前有效规格。若 specs 与 archive/completed 冲突,以 specs 为准。
## 章节
- `01-总览.md` — 项目定位、边界、目标
## 写法
- 只写当前有效设定。
- 不写 review 过程。
- 不写历史争论。
- 不写“也许以后可以”的长清单;那类内容放 MILESTONE Future 或 archive。