Agent开发测评体验

杂谈 | 共 608 字 | 2026/6/16 发表 | 2026/6/21 更新

最近天天用各种大模型和coding agent，分享一下自己的体验和打分。

排名

首先声明：以下内容都是个人游戏开发和科研感受，而且不是专业对大模型本身的评价，而是结合实际agent的综合主观体验，可能被harness影响。主要都是用的claude code，gpt用的是codex，glm是zcode。

总体来说除了最强的GPT5.5和Opus 4.8感觉明显能力更强，区别在于gpt更像是经验丰富的senior engineer，考虑问题比较周全，读文档和更新也更全面。opus更像是搞竞赛出身的实习生，有很多聪明的想法，但是完成度还还是稍逊一筹，需要人工再过一两遍。glm5.2我觉得很接近第一梯队，剩下的几家都差不太多，只能说比豆包强。

6分及格档

大概是 gpt 5.5 ~= Fable 5 > Opus 4

gpt 5.5 有的时候特别慢，但活完成的都不错，干完会自己更新doc
Fable 5我当时觉得有点比Opus好，但是用的不够多
Opus 4.6/4.7/4.8 感觉都差不多，大部分时候比较好用，有的时候也很蠢（最近感觉越来越蠢），还曾经revert掉我的local change还找不回来

5分勉强能用档

大概是 glm 5.2 > Gemini 3.5 flash ~= kimi 2.7

glm 5.2 感觉真的还可以，但是中国 coding plan 耍猴，所以先放到下面这档
Gemini 3.5 flash 快是真的快，但是感觉antigravity经常不看doc，可能是我没设置好，但确实很快
kimi 2.7 感觉就还行，但是国际版20刀 coding plan不如cc/codex

4分不用白不用档

composer 2.5 ~= mimo 2.5 ~= deepseek v4 ~= minimax m3

composer 2.5 感觉笨笨的，勉强能用的水平，但cursor真的很便宜
mimo 2.5 跟composer 2.5差不太多，mimo code免费用还不错
deepseek v4 pro 跟mimo 2.5差不多
minimax m3 我刚注册的时候手机号一直发不了，看了下小红书是普遍问题，感觉m3本身能力确实也没有跑分那么高，没觉得跟deepseek/mimo有啥区别，而且出现过minimax code几次卡死的情况

经验

对于稍微大一点的项目，需要多个agent同时开发的时候，我目前是这样管理的：

AGENTS.md
SUMMARY.md
docs/
  specs/
    SPEC.md
    01-总览.md
  milestones/
    MILESTONE.md
  completed/
    README.md
  archive/
    README.md

# AGENTS.md

开工前阅读顺序：
1. AGENTS.md
2. SUMMARY.md
3. docs/milestones/MILESTONE.md
4. 相关 docs/specs/

## 文档规则

- docs/specs/ 是当前有效规格，默认 source of truth。
- docs/archive/ 只放旧稿、review、分析、头脑风暴，默认不能作为当前要求。
- docs/milestones/ 只放未完成计划。
- docs/completed/ 放已完成 milestone 的完成记录。
- SUMMARY.md 是短状态快照，不写长历史。

## 工作规则

- 小改动：改代码、跑相关测试、必要时更新就近 docs。
- milestone completion：
  - review 自上个 completion 以来的 diff。
  - 更新 SUMMARY.md。
  - 从 docs/milestones/MILESTONE.md 移除已完成项。
  - 删除对应 docs/milestones/M###-*.md。
  - 新增 docs/completed/M###-*.md。
  - commit message 必须包含“完成 M###”。

## Commit

所有 commit message 必须以 `[agent名]` 或 `[人类名]` 开头。

# Milestones

本文件只记录未完成工作。

## Current / Planned

- **M001 xxx**：当前目标。计划见 `M001-xxx.md`。

## Future / Not Planned

这些是想法，不是当前实现要求。

- **R1 xxx**：中期方向，未分配 milestone。

SPEC.md 模板

# Specs

docs/specs/ 是当前有效规格。若 specs 与 archive/completed 冲突，以 specs 为准。

## 章节

- `01-总览.md` — 项目定位、边界、目标

## 写法

- 只写当前有效设定。
- 不写 review 过程。
- 不写历史争论。
- 不写“也许以后可以”的长清单；那类内容放 MILESTONE Future 或 archive。