Agent开发测评体验

杂谈 | 共 608 字 | 2026/6/16 发表 | 2026/6/21 更新

最近天天用各种大模型和coding agent,分享一下自己的体验和打分。

排名

首先声明:以下内容都是个人游戏开发和科研感受,而且不是专业对大模型本身的评价,而是结合实际agent的综合主观体验,可能被harness影响。主要都是用的claude code,gpt用的是codex,glm是zcode。

总体来说除了最强的GPT5.5和Opus 4.8感觉明显能力更强,区别在于gpt更像是经验丰富的senior engineer,考虑问题比较周全,读文档和更新也更全面。opus更像是搞竞赛出身的实习生,有很多聪明的想法,但是完成度还还是稍逊一筹,需要人工再过一两遍。glm5.2我觉得很接近第一梯队,剩下的几家都差不太多,只能说比豆包强。

6分及格档

大概是 gpt 5.5 ~= Fable 5 > Opus 4

  • gpt 5.5 有的时候特别慢,但活完成的都不错,干完会自己更新doc
  • Fable 5我当时觉得有点比Opus好,但是用的不够多
  • Opus 4.6/4.7/4.8 感觉都差不多,大部分时候比较好用,有的时候也很蠢(最近感觉越来越蠢),还曾经revert掉我的local change还找不回来

5分勉强能用档

大概是 glm 5.2 > Gemini 3.5 flash ~= kimi 2.7

  • glm 5.2 感觉真的还可以,但是中国 coding plan 耍猴,所以先放到下面这档
  • Gemini 3.5 flash 快是真的快,但是感觉antigravity经常不看doc,可能是我没设置好,但确实很快
  • kimi 2.7 感觉就还行,但是国际版20刀 coding plan不如cc/codex

4分不用白不用档

composer 2.5 ~= mimo 2.5 ~= deepseek v4 ~= minimax m3

  • composer 2.5 感觉笨笨的,勉强能用的水平,但cursor真的很便宜
  • mimo 2.5 跟composer 2.5差不太多,mimo code免费用还不错
  • deepseek v4 pro 跟mimo 2.5差不多
  • minimax m3 我刚注册的时候手机号一直发不了,看了下小红书是普遍问题,感觉m3本身能力确实也没有跑分那么高,没觉得跟deepseek/mimo有啥区别,而且出现过minimax code几次卡死的情况

经验

对于稍微大一点的项目,需要多个agent同时开发的时候,我目前是这样管理的:

AGENTS.md
SUMMARY.md
docs/
  specs/
    SPEC.md
    01-总览.md
  milestones/
    MILESTONE.md
  completed/
    README.md
  archive/
    README.md
# AGENTS.md

开工前阅读顺序:
1. AGENTS.md
2. SUMMARY.md
3. docs/milestones/MILESTONE.md
4. 相关 docs/specs/

## 文档规则

- docs/specs/ 是当前有效规格,默认 source of truth。
- docs/archive/ 只放旧稿、review、分析、头脑风暴,默认不能作为当前要求。
- docs/milestones/ 只放未完成计划。
- docs/completed/ 放已完成 milestone 的完成记录。
- SUMMARY.md 是短状态快照,不写长历史。

## 工作规则

- 小改动:改代码、跑相关测试、必要时更新就近 docs。
- milestone completion:
  - review 自上个 completion 以来的 diff。
  - 更新 SUMMARY.md。
  - 从 docs/milestones/MILESTONE.md 移除已完成项。
  - 删除对应 docs/milestones/M###-*.md。
  - 新增 docs/completed/M###-*.md。
  - commit message 必须包含“完成 M###”。

## Commit

所有 commit message 必须以 `[agent名]` 或 `[人类名]` 开头。
# Milestones

本文件只记录未完成工作。

## Current / Planned

- **M001 xxx**:当前目标。计划见 `M001-xxx.md`。

## Future / Not Planned

这些是想法,不是当前实现要求。

- **R1 xxx**:中期方向,未分配 milestone。

SPEC.md 模板

# Specs

docs/specs/ 是当前有效规格。若 specs 与 archive/completed 冲突,以 specs 为准。

## 章节

- `01-总览.md` — 项目定位、边界、目标

## 写法

- 只写当前有效设定。
- 不写 review 过程。
- 不写历史争论。
- 不写“也许以后可以”的长清单;那类内容放 MILESTONE Future 或 archive。