2026-05-16 · 架构
32
架构 · 2026-05-16

Agents 不做站会了:PFF 怎么把工程组织从“帮工程师提速”改成“帮 Agent 提速”

这篇内容最值得看的地方,是它把视角直接抬到了组织层。Mike Spitz 没沿着“工程师配上 AI 之后效率更高”这条熟悉叙事往下讲,他干脆换了问题本身,从“如何让工程师产出更多”切到“如何让 agent 在组织里跑得更快”。问题一换,站会、Sprint Planning、Retrospective、代码评审分工、QA 流程,后面基本都会跟着重写。

这场 talk 的标题就很挑衅,Agents Don't Do Standups。标题乍看像一句传播语,往里听才发现他不是在玩概念,他是在复盘一次很完整的组织实验。

PFF 做了一个三个月 case study。同一套代码库、同一批客户场景,一边是两位 heavily agent-assisted 的工程师,一边是十人传统团队。最后的结果很夸张,但又不是那种一听就像营销稿的夸张。

他说,两个人那组可以做到一天五次 deploy,十人组大概是五天一次 deploy。如果按 ticket 数量和复杂度混合衡量产出,前者大概是后者的 10 倍。更重要的是,客户满意度没有掉,还到了 8.6/10,比他们过去七分多的水平更高。

这些数字当然会让人先警惕,因为小团队天生就更快,这个他自己也承认。但这场分享最值得记的,不是“2 个人打 10 个人”的戏剧效果,重点在于他把组织瓶颈换了一个问法之后,整个工程流程为什么会跟着塌陷重组。

一、先承认“工程师不再是唯一瓶颈”

Mike 说得非常直白。过去软件工程这一套 Agile、Scrum、各种 perk、本质上都在围绕一个默认前提运转:工程师是瓶颈

所以公司会想尽办法优化工程师:
- 更好的协作流程
- 更密的需求拆分
- 更清晰的估时
- 更舒服的环境
- 更完整的项目管理链路

这些东西在“人是主要吞吐瓶颈”的时代是成立的。

但一旦 coding agent 真开始接管大量实现工作,问题就会变。组织再继续围着“人怎么更快”设计,很多动作会慢慢失去意义。真正拖慢速度的,开始变成:
- spec 写得够不够清楚
- design doc 有没有把边界说死
- skills 有没有把组织自己的工程习惯编码进去
- QA 和 ticket 状态能不能自动流转
- 工程师是不是还在把时间浪费在命名、格式、状态同步、重复解释这类低价值协调上

这也是他那句核心改写的分量所在:

不要再问怎么让工程师更快,改问怎么让 agent 更快。

这个视角一旦切过去,很多以前默认合理的流程,看上去就会突然变得累赘。

二、这场实验说明的,是“协调成本被整个拿掉了一层”

如果只是说“工程师用了 AI,所以写代码快了”,这没多新。

但 Mike 的分享里更有意思的部分,是两人组不只在编码层更快,在组织协作层也少了很多历史包袱。原来两个人都要被卡三个月的项目,其中一个人在一个月内就被解放出来,开始去做别的功能。这个变化很重要,因为它意味着吞吐不只是线性提速,开始出现复利。

以前两个人都被锁在同一个项目里,三个月后才一起出来。
现在一个人更早做完,于是更早进入下一轮产出。

组织层面变快的地方,不在单次 coding,而在阻塞时间变短了,任务切换成本在下降,协调链路也被削薄了。

这也解释了为什么他们最后最看重的不是 PR 数,也不是代码行数。

他说得很对,PR 多不代表价值高,代码多更不代表价值高。最后他们还是得回到客户是不是满意。对一个产品组织来说,这才是最终度量。

这个口径我很认同。因为很多“AI 提效”案例最后都容易陷进工程自嗨,觉得 deploy 更频繁、PR 更多、实验更密就是胜利。但如果产品感受变差,或者用户并不买账,那只是更快地产出噪音。

PFF 这次至少给出一个更扎实的信号,速度上来之后,外部体验没有塌。

三、Scrum 没活下来,因为原流程解决的瓶颈已经换了

这场 talk 传播性最强的地方,就是那句 “Scrum did not survive.”

这话很容易被断章取义,听成一种姿态,好像“看吧,AI 来了,项目管理都没用了”。但 Mike 的意思没那么简单。

他不是先讨厌 Scrum,再找 AI 给自己背书。相反,他是在新的交付现实里,重新追问每一个流程动作还有没有必要存在。

他们最后保留下来的东西非常少:
- 每隔一天一次 huddle
- 半小时到一小时
- 工程、产品、设计一起快速过最近做了什么
- 争取尽快把 MVP 扔到生产环境拿反馈

除此之外,很多熟悉的 ceremony 都被拿掉了。

1)Sprint Planning 被拿掉

原因很直接,估时失去意义了。

如果 bottleneck 已经不再主要是人工编码时长,那大家再花一小时围着 ticket 做传统估算,价值会迅速缩水。甚至他还顺手说了句挺现实的话,以后真需要估的可能不是工时,可能是 token 成本。

这话挺扎心,但也很真实。

2)Daily Standup 被拿掉

因为 ticket 状态已经和 PR 状态自动联动:
- 开 PR,自动 in progress
- 进入 review,自动更新
- merge 后,自动 close

以前这些也不是不能做,但需要人维护。现在这部分状态同步完全可以从“口头汇报”退化成“系统事实映射”。

3)Sprint Refinement 被吸进 Spec + LDD 流程

他们把很多原来在 refinement 才慢慢磨出来的东西,前置到了 spec 和 lightweight design doc 里。等 LDD 通过以后,再自动拆 ticket,而且 ticket 结构会尽量避免互相阻塞。

4)Retrospective 被弱化

这点会有争议,但他给的替代指标是客户满意度和常规交付指标。如果有问题,工程师立即提,不等 sprint 尾声统一发言。

我不觉得这套东西适合所有团队照抄,但它至少说明一件事:很多流程不是神圣的,它们只是某个时代的补丁。瓶颈换了,补丁就应该重算。

四、他们的新主流程,其实很像一条围绕 agent 设计的生产线

Mike 后面有个比喻挺好,他说要把 engineering lifecycle 看成 factory。

这个比喻虽然有点工业化,但很适合解释他们的做法。因为他的核心思想就是:把工程交付拆成一组可组合的小动作,然后把这些动作尽可能编码成 deterministic、verifiable、可复用的 skills。

他们现在的主链路大概是这样:

  1. 先有 spec
  2. agent 反过来 interview 人,帮你把 spec 问清楚
  3. agent 基于既有风格生成 lightweight design doc
  4. 团队对 LDD 给反馈
  5. 自动生成 tickets
  6. 再往后生成 PR
  7. merge 后自动部署到 staging
  8. 拉起 QA agent,对照 acceptance criteria 做验收
  9. 后续还计划让 agent 对未满足的 acceptance criteria 自动开修复 PR

如果真按这个思路继续走,组织会慢慢出现一个很明显的变化:人类不再手工推动流程前进,会更多停在关键节点提供判断、约束和验收。

这就跟传统“人负责一切推进,系统只是记录状态”的模式很不一样了。

五、代码评审没有消失,但分工被重新切开了

这部分我觉得特别实用。

他们没有把 code review 整体扔给 agent,也没有死守“所有 review 还是得人来”。他们做的是拆层。

agent 负责什么?
- 命名
- 风格
- 格式
- 那些工程师最不爱收到、也最容易带情绪的低层次意见

工程师负责什么?
- system design
- 关键架构判断
- 真正影响系统走向的决策

这套分法很聪明。因为很多 review 摩擦,本来就不是来自系统设计,更多来自“为什么这个变量又这么命名”“为什么这个风格不统一”。这些事情交给 agent,反而能把人类讨论空间留给更值得讨论的部分。

而且他还提了一个很容易被忽略的点,agent review 可以顺手把情绪因素抽走。工程师不会再因为一些风格意见产生额外心理负担,团队沟通也更干净。

这个分法我觉得比“AI review 全包”靠谱得多。

六、他们筛的,不只是“更会写代码的人”

Mike 说得最狠的一段,是关于人。

他说,不是每个人都能开跑车。

这句话不太政治正确,但他表达的问题很实际。AI 时代并不会平均放大所有工程师。相反,它会放大某一类人:
- 好奇
- 会追根究底
- 遇到不懂的东西愿意自己拆开看
- 不依赖超细颗粒度指令也能往前推进

而那种强依赖超明确 spec、只能在高确定性输入下稳定产出的人,可能会更难适应。

这点很多团队不愿意明说,但我觉得他讲得对。因为 agent-assisted engineering 并不是把人类从思考里解放出来,它更像是把“写代码的体力活”往外挪,然后逼着工程师往前站,承担更高密度的判断、拆解和控制责任。

所以他不建议一上来就全员铺开,也不建议给所有人发一个 Claude Code 或 Codex 再办一次 hackathon,就当完成转型。

这是个特别值得记的提醒。

很多组织失败,不是工具不行,是把 adoption 想得太轻。每个工程团队的习惯、代码风格、抽象偏好、容错边界都不一样。你不先从最强那批工程师开始,把模式跑通、把技能沉淀、把 guardrails 立好,后面铺量只会把混乱放大。

七、他们最强的地方,也许不在 Agent,而在“把组织经验编码成了 Skills”

这场分享背后还有一层更深的东西,他们没有把 agent 当成一个万能黑盒,反而一直在把组织自己的工程习惯编码进去。

比如他们提到:
- LDD 会参考团队过去怎么写 design doc
- API 设计会贯彻特定模式,比如 service repository pattern
- trunk-based development 对应 feature flag 这些都可以做成专门 skill
- ticket 拆分会显式标记阻塞关系

这意味着什么?

这意味着组织不是在“借一个很强的通用 agent 干活”。他们是在把自己的工程文化、设计偏好、约束模式、代码习惯,慢慢固化成 agent 能调用的执行件。

这一步特别关键。

因为如果没有这一层,agent 最终只会生成“平均意义上合理”的东西,也就是那种一看就像 AI 做出来的通用实现。Mike 也提到了这个问题,很多产物会有一种“这明显像 Claude Code 搓出来的味道”。

所以你想把结果做得像自己公司的产品,而不是像某个通用模型的默认审美,就必须让工程团队继续花时间把产品感、品牌感、设计一致性拉回来。

这也说明,AI 没有在消灭工程文化,它是在逼工程文化把自己显式化。

八、QA Agent 这条线,比“写代码 agent”更值得继续盯

他提到的另一条线我也很在意,就是 QA agent。

现在他们的做法是:
- PR merge 后自动部署到 staging
- 拉起 QA agent
- 它去读 tickets 和 acceptance criteria
- 然后按这些标准验收
- 如果没过,标记失败项
- 未来希望 agent 直接基于失败项自动创建修复 PR

如果这套闭环能站住,意义其实很大。

因为它不只是“AI 帮忙写代码”,它已经开始参与定义、执行、回收和修复整个交付闭环。

一旦这个链跑通,组织里很多原来只能靠人盯着的流程,会逐步变成系统自驱。

当然,这种自驱能不能稳住,前提还是 acceptance criteria 足够清楚,guardrails 足够严,环境边界足够可控。不然 self-heal 很容易变成 self-break。

但方向上,我觉得这是比“生成代码更炫”更值得盯的部分。因为真正决定组织吞吐的,从来不只是写出第一版代码,后面怎么被验证、怎么被纠偏、怎么持续回流,同样重要。

九、这场 talk 最后留下来的,是“工程组织要围着新的瓶颈重画”

我看完最大的感受是,Mike 讲的不是 AI 神话,更像一种很冷静的组织再设计。

他没有说工程师不重要,也没有说流程都该砍掉,更没有说所有团队都该明天停掉 Scrum。相反,他一直在强调几件很朴素的事:
- 先从最强工程师开始
- 慢慢铺
- 先挑非关键系统试
- guardrails 先立好
- skills 必须贴合自己团队的工程习惯
- 不要盲目复用带有强烈他人软件观点的现成技能

这些判断让我觉得这场 talk 是可信的。因为它不是在卖一个工具,它是在描述一个组织怎样适应新的生产现实。

如果把这场分享压成一句话,我会记成这样:

下一代工程组织的竞争,不只看谁先接入 coding agent,更看谁先把 spec、设计、评审、状态流转、QA 和工程文化重新围着 agent 组织起来。

PFF 这次 case study 还不能证明这套东西能无限放大到所有团队,但它已经足够说明一件事:很多工程流程之所以还活着,只是因为过去的人类瓶颈还在。现在瓶颈开始移动了,组织图纸也该跟着改了。

附:视频信息

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单