九游体育 从 Harness 到 Loop: AI 居品的下一个经营层

AI居品司理的职责范式正在资格潜入变革——从编写静态prompt到经营动态loop机制。当ClaudeCode的作家声称"我的职责是写loop"时,这记号着一个新期间的运转:居品司理需要构建包含验收活动、零丁评审机制和止损要求的完好轮回系统。本文将深入默契loop经营怎么成为AI居品的中枢竞争力,以及居品司理该怎么拜托包含判定机制与顾虑回路的下一代决策。

前几天Anthropic的LanceMartin发了篇著述,讲他何如用loop来跑新模子。著述自己是写给工程师的,但我读完的第一反馈是:这事跟居品司理的干系,可能比跟工程师的干系还大。
ClaudeCode的作家BorisCherny说过一句最近被反复援用的话:他仍是不凯旋prompt模子了,”我的职责是写loop”。几百个agent读他的GitHub和Slack,我方决定接下来作念什么。
loop倏得火起来,但汉文社区的究诘大多停在工程层面:何如写bash轮回、何如配hook。
我想换个角度聊聊:若是你是一个作念AI居品的PM,loop意味着什么。
先把成见捋表露:harness是环境,loop是机制
旧年全球都在谈harness。模子除外的一切都算harness:
给它什么器具、什么沙箱、能读哪些文献、有哪些权限。一句话,harness是模子干活的环境。
但环境是静态的。你给模子配了一间修复皆全的车间,不等于它知说念今天该干什么、干到什么进度算完、干砸了何如办。
loop补的即是这一层。它是架在harness之上的运行机制:模子跑一轮,从环境里收到反馈,对照活动查验,没达标就带着反馈再跑一轮,直到验收通过。Lance著述里提到的ClaudeCode的/goal敕令、Claude托管Agent里的Outcomes,都是把这套机制作念成了居品原语。
是以当前的AI居品其实有三层:
模子是引擎,harness是车间,loop是排班和验收轨制。引擎全球都从几家厂商买,车间的搭法也越来越活动化,能拉开差距的运转形成第三层。而机制经营这件事,工程师有时比PM更擅长。
Lance的执行里,藏着两个居品启示
Lance作念了个执行:让模子在8张H100上自主作念机器学习调优,流畅跑8个小时,我方改代码、跑熟习、读日记、决定下一个执行。细节不伸开,我只说两个对居品东说念主有用的发现。
第一个:他给模子的不是操作设施,而是一份验收清单。九条可查验的活动,比如”必须先跑基线”、”至少作念20组执行”。模子何如杀青,随它。
这其实即是PRD念念路的迁徙。昔日咱们写需求文档是给东说念主看的,要刻画经由和交互;给loop写的”需求文档”是一份rubric,中枢唯有一个问题:什么状况算完成,何如客不雅地查验。比起轨则何如作念,说清什么手脚念完遑急得多。一条无极的活动(”代码质地要高”)会让所有这个词loop空转,换成可查验的写法(”测试全过且无新增lint报错”)它才经管得了。
第二个发现更挑升旨真理:弗成让模子我方给我方打分。
Lance提到,模子自我批判的适度不好,它会倾向于招供我方刚作念完的东西。灵验的作念法是再开一个零丁的”验收agent”,在干净的凹凸文里打分,跟推论者统统阻挠。通顺员弗成兼任裁判,对模子也相同。
这对居品经营的含义很凯旋:在你的AI居品里,九游体育 - 九游9Game sports(中国)官网”判定任务完成”应该是一个零丁的机制,而不是推论经由的临了一步。谁来验收、欠亨过何如打回?验收者能看到哪些信息,会不会被推论过程的申诉带偏?这些都得画进居品决策。
顾虑:跨会话的外轮回
著述后半段讲顾虑,我认为是更被低估的部分。
若是说自我纠错是会话内的小轮回,顾虑即是跨会话的外轮回:
此次踩的坑,下次别再踩。Lance用一个基准测试对比了三代模子何如用顾虑,三代都在记,差距体当前顾虑的深度上。他刻画了一个五步的递进:出错并记下来,弄表露为什么错,考证我方的会诊,把会诊提取成通用持法,临了在新任务里凯旋查持法而不是再行踩坑。
弱小数的模子停在第一步,顾虑库即是一堆错题集和臆度,下次也想不起来翻。强的模子能走统统程,把教育形成持法。
作念过顾虑功能的PM应该都有体感:
开云体育app2026世界杯中国官方下载大部分居品的”顾虑”即是存聊天历史,实质是个回收站。Lance这个递进给了一个更好的经营框架。顾虑功能的价值不在存储,而在回路是否闭合:写进去的东西经过了考证吗?提取成可复用的式样了吗?下次任务运转时,它会被读到吗?三个关节断掉任何一个,顾虑就仅仅占所在的日记。
反过来,回路一朝闭合,这部分积蓄很难被抄走。模子才智东说念主东说念主都买得回,但你的居品在这个用户身上考证过的那些持法,竞品拿不到。
那PM到底要拜托什么
说点实操的。若是你在作念agent类居品,我认为有四个问题值得在决策评审之前先想表露。
任务的”完成”由谁判定、依据什么活动?反馈信号从那儿来,是测试适度、用户活动,照旧零丁的评审agent?loop什么技能必须停,迭代次数上限和预算上限是几许?顾虑写入什么、何时被铺张?
第三个问题单独说一句。loop不会我方停,住手要求是经营出来的。Uber本年给工程师设了每东说念主每器具每月1500好意思元的AI开支上限,因为年度预算四个月就烧完毕。一个莫得止损机制的loop,要么烧钱,要么”限度化地分娩自信的特地”。止损听起来是资本问题,等账单大略特地交到用户手上,就形成信任问题了。
这两年这个岗亭的职责对象一直在上移:
先是写prompt,自后管凹凸文,当前到了经营loop。拜托物也随着变了,以前是界面和经由图,当前还要加上一份验收活动、一个判定机制和一组止损要求。
模子还会不时变强。我的判断是九游体育,这反而让机制经营更值钱:引擎越猛,标的和刹车越弗成省。