几点笔记(2025-09)

AI Agent 开发

https://www.parlant.io/blog/how-parlant-guarantees-compliance/

这篇文章说了 Agent 开发的几个痛点问题,并概要描述 parlant 是怎样解决的。

文章提了两个衡量 Agent 效果的指标:失败频率;失败的严重程度。它还说了5种具体的失败类型。 它指出传统 agent 的核心问题的根源来自:Curse of Instructions 。 ps:它将‘依靠一段 prompt 来约束系统’的 agent 叫做传统。 这篇论文提到了一个研究观点:大模型遵守一两条规则是比较有效的, 当规则变多到10来条的时候,它遵守的准确定会大幅降低。

parlant 通过一套系统,让模型每次只需要遵守少数几条规则,来解决上述问题。 它的理论基础是 Attentive Reasoning Queries (ARQs) 这篇论文。 另外,它也说自己这套规则(agentic rule)和在代码里面直接编写规则(scripted rule)还是有区别的。

读后感:这篇文章让我想起了 Gemini Cli 的 prompt,它定义了几种任务场景,然后为每种任务场景定义了一个工作流。 它的目的也是想让大模型按照某个思路来做事。我主观觉得 Gemini Cli 的局限性是比较明显的, 它 prompt 提到的规则势必会很泛。

Updated:

Comments