AI 笔记
AI Agent 开发 (2025-09-09)
https://www.parlant.io/blog/how-parlant-guarantees-compliance/
这篇文章说了 Agent 开发的几个痛点问题,并概要描述 parlant 是怎样解决的。
文章提了两个衡量 Agent 效果的指标:失败频率;失败的严重程度。它还说了5种具体的失败类型。 它指出传统 agent 的核心问题的根源来自:Curse of Instructions 。 ps:它将‘依靠一段 prompt 来约束系统’的 agent 叫做传统。 这篇论文提到了一个研究观点:大模型遵守一两条规则是比较有效的, 当规则变多到10来条的时候,它遵守的准确定会大幅降低。
parlant 通过一套系统,让模型每次只需要遵守少数几条规则,来解决上述问题。 它的理论基础是 Attentive Reasoning Queries (ARQs) 这篇论文。 另外,它也说自己这套规则(agentic rule)和在代码里面直接编写规则(scripted rule)还是有区别的。
读后感:这篇文章让我想起了 Gemini Cli 的 prompt,它定义了几种任务场景,然后为每种任务场景定义了一个工作流。 它的目的也是想让大模型按照某个思路来做事。我主观觉得 Gemini Cli 的局限性是比较明显的, 它 prompt 提到的规则势必会很泛。
AI 代替测试工程师么?(2026-02-28)
(数据库)测试工程师的工作内容:
- 测试
- 基础测试集和特性测试
- 测试设计,测试实现,测试执行,测试结果分析
- 测试基建
- Bug review
- 质量度量
- 胶水工作:发版;流水线维护等
最关键还是跑通这个流程:测试设计、编写、运行、沉淀用例。
个人感觉,AI 与人最大的区别在于它无法很好的沉淀记忆。而目前还没有很好的记忆组件, 听说 claude-mem 也有性能太差的问题。
按照我目前的调研,没有一个真正能工作的很好的 “长期记忆” 系统。基于 markdown 记忆的有 openclaw, memsearch 等记忆系统。还有 claude 最新的记忆系统,也是基于 markdown 的。这一类奉行的是 Markdown is the source of truth。还有一种基于向量库的。supermemory, memori 等 SAAS 服务, 这种不知道真实效果如何,看资料效果好一点。
happy-llm 学习笔记(2026-03-05)
看了它的前两章,将 Transfermer 的架构,和老的神经网络架构做了对比。说它主要解决了两个问题, 一个是长距离依赖问题,一个是并行计算问题。接着又说了 LLM 另外一个核心概念,就是 Attention。 它的核心思想是:每个 token 都可以和输入序列中的任意一个 token 进行交互。算法没看太明白。 先放下来,等后续有机会再看。
读《2025,我们这样评测 AI》笔记(2026-03-06)
看这篇文章的初衷是我在本地也构建一些测试 agent。但怎么把这些 agent 分享给其他人, 怎样让其他人知道这些 agent 是真的能够解决一些实际问题呢。我觉得这就涉及 agent 的测试/评测。
文章链接:https://testerhome.com/topics/43475
有几个例子有利于理解 Agent 测试,一个是 ChatBI。 文中提到,AI 评测痛点:
- 评测数据集的构建:真实性,权威性,(以及全面性)
- 有效断言:开发型问题的判定;标准答案的语义理解
- 数据集规模(效率)
评测举例,ChatBI:
- 评测预料生成:从业务理解角度拆出 “原子指标”,“加工逻辑”,和“分析维度”三个维度,从这三个维度确保全面性。
- 评测指标:以查询结果是否正确为核心。查询结果是否正确的判断才用人工先给出一个标准答案。
- 评测工具:自动生成评测语料。
- 难点:用户问法多样性(比如复合问法);断言效率与门槛。
RAG 评测: 看下来,我的感受是作者没有讲清楚。
- 全集是啥:提到了单篇、多篇与标题。末尾作者也提到,这个还不够。
- 评测指标:没有拆成可以量化的指标。
- 局部最优的陷阱
自己想想这个问题。如果把自己当成一个 RAG 系统,当一个问题来的时候
- 首先,需要判断这个问题是否能回答。
- 开放型问题,按理说这类问题不是 RAG 系统能解决的。
- 确定性问题,则可以回答知道或不知道。然后再有答案的准确性。
- 推理性,统计性问题
- 检索性问题 感觉从这个维度去拆分全集会好一些?算了,放弃看这个。
Agentic 智能体评测:感谢写的没有特别清楚。
Comments