对于AI Agent的一些想法

智能体的核心是实现能用自然语言描述的复杂目标。为了执行目标，智能体应该有能力对目标进行拆解、计划、执行和评估。本质上，更符合人日常的高级智力活动。
过去几十年计算机的发展，还是围绕着把物理世界中执行的任务，搬到了数字世界中。把具体任务的工作流，用软件的方式实现。但人使用软件的方式，还是在完成对不同类型数据的处理任务。
有很多人担心智能体的出现，未来会替代人类。最近听了François Chollet的采访，我认为LLM还是一个简化的世界模型，更多的是System 1 thinking。只有出现了System 2 thinking上的突破，才有可能真的出现替代人类的AI。
智能体在模型出现显著突破之前，扮演更多的是增强人类智能的角色。就如Douglas Engelbert所说的，增强人类的智能，表现在对于复杂问题的理解更快更好，对于复杂问题能进行有用的可解决的抽象，能够想出更快更好的解决方案。
智能体会不会诞生崭新的人机交互方式：之前听过一个观点，说智能体是AI时代的网站。看了Devin的Demo后，好像有点领悟了。智能体对于复杂问题的驾驭能力，代表了它可以驾驭不同工具，甚至去开发现有工具，帮助人自动化很多任务。在这个自动化任务的过程中，会诞生出一种全新的人机交互方式，给human in the loop准备的。
1. Agent由于大模型的限制，存在不可靠性，需要人类去干预。
2. 人自然地想要review智能体做出决策的步骤和依据。就像是你在工作中雇佣了一个新人，刚开始你想要事必躬亲。只有当他的工作能力得到认可后，你会更信任他。有效的人机交互界面，也是帮助人增进对智能体能力的信任。
智能体可能的交互界面是什么样的？Devin的交互界面，还是很受启发的。它把planning的步骤，以及每一步做了什么都take snapshot。你可以像是看视频一样，一帧一帧地去review它的每一个步骤。并且在每个步骤review的时候，发现了什么问题，可以去纠正。当你纠正了这一步以后，智能体应该知道如何去更正之后的每一个步骤。

除此之外，还有些有意思的交互想法：

协同合作的文档：人和智能体在同一界面协同工作。智能体在完成初始任务时，人可以提供反馈。智能体可以选择回应反馈，来澄清人的需求。或者自动执行任务，来回应反馈。
邮件提醒：在智能体需要得到帮助的时候，给人发送邮件，提醒人去干预现有的任务。
智能体现有的局限性和挑战：
1. 使用工具增加了系统的复杂性：智能体在做规划和推理时，还是会受到现有LLM模型的局限性，导致结果的不可预测性。比如最近我用Coze扣子设计一个Twitter的bot, 我希望它能够阅读我关注的人最近的Tweets，并且概括三个核心主题，分别列出每个主题中讨论度最高的5个Tweet。如果只是加了API Plugin，智能体能理解在什么时候用API，也知道抓取什么数据。但是在实际使用时，总会在调用API的时候出错。其实，是由于API的rate limit的问题，导致频繁使用API时出错。解决rate limit的问题，智能体没有这种domain knowledge的，需要人为的纠正它。
2. LLM测试的难度：对于程序来说，你可以写unit test，来检查输出结果是否符合预期。但是LLM的输入输出，都是自然语言，而且会有non-deteministic的特征。如何能够更好test LLM的capability，方便开发人员去实验模型的不同参数。在出现问题时，怎么帮助开发人员去trace问题。这些工作流与传统的软件开发是很不相同的。
**企业级智能体的护城河在哪里？**企业级的应用，就是domain knowledge的reasoning。这些能力，是generic LLM没有的，所以谁具有domain expertise, 谁的优势就更明显。比如，一个Data Science的Agent，就得对dataset有深入的理解。具体到，如果这个field出错，默认的数据值应该是什么。数据集之间的关系，应该是什么样的。怎么能让domain-specific reasoning，变得可靠，是技术挑战也是核心的竞争优势。
现有智能体的商业价值：Hex的创始人，过去是个数据科学家。他讲过一个很有意思的观点，数据科学家，最核心的能力就是三点：怎么去frame一个问题，怎么frame数据来解决问题，怎么去设计目标函数来解决问题。但是在现实工作中，数据科学家有太多时间花在繁琐的任务上，妨碍了他们去深入思考这些核心问题。智能体的价值，就是去简化或者自动化这些繁琐任务，能让人专注于工作中更有意思更有价值的地方。