- 智能体的核心是实现能用自然语言描述的复杂目标。为了执行目标,智能体应该有能力对目标进行拆解、计划、执行和评估。本质上,更符合人日常的高级智力活动。
- 过去几十年计算机的发展,还是围绕着把物理世界中执行的任务,搬到了数字世界中。把具体任务的工作流,用软件的方式实现。但人使用软件的方式,还是在完成对不同类型数据的处理任务。
- 有很多人担心智能体的出现,未来会替代人类。最近听了François Chollet的采访,我认为LLM还是一个简化的世界模型,更多的是System 1 thinking。只有出现了System 2 thinking上的突破,才有可能真的出现替代人类的AI。
- 智能体在模型出现显著突破之前,扮演更多的是增强人类智能的角色。就如Douglas Engelbert所说的,增强人类的智能,表现在对于复杂问题的理解更快更好,对于复杂问题能进行有用的可解决的抽象,能够想出更快更好的解决方案。
- 智能体会不会诞生崭新的人机交互方式:之前听过一个观点,说智能体是AI时代的网站。看了Devin的Demo后,好像有点领悟了。智能体对于复杂问题的驾驭能力,代表了它可以驾驭不同工具,甚至去开发现有工具,帮助人自动化很多任务。在这个自动化任务的过程中,会诞生出一种全新的人机交互方式,给human in the loop准备的。
- Agent由于大模型的限制,存在不可靠性,需要人类去干预。
- 人自然地想要review智能体做出决策的步骤和依据。就像是你在工作中雇佣了一个新人,刚开始你想要事必躬亲。只有当他的工作能力得到认可后,你会更信任他。有效的人机交互界面,也是帮助人增进对智能体能力的信任。
- 智能体可能的交互界面是什么样的?Devin的交互界面,还是很受启发的。它把planning的步骤,以及每一步做了什么都take snapshot。你可以像是看视频一样,一帧一帧地去review它的每一个步骤。并且在每个步骤review的时候,发现了什么问题,可以去纠正。当你纠正了这一步以后,智能体应该知道如何去更正之后的每一个步骤。

除此之外,还有些有意思的交互想法:
- 协同合作的文档:人和智能体在同一界面协同工作。智能体在完成初始任务时,人可以提供反馈。智能体可以选择回应反馈,来澄清人的需求。或者自动执行任务,来回应反馈。
- 邮件提醒:在智能体需要得到帮助的时候,给人发送邮件,提醒人去干预现有的任务。
- 智能体现有的局限性和挑战:
- 使用工具增加了系统的复杂性:智能体在做规划和推理时,还是会受到现有LLM模型的局限性,导致结果的不可预测性。比如最近我用Coze扣子设计一个Twitter的bot, 我希望它能够阅读我关注的人最近的Tweets,并且概括三个核心主题,分别列出每个主题中讨论度最高的5个Tweet。如果只是加了API Plugin,智能体能理解在什么时候用API,也知道抓取什么数据。但是在实际使用时,总会在调用API的时候出错。其实,是由于API的rate limit的问题,导致频繁使用API时出错。解决rate limit的问题,智能体没有这种domain knowledge的,需要人为的纠正它。
- LLM测试的难度:对于程序来说,你可以写unit test,来检查输出结果是否符合预期。但是LLM的输入输出,都是自然语言,而且会有non-deteministic的特征。如何能够更好test LLM的capability,方便开发人员去实验模型的不同参数。在出现问题时,怎么帮助开发人员去trace问题。这些工作流与传统的软件开发是很不相同的。
- **企业级智能体的护城河在哪里?**企业级的应用,就是domain knowledge的reasoning。这些能力,是generic LLM没有的,所以谁具有domain expertise, 谁的优势就更明显。比如,一个Data Science的Agent,就得对dataset有深入的理解。具体到,如果这个field出错,默认的数据值应该是什么。数据集之间的关系,应该是什么样的。怎么能让domain-specific reasoning,变得可靠,是技术挑战也是核心的竞争优势。
- 现有智能体的商业价值:Hex的创始人,过去是个数据科学家。他讲过一个很有意思的观点,数据科学家,最核心的能力就是三点:怎么去frame一个问题,怎么frame数据来解决问题,怎么去设计目标函数来解决问题。但是在现实工作中,数据科学家有太多时间花在繁琐的任务上,妨碍了他们去深入思考这些核心问题。智能体的价值,就是去简化或者自动化这些繁琐任务,能让人专注于工作中更有意思更有价值的地方。