OpenAI CEO Sam Altman最近在一次互动访谈中谈到,人类带宽的限制可能会被Agent打破,Agent能够像一个聪明的同事一样,与用户一起合作完成项目。Agent的商业价值已经毋庸置疑,但与此同时,也有越来越多的人担心Agent涉及的核心技术会因为大模型的迭代优化而直接在模型层把Agent的相关功能取代。
从技术图谱的角度看,大模型能否取代AI Agent?我的答案是否定的。
下面是最有名的一张AI Agent的技术架构图,描述了Agent需要具备的四大核心能力,我们来逐个讨论:
1. Plan(规划)能力。技术上,规划能力看似是大模型和Agent最重合的部分,特别是在o1系列模型发出之后,由于推理有了scaling law,并且在数学能力上有了很大进步,似乎我们就该用大模型的规划能力,但事实上,有两大因素会使得AI Agent 规划能力的发展会和大模型的规划能力不一样,其中,最核心的是成本和响应速度。
具体来说,最好的大模型通常也是最贵的,o1模型又进一步提高了模型推理所需要的时间。所以在实际商业场景中,通过工程手段降低对大模型参数和模型推理时间的要求,是实现大模型应用的ROI为正的很重要的因素。本质上就是建立缓存系统能够使得不同复杂度、不同价值的业务问题,能够在合适的成本下被解决,这是AI Agent的规划能力和大模型规划能力的最大区别。
第二个因素是个性化的部分,AI Agent的推理可以低成本的用到短期、长期记忆来辅助决策,这使得它能够更有效地利用“系统1/快思考”机制,来得到高质量的答复和响应,这也是Agent和大模型的规划能力不一样的地方。
2. 短时记忆/长时记忆(Short/Long term memory)。记忆是大模型本身不涉及的技术,记忆在应用中需要可修改可解释,大模型是把所有数据都压缩进模型参数中,做不到可修改可解释。而且短时记忆、情景记忆和过程记忆也正是AI Agent能够利用来做到低成本和个性化的很重要的一个抓手。
3. 工具使用(Tool Use)。大模型有个功能叫做function-call,与AI Agent的使用工具的能力相对应。AI Agent可以利用大模型function-call的能力扩展可调用的工具数量,此外,通过“分而治之”的方式,AI Agent可以通过构建分层的意图识别,利用大模型的规划能力进行意图识别、分类,然后在第二层目标处理中,进一步使用大模型的function-call能力,从而达到倍增的工具选择能力。
举个例子,在电商的智能客服场景,我们可以分成售前/售中/售后三类场景,每个场景都配置不同的工具,然后在多轮对话中识别出客户的需求到底是哪一类之后,再进一步的进行规划和工具使用,从而能够满足更多样的场景需求。
4. 行动(Action)。大模型当前直接执行行动的能力仍然偏弱,本质上是和环境互动的能力偏弱。在所谓的Computer-use、Phone-use场景中,在关键的OSWorld测试集下,当前最好的大模型也只有15%的准确率,离人类平均水平的70%的准确率差距极大。所以Agent在这个模块中会有专门的验证和调试模块来保障行动执行的准确率和安全性,这里最核心的是有环境的仿真能力,这也是Agent和大模型不一样的技术路线之一。
大模型和AI Agent完全属于两个不同的品类,一个是思考系统,一个是行动系统,所以并不会由于大模型的迭代优化,而在模型层替代AI Agent的功能。此外,AI Agent有自己的产品价值和技术体系,可以沉淀相关的比较优势。
可以参考下面这张架构图,这些是AI Agent和大模型最大的差异点。
AI Agent是领域驱动的,其中有个最核心的理念叫做“信念”,即对何为真实以及何为有价值的判断。打个比方,就像图书馆里有众多书籍,如果两本书在知识上有冲突,以中国作者写的为最佳答案,还是以美国作者写的为最佳答案,对阅读者后续的规划行动会产生截然不同的影响。
在AI Agent进入到具体企业业务场景,在这些知识面对具体业务决策以及拿到商业上的反馈后,如何总结出适合这家公司或者这个专家的信念体系,就是AI Agent的核心功能。在我看来,最能体现AI Agent厂商核心能力的就是如何把大模型能力和企业内部的私域知识/数据有效结合,用ROI最高的方式去服务企业业务需求。