Sora的爆火引发了业界对“世界模型(World Simulators)”的关注与争议。OpenAI在报告中把Sora定义为可以生成视频的世界模型,并认为Sora的技术是打造通用世界模型的一种有前景的方法。
“世界模型”这个概念由AI科学家、CNN发明者、图灵奖获得者Yann LeCun提出,他认为要让AI接近人类水平,其需要像婴儿一样学习世界如何运作,并强调构建一个精确的世界模型对于AI进行有效学习和决策的重要性。
想要更直观地理解世界模型今天将如何作用于大语言模型时代,我们不妨回顾和理解AlphaGo到AlphaGo Zero的发展历程。因为在我看来,今天LLM、世界模型到AI Agent,都是历史的重复。
在AlphaGo到AlphaGo Zero的历程中,我们可以看到AI在一个场景中,首先是从人类对弈的数据集中学习,其次是创造一个仿真器,从而能够自己和自己对弈,进行强化学习。自动驾驶也走过了同样的过程,只是自动驾驶算法需要构造仿真物理世界的环境所需要的数据大大增加了。
而关于Sora是不是世界模型的争议,我们可以类似地问一些哲学问题。比如,仅靠文本和视频,能够学会游泳吗?答案自然是否定的。因为游泳涉及到身体在水中的平衡、协调、力量和耐力等多方面的因素,人需要在水和人体构成的环境中主动做出动作、改变水流,才有可能学会主动的身体姿态控制。
类似的,AI Agent如果无法像科学研究一样,设计并执行可重复的实验,那就永远无法对世界的规律和理论进行学习。
每个企业级AI Agent,都需要一个基于业务流程的世界模型
回到澜码聚焦的企业业务流程领域,现有的企业服务有协助企业进行业务流程搭建的BPM,有针对已有流程进行分析的流程挖掘,但是在新的智能时代,业务流程中除了人和工作流,还出现了新的生产力——AI Agent。
AI Agent在以GPT-4为代表的大语言模型加持之下,可以做到很多过去只有专家才能完成的工作,也可以协助管理者做到很多协调工作,因此作为业务流程中的一个“参与者”,AI Agent需要有一个基于业务流程的世界模型,这样才能够更好的进行推演,从而选择合适的行动计划,进一步辅助管理者提高流程的绩效。
被誉为20世纪最伟大哲学家之一的卡尔·波普尔提出一种理论,认为宇宙中存在着三个世界:“世界一”是物理世界,由物理客体和事件组成,包括物质和能量;“世界二”是主观知识世界,由心灵主体和其感知事件组成,即意识状态和主观经验的世界;“世界三”是客观知识世界,包括各种载体记录并储存起来的文化、文明、科学技术等理论体系的人类精神产物。
卡尔·波普尔认为,先有“世界一”,然后有“世界二”,最后才有“世界三”,并且三个世界又是相互作用的。
卡尔·波普尔的“三个世界”
落到企业业务流程自动化中,作为数字员工的AI Agent如果不能跟“世界二”中的人类员工互动、在互动过程中去观察和学习的话,那么AI Agent将无法胜任工作。
为了更直观的理解,我举个企业中销售管理的例子。在A公司的销售部,销售流程、客群、友商、市场等构成了“世界一”,该销售部门的负责人有个“世界二”,A公司SCRM系统里的是“世界三”。
如果要为A公司构建一个销售管理流程Agent,可以通过各种书籍、理论,甚至是音频、视频等,预训练出一个“世界三”,但是“世界一”和“世界二”会随着市场情况、销售部负责人的管理理念和风格等不断变化的,所以如果这个Agent不能做出自己的观测,比如与各个一线销售进行对话、主动获取行业动态等,它一定无法精确地做好销售部负责人的推演助手。
但是如果拥有一个特别好的世界仿真器,通过历史数据以及相应的观测,学习到“世界一”的精确逼近,这个Agent就能够帮助销售部负责人做很多推演,比如让销售人员调换行业、调整定价策略、调整提成比例等,从而提高整个流程的绩效。
如何结合世界模型构建新的自动化平台
在企业业务流程中,过去自动化运营平台是基于RPA、 iPaas(集成平台即服务) 规则引擎、提升引擎,而今天大语言模型时代,是要基于一个世界模型去构建一个新的自动化平台——业务专家只要输入、输出规则,每个企业有自己共享的世界模型,AI Agent就会有上下文,从而更好地基于大语言模型完成任务,并且能够在出问题的时候主动做出调用。
这样一来,大语言模型就把算力和数据变成了智力,AI Agent就可以把专家知识变成自动化能力。
那么,澜码是如何结合世界模型去构建新的自动化平台的?回答这个问题之前,我们先来回顾一下传统构建企业服务的自动化平台的方式和过程。
首先,企业需要构建数字化系统。这个过程从分析业务需求开始,我们需要深入理解企业的业务模式,业务流程,以及业务中的关键环节和痛点。在这一阶段,IT或者开发部门需要与业务团队紧密合作,收集和整理各种业务需求,根据这些需求,进行系统建模、设计出能够满足业务需求的系统架构和流程,然后开始进行系统开发、测试和部署上线。
开发团队会根据之前设计的系统模型,进行详细的编程开发。在开发过程中,我们会严格遵循软件开发的生命周期,历经需求分析、设计、编码、测试和维护等各个环节。在这个阶段,我们会构建出一系列关键的企业业务系统,如ERP、CRM、OA等等。
在数字化基础构建完成后,我们开始构建超级自动化平台。在这个阶段,企业引入了RPA(机器人流程自动化)、低代码技术、流程挖掘,以及iPaaS等先进的技术。通过这些技术,企业实现了对业务流程的自动化管理和优化——RPA可以自动化执行一些重复性的业务流程,提高工作效率;低代码技术可以让非技术人员也能参与到系统开发中来,提高开发效率;流程挖掘可以帮助发现业务流程中的痛点和改进点,以优化业务流程;而iPaaS则可以帮助实现各种系统和服务的集成,提高系统的协同效率。
通过对流程的描述和定义,企业实现了各种自动化的应用,用户可以通过简单的描述和定义去设定自己的业务流程,再由超级自动化平台自动执行这些流程,从而构建出实现业务流程自动化的诸多应用。
以上是过去构建企业服务自动化平台的过程,但是在大语言模型时代,我们认为企业自动化平台构建将迎来全新的范式。
首先,企业的业务专家仅需要根据实际业务需求,描述系统的输入、输出及相应的规则。这些规则可能包括业务流程的各个环节,以及在不同环节中需要遵循的业务规则和策略。这些描述形成了我们构建AI Agent的基础。
接下来,技术团队会引用各种基于大语言模型的新技术,包括RAG、优质的提示词工程以及精确的微调模型等。构建过程中包含了基于特定的企业服务场景沉淀下来的领域知识和数据。这些数据可能包括企业的业务数据、业务流程数据以及业务规则数据等,可以认为是企业服务领域的世界模型。
基于以上的过程,我们可以生产出一系列AI Agent来实现自动化。这些Agent可以自动执行企业的业务流程、自动处理企业的业务数据、自动遵循企业的业务规则,从而实现业务流程的自动化。
相比于传统方式,这种基于大语言模型的自动化构建方式可以大大降低技术团队实现AI Agent的难度和花费的人工。因为大部分业务规则和流程都可以通过描述来实现,而不再需要编写复杂的代码——这不仅可以提高开发效率,也可以降低开发成本。
总的来说,基于大语言模型的自动化构建方式,将企业的业务专家和技术团队紧密地结合在一起,通过共享的语言和理解,共同构建出能够满足企业需求的Agent应用。
于是,企业内部的流程、活动以及 SOP就都可以被转换成专家时间,也就是所谓的新质生产力。当未来AGI成为现实,程序就会从生产要素、生产对象转变成生产者,最终这个新的生产者也将改变我们的生产关系。
作者简介:
周健毕业于上海交通大学计算机系学士、硕士,2002年获得ACM国际大学生程序设计竞赛世界冠军,是首个在此项竞赛夺冠的亚洲团队成员。
2006年加入谷歌美国总部,负责中文网站搜索质量优化,此后历任阿里云、MediaV、依图科技、弘玑RPA等公司研发总监、CTO等;
十年连续创业经验,作为依图10号员工、弘玑RPA公司CTO,在AI、大数据、企业服务领域拥有丰富的经验和项目成功案例。