构建新一代AI Agent,赋能基层员工成长为业务专家 1月9日,爱分析成功举办2024 爱分析·AI与大模型高峰论坛,邀请了各领域的专家学者、企业代表、大模型厂商和实践专家,分享前沿的技术进展和领先企业内的落地场景与实践经验。
今天为大家带来AI Agent构建与业务赋能的介绍与解读。
分享嘉宾|周健 澜码科技创始人&CEO
内容已做精简,如需和专家交流&获取专家完整版视频实录,请扫码。
本次分享主要聚焦过去的2023年中我们在行业中关于AI Agent的一些实践和相关思考。
随着科技的快速发展,我们对于软件开发模式的理解也在不断加深。近年来,大模型的出现和广泛应用实际上是对大数据的一次深度压缩,代表了机器学习和深度学习的更进一步发展,我们可以将其视为一种预测行为。以往的第二类大数据系统,更像是一个记载信息的系统,这种系统能够记录企业内部的各种流程和物联网设备的信息。
现在的大模型更多地是对大量数据的一种压缩,它并不能完全取代人类的大脑,因此不能过分夸大它的作用。近期也有一些观点认为,大语言模型的出现代表着我们可以将计算能力转化为智力,并将这种智力视为一种基础设施,因为我们有强大的大语言模型作为支持,只需要直接增加计算能力,就可以将这种智力扩展到更多的领域。
正如云计算一样,我们只需要增加10倍的计算能力,智力就可以被“复制”成10份,这就是大语言模型的魅力所在。然而实际应用中,我们还面临着第三类系统——行动系统的挑战。在企业内,每个员工都需要面对各种各样的IT环境,使用各种系统、版本、功能等,这本身也是一种环境。因此,我们需要使用多种工具来实现相同的目标,这需要我们有能力去处理不同环境的不同情况,去探索并解决相关的问题。
在真正实现这一过程之前,需要知道的是,AI Agent除了要有智力外,还需要有能力去与复杂多变的环境互动,包括学习和探索等。
经过一年的探索历程,许多企业在落地大语言模型时会面临各种挑战,其中所涉及的概念也非常丰富,涵盖了所谓的预训练,垂直行业大模型微调Prompt,RAG,乃至多Agent等技术术语。事实上,目前许多从业者都在热议价值问题,这其中涉及到了大模型的价值以及它能为企业带来哪些实际业务价值等方面的问题。面对这些问题,我们的企业如何才能到达大模型Friendly或者AI Ready阶段呢?
我们或许可以从重新审视AI进程的定义开始。这个过程中,我们选取了一些可能为大众熟知的三个不同视角来解释AI进程。具体来说,我们最初将AI Agent定义为人类与机器协作的过程,从AI 1. 0时期至今,例如人脸识别、OCR等技术,我们将其视为嵌入式应用程序。
在行业中,并不是所有的业务流程都需要使用AI,微软提出的Copilot项目实际上是在指出像Excel、Word、PPT这类软件可以在某些情况下帮助人类完成工作。但我们认为Agent的主要特点在于它对领域模型的理解,它可以自主地进行规划。假设告诉它需要安排下周的行程,AI Agent可能会自动在你的日历系统收集下周的行程信息,然后以此为基础,找寻合适的航班、酒店方案,并根据个人喜好来最终确定行程。我们认为,这可能是AI Agent最重要的特点。当然在这个过程中,我们要注意技术方面的考虑。
同样的,刚才也提到,我们认为最关键的问题是领域模型。大语言模型更多地被用于与人互动,使机器能够适应人类,但它无法解决领域模型的问题。譬如在招聘情境下,常见的简历评估,如何定义985、211高校、工作稳定等,这都是领域模型的问题,然而这些问题并不适合通过大规模的简历数据集训练大语言模型来解决,可能传统的方法,如向量数据库、传统搜索技术和数据库技术等反而可以更好地解决上述问题。
刚才所述的内容主要是针对产品层面的描述。在实际操作过程中,我们会发现,实际上AI Agent的实施还需要满足一定的条件。
第一,信息化是数字化的基础,数字化是智能化的基础,前提条件还是对于专家知识需要有沉淀。举个例子,如果要为某银行部门构建对话式BI,那么我们可能期望先有一个指标数据库,因为如果未建立指标数据库,亦或是企业内部对于指标定义存在歧义,那么AI Agent实现用户问题的响应将变得十分困难。类似的,许多知识咨询公司会将大量知识转化为文档产品或FAQ,这是必备的前提条件。如果企业内部对这些术语和指标缺乏统一共识,那么教给Agent、再去赋能不同的业务人员完成该任务将变得极其艰巨。
第二,基于CUI的柔性交互。大家如今都会意识到,拥有大语言模型之后,我们有机会让机器去适应人类,而非让人适应机器。在构建AI Agent时,我们需要确保Agent能够满足人类需求,对人类的能力水平要有合理的期待,可以通过价值观对齐等方式来解决这个问题。
第三,在前述两项工作完成后,AI Agent实际上可深入参与业务流程的关键环节,提供决策辅助的过程得以全方位记录,该方式实质上是重要的数据来源,也就是员工行为的数字化体现。事实上,如今员工行为尚未实现数字化,许多人仍需依赖邮件、网页等工具来完成工作任务,这其实是流程未被数字化的体现,因此难以进行深入优化。然而,如果通过自动化技术协助业务人员完成业务任务和活动,我们将有机会沉淀数据,进而进一步改进专家知识。
我们认为当今大语言模型存在较为明显的局限性,尤其是在必须进行私有化部署的情况下。在无法使用GPT-4的场景下,我们只能选择开源模型或国内大模型的私有化部署版本。时至今日较为合理的期待是,在某些单一岗位拥有大量员工的前提下,借助专家将技能传授给Agent,然后反过来为基层业务单位赋能,将该技能传授给基层业务的员工,使其从初级、中级状态提升至胜任水平。
再来说一个实际的落地案例。我们的标杆客户之一金光集团,希望评估供应商的财务报表。无论是供应商、供应商经销商、客户,还是银行的信贷审核或基金投资企业,他们都会对财务报表有明确的要求,其中股权结构、应收账款利润率,以及其他各类情况,本质上都涉及到了财务健康评价。
首先我们需要进行抽样选取工作,这里面包括了各种各样的来源,例如Word、PPT、PDF等,我们的任务就是从中抽出关键领域中的关键指标数据。接下来,就是由专业人士引导如何理解和解读这些指标。举个例子,可能我们并不清楚应收账款与营业收入的比例关系,或者是其他相关指标,此时专业人员的指导就显得至关重要。
当指标及相应的抽样选取完结后,执行财务健康条件审核的一线业务员工就能依据相关规定,提出其认为合理的建议,最后给予绿灯、红灯、黄灯建议。这将使得我们在交易过程中,可以借助算力创造出即使没有专家在旁,也能达到类似效果的模拟专家效果,使得我们在业务流程中能够快速而稳定地达成目标。
这里提到的就是整个供应链财务风险的处理方法。目前,我们已经实施并且落地了一个成功案例,其中涉及信息提取、决策支持、风险评估、知识输入、执行过程反馈以及整体核心风控指标监控等多个环节。实际上,这就是Augmented-Connected Workforce,即借由AI Agent将专业人士所拥有的知识进行封装后,大规模地处理各种格式的三张财务报表,并根据预先设定的业务规则和个性化的业务规则,将流程执行过程进行数字化,将研讨结果以文字形式呈现,同时提供参考文献,以及进行对话式的数据分析。
最后总结一下,在整个Agent的框架结构中,可以通过多个层次来解决问题。业务专家会以业务流程的标准操作SOP为研究对象,聚焦于四种类别:数据、文档、应用、流程。我们会针对不同类型的业务对象沉淀知识中心,并运用基于大语言模型的相关能力。同时,在任务中心,运用之前提到的嵌入式能力将相关内容整合起来,这也是我们产品设计的基本逻辑。
上海交通大学计算机系学士、硕士,2002年获得ACM国际大学生程序设计竞赛世界冠军,是首个在此项竞赛夺冠的亚洲团队成员。2006年加入谷歌美国总部,负责中文网站搜索质量优化,此后历任阿里云、MediaV、依图科技、弘玑RPA等公司研发总监、CTO等。
十年连续创业经验,作为依图10号员工、弘玑RPA公司CTO,在AI、大数据、企业服务领域拥有丰富的经验和项目成功案例。