01-代码:衡量智能化的参数
周健,年少成名,2002年获得ACM国际大学生程序设计竞赛世界冠军,是首个在此项竞赛夺冠的亚洲团队成员。程序员这一身份也带给他看待世界的独特视角。当大模型兴起,他以代码为尺,丈量这场以大模型为代表的智能革命,并做出了自己的判断——处于百年工业革命与五百年科学发现时代之间,可以类比于蒸汽机的出现。
从计算机发展史来看,用代码作为衡量智能水平的参数,有其合理性。
在早期计算机时代及第一代机器语言期间(1940年代至1950年代),计算机并未采用高级语言执行命令,而是通过打孔卡片实现控制。这些卡片上有一系列的0和1,人们通过打孔来表示指令,计算机随后处理这些指令以完成任务。
到了1960年代,汇编语言出现了。尽管它仍属于低级语言,其易读性和编写性相对直接使用机器语言而言有所提高。同时,出现了用于科学计算的高级语言FORTRAN,它抽象化了底层机器的细节,使得编程语言开始呈现出形式化逻辑推理的特点。自1970年代至今,出现了如C++和Java等编程语言,而如今程序员主要使用Java或Python系列语言。Go语言和Rust等则为相对较新的编程语言,它们的抽象程度更高,且有众多工具如编译器等帮助程序员将代码适配至不同硬件。
在早期,一个机器语言指令只能执行一个浮点运算,但随着高级语言的引入,少量代码就能转换成数百个机器指令,实现更高层次的抽象。未来可能出现一种新的编程语言,它将位于自然语言和当前编程语言之间,由新一代的程序员来编写。
计算机历史已经见证了多次这样的变革,因此可以预见这一进程还将继续发生。正是基于这一重复出现的历史模式,我认为这种变革将持续发生,这也是为什么能够用代码行数衡量智能程度的原因。
智能的终局是什么?
终局一定是本质上的数量变化。
终局,今天我们看到的变化是,一行代码的成本在降低。
在大语言模型出现之前,中国共有约770万名程序员。根据估计,每位程序员平均每天能够编写大约150行代码。那么全国的程序员一天总共可以编写约11.55亿行代码。以每年大约200个工作日来计算,这意味着全国程序员每年可以产出大约2310亿行代码。
自大语言模型问世以来,单行代码的生产成本已显著下降,至少降低了两个数量级。原本一行代码的成本约为10元,现在已降至0.1元,甚至有可能更低。此外,大语言模型大幅降低了编程的入门门槛。过去,编程人员往往是来自985、211等高校的学生,而现在,越来越多的人通过使用GPT来编写代码。这预示着现有编程人员数量可能增长至亿级,全社会的代码生产量有望增加三个数量级。这不是天方夜谭,有可能在3至5年内实现。
这种变化意味着什么?
这意味着供给将会发生根本性变化。我曾向开复老师开玩笑说,开复老师已经很有钱了,但他不会找一个写了100万行代码的程序员作为秘书为其服务。但如果说差了三个量级,为什么不呢?ROI绝对是能够算过来的。
这还意味着什么?
大模型是技术核心、产业化基础。大模型成本从边际成本转向固定成本。正如陆奇博士所言,任何对社会和产业产生重大影响的改变,都与结构性的改变有关。这种结构性变化往往表现为大规模成本从边际成本转变为固定成本。
02-AI Agent与新质生产力
就像陆奇博士说的,未来系统开发的范式有三种:信息系统、模型系统和行动系统。信息系统(subsystem of information),是感知系统,从环境当中获得信息;模型系统(subsystem of model)是知识系统,将数据转化为知识,并对信息进行表达、推理和规划;行动系统(subsystem of action),与真实环境交互,具备任务拆解与实现能力。前两个系统分别对应如今耳熟能详的公司,比如微软、谷歌、IBM以及OpenAI等。
基于对于智能终极的理解与判断,澜码科技要做的是行动系统(subsystem of action)。该系统类似于人体的神经中枢,主司行动。我们希望像神经中枢一样架起从大脑到解决实际世界问题的通道,跟真实世界环境发生交互。
作为连接器的AI Agent是大模型应用中最容易落地的场景。如果说以往的RPA专注于人与系统间操作流程的自动化,那么在今日,得益于大语言模型的发展,系统已经拥有了基础智能、语言理解和推理能力。因此,AI Agent不仅能够在管理者与基础员工、专家与基础员工之间,甚至在员工间扮演重要的桥梁角色。借助增强的算力,AI Agent可以实现生产力的快速复制。例如,配备了30块显卡的AI Agent不再受限于一天24小时的时间约束,而是能达到720小时的效能,显著提高效率。因此,AI Agent是一个很好的连接器,可有效填充企业数字化转型时所面临的人和系统之间的GAP,从而使得整个企业的数字化系统变得更加智能,能够发挥出新质生产力的作用。
澜码对于Agent有自己的理解和实践。
从人机协同模式来看,Agent可分为初级、中级和高级形态。
-
初级形态,AI完成整个业务执行过程中某一项特定的任务,如人脸识别,OCR,对AI准确度要求很高(要在95%以上);
-
中级形态,微软提出copilot模式,AI可以作为人的辅助工具,在若干个场景中可以通过对话式的方式完成一些任务的初稿,最后还是通过人类来完成最终的作业;
-
高级形态,人类设定目标,Agent自己识别意图,规划实现步骤,自主地完成相应的工作,可以有一定的容错率,但只要比月薪8000元的员工(泛指一线城市月薪8000元的初级新手员工)强就可以。
从Agent构建角度来看,Agent分为四大模块:配置模块、记忆模块、规划模块、执行模块。类比人脑,最难的是记忆模块。记忆模块也是大模型所欠缺的能力。规划模块,顾名思义,Agent能够计划安排,依序确定先后步骤。执行模块则与规划密切相关。执行模块的职责在于将规划与物理世界连接,例如通过调用API、运用RPA或爬虫技术来实施这些计划。在执行过程中可能会遇到困难,例如代码编译失败或报错,又或者尝试获取物联网设备的温度数据,出现异常值(如显示-100度),我们需要判断错误原因。
从技术架构的角度考虑,随着图形用户界面(GUI)向对话式用户界面( Conversational User Interface)转变,未来智能体的构建范式将与当前的软件架构有所不同。现代软件设计主要基于输入输出的电路式架构,而智能体的构建则是基于SPQA模式。其中,“State+Policy”指的是描述事物状态及状态转换过程中所需遵循的策略,这要求有自己的领域模型,并且对精确性有所要求。“Question+Action”则负责与大语言模型的交互,包括任务拆解和最终调用API以执行任务。
目前许多AI系统过分依赖大语言模型作为其核心组件,将其用于规划和记忆等多个功能。这种做法是有问题的,因为大语言模型在训练时,主要学习的是关于世界的“为什么”和“是什么”的知识,而在“如何做”方面的知识较少。因此,结合领域特定的模型,或者一个更高级的“世界模型”,来处理特定任务,如工资计算等,有其现实的合理性。这些任务可能不完全包含在大语言模型中。SPQA架构既能够发挥大语言模型在理解和互动方面的作用,又能够弥补其短板,通过更具体的模块来处理特定问题和执行具体任务。
2023年是大模型的元年,2024年是 AI Agent的元年。
我相信这些大模型的公司,不管是融了100亿美金的Open AI,还是国内那些估值200亿的大模型公司,实际上都有商业化落地的迫切需求。我们可以想象,各行各业在大模型上投入的真金白金,是必须要把大模型在实际的业务场景中使用起来的。而澜码的实践经验让我确信AI Agent可以助力大语言模型的落地。
随着越来越多AI Agent的涌现,从单个Agent到多个Agent的团队合作,再到赋能整个组织转变为AI原生模式,我相信,在未来无论是澜码还是其他行业,都将在AI Agent的赋能下成为新的生产力。我们坚信,通过AI,将能够激发出企业乃至整个中国数字经济的新质生产力。
但很多人不这么认为。
今天,大部分人依旧将其视为类似“iPhone时刻”的重大事件,或者认为它是一场与过往互联网革命相媲美的变革。
我是一个连续创业者。澜码科技是我第三次创业。在我第三次创业的时候,我要判断这一技术趋势是什么量级的,以便采取相对应的策略。这种趋势到底属于三年、十年、五十年,还是五百年级别的变革?这直接决定了我们需要完全不同的应对模式,以及我们所参考学习的历史范畴。
与其他人相比,我对它的评价可能高一些。在我看来,它处于百年工业革命与五百年科学发现时代之间。可以类比于蒸汽机的出现,当时蒸汽机的出现使得工厂中的大部分体力劳动被机器替代,而现在智力劳动也在很大程度上被影响。
03-“全中国没有人比我们更适合做Agent”
在创办澜码之前,周健有过两段创业公司经历。第一段是AI 1.0的时代明星创业企业——CV四小龙的依图科技。他是依图的第十号员工,完整经历了AI1.0 时代技术发展和商业化落地的整个过程。2019 年时,又加入了弘玑Cyclone——一家做RPA的公司,聚焦于从自动化的视角提升生产效率。通过这两家公司的历练,周健做好了做Agent的技术、商业化的双重准备。通过排除法,他试图证明其他潜在进入者以及进入者会因这样或者那样的原因导致他们左右掣肘,无法形成对于澜码科技真正意义上的威胁。
依图、弘玑Cyclone两次创业经历告诉我定位极其重要。你挑的方向,全中国能做这件事情的人不超过一只手,你是其中之一且能排到TOP3。这样的话,成功的概率才会大,否则那就不是你的事儿,是其他人的事儿。大模型不是我的事儿。
但大语言模型的自动化平台,是我的事。
为什么?
之前的经历,让我做好了技术、商业化两个方面的准备。
技术方面,在依图,我完整地经历了一次人脸识别从不能用到能用的技术变革。
期间,涉及到传统CV技术、深度学习等技术怎么样选择并落地到有一定容错率的合适场景中。
我经常会问澜码CTO:目前大语言模型到了人脸识别的哪一年?2015年还是2016年?为什么这么问?2015年,人脸识别只能做成熟男性的人证比对。当时的人脸识别的前面需要加很多形容词,以标识出适用范围。今天,大语言模型也是如此。我今天可以在场景中找出大语言模型匹配到人脸识别产业化的阶段,找出类似的属性——哪些属性是当前大语言模型进步最快的方面,并进行应用预判。
商业化方面,我的经验主要来自弘玑Cyclone。我做过能源、汽车、零售、电商、HR、财务、供应链、营销等不同行业中的成百上千个公司。我很喜欢买书。在弘玑Cyclone期间,我有一整面墙的书,其中有大量的行业书籍。我边干边学,沉淀了很多经验与知识。
总得来看,我有比较强的工程化能力。我认为,所有的东西都值得重做一遍,这不是一句口号,本质是要对过去的技术有所理解,才能使其与场景更好地结合在一起。我做过搜索、广告等,基本上做过所有核心技术。对我来说,实现比较容易。而且对于自动化、自动化未来发展我也有很多超前思考。
基于大语言模型的自动化平台,全中国没有人能够比我的团队更适合去做的了。
有人肯定会生出疑问:为什么RPA公司、互联网大厂、大模型公司不是更适合做Agent的团队?为什么他们做不出挑战世界第一的产品?
成熟的RPA公司已经到了拼现金流的阶段,对收入的要求更高。它们需要考虑ROI,投资新生事物也需要顾忌风险。
澜码科技是一家新成立的公司,更加耐受风险,但澜码科技也冒了风险。澜码科技有70多人,其中产研50多人,做一个原来不存在的产品;一年下来,做了数十个标杆客户。与人员规模较大、阶段靠后的公司相比,它们在Agent和大语言模型应用落地上的投资规模、投入的资源或达不到澜码科技的投入程度。
上市公司设立Agent团队来做Agent,也会因为内部掣肘导致其难以与我们竞争。
从认知层面来讲,我接触过很多上市公司,发现:(1)认知程度不一,几乎很难达成共识。它们内部对于Agent的笃定程度不及澜码科技,而且怎么把已有的产品跟大模型结合在一起,他们的认知、思路也不一样。
从内部竞争来讲,上市公司内部有历史包袱。一个新生事物很容易被挑战:权限问题怎么办、成本问题怎么办、能否卖得出去。再加上做Agent需要耗费大量资源。要花钱买算力、买数据,能看得到的收入是有限的,人效因此较低。这就是“创新者的窘境”。
所有的上市公司有那么多的沉淀。这些沉淀让上市公司不会太好,也不会太差,但没有办法做出挑战世界第一的东西。他们有可能做到防御,但无法攻击。他们被既有的沉淀束缚在那里。
互联网大厂则有可能做出挑战世界第一的产品。
但是大厂成本高,导致其只能接“总行”项目。以银行为例,总行斥资1000万元买一个千亿级的模型,势必提出许多个性化服务、额外的多场景服务的要求;大厂不能拒绝,否则难以收款。大厂的成本结构、交付方式导致其难以做100万元的项目。但澜码可以。大厂与创业公司有明显的客群差异。
《创新者窘境》这本书告诉我们,越颠覆性的创新,最后越会发生。大厂并不缺乏远见,但往往因为管理规律导致其做不了一些事情。这本书还列举了硬盘的例子。硬盘直径从14英寸到8英寸、5.25英寸直至3.5英寸,然后又从2.5英寸到1.8英寸,再到1英寸和0.85英寸。技术规格的每一次改变,都会死掉一批厂商,新出现一批新厂商。为什么?因为use case改变了。最初,硬盘可能安装在大型机上,后面陆续安装到中型机、小型机上。但后者的需求量更大、质量要求没那么高。当然,一开始中小型机的市场很小,所以 existing的人看不到,或者说看到了,也不愿意做。看到机会的人从边缘市场开始做起,并赚取利润收益,变得越来越强,然后替代掉原来的case。在PC时代,追求的是运算速度和性能,因而英特尔X86指令和架构几乎垄断了整个电脑芯片市场。而到了移动时代,更注重运算能力与功耗的平衡,采用低功耗、高性能的RISC架构的Arm快速崛起,Arm CPU也在智能手机革命中发挥了关键作用。而英伟达则基于算力需求,通过GPU异军突起。规律便是如此,existing的企业被规律拖住,新生企业得以出来。
大模型公司做Agent并无特殊优势。
大模型公司做的事情是整理数据集,搭出算力集群,而后调试,最后用Transformer架构训练出模型,它花钱最多的地方是在算力、数据以及平衡上(解决对齐问题)。它可以做Agent,但需要从0做起。
它没有人才优势,因为大模型与Agent有着不同的人才结构要求。在做Agent这件事上,大模型公司唯一的优势是资金优势。它可以一口气招300个人专职做Agent,但这300人不可能马上就能够运转起来,因为每个人的角色、工种、任务不同,难以奔着同一目标齐心协力。即便挑对了30个核心成员,他们还需要互相磨合、配合,这都需要时间,难以立刻起效。但资本优势,能够让做Agent的大模型公司追赶得更快一些。
但澜码科技也能够融资,大家比拼的是资本利用效率。相对于做Agent的大模型公司,除了资本问题,其他地方全是优势。但我们做好了面对面打仗的准备,成功的公司无不如此。
Agent是一个未来赛道。无须赘述。这个赛道肯定挤满创业者。未来,有大几十家做AI Agent的公司很正常。这个赛道肯定会愈发细分,会细分为电商、金融、供应链、零售等多个不同的赛道。
04-独特的、非主流的发展路径
由于微软提前几个月接触GPT-4并宣称即将推出集成GPT-4的Office Copilot,周健误以为该产品即将上市。微软撰写的关于测试GPT-4的详细论文进一步强化了周健的这种误解。在这一前提下,2023年上半年,周健开始带领澜码团队大量接触许多行业的头部公司,为他们做概念验证(PoC)。通过PoC,澜码科技摸清了GPT-4的能力边界、探索了许多场景。周健将PoC比作“挖井”。上半年,他只挖井,不讲求所挖之井是富油井还是贫油井。下半年,标杆项目主动找上门来,澜码科技转变思路,不但要挖井,还要挖出富油井来。在这个过程中,周健和澜码科技琢磨起产品的通用与易用,并开始为未来的标准化做准备。
(1)非典型路径
在上半年概念验证(PoC)阶段,金山办公——澜码科技的第一个标杆客户,让我们做的是通过文本生成行动。
一开始,我们对于大语言模型抱有幻想,认为大语言模型无所不能,并将其作为中枢,依赖大模型的推理、分解等能力开始生成行动。做完金山办公项目,我们发现大模型的能力不达预期。其实,针对大语言模型,我们抽象过三大核心能力:文本生成行动(Text to Action)、文档问答(DOC to Q&A)以及数据分析(Text to SQL)。我本来以为外部竞争对手能够很快推出基于后两个能力的相关产品,便开始做文本生成行动(Text to Action)。我们做了两个月的Text to Action之后,发现竞争对手还没有基于前两种能力做出像样的产品。澜码科技开始面向客户做基于三种核心能力的产品。
GPT-4出来之后,我至少见了十多位上市公司的董事长、CEO,做了近20个PoC,打磨出我们的能力。我当时充满自信地告诉销售:让他摆好场地,就在他们主场打,踢他个7:0,你们要相信产研有这个实力。也确实如此。在别人的主场,除了一两场打平,绝大部分都是7:0大胜,但PoC经验并不意味着能够走通商业化。
也是无心插柳,上半年比较快的在早期就把这个能力摸出来了。我们可能是极少数团队在那个阶段就已经摸过那么多场景的。在内部,我逼着团队做出一个实验平台,使我们的能力自动化。其中包括数据集的整理、同步运行、管理不同的令牌和账户,以及获取结果和展示中间过程。这些工作为Agent项目奠定了基础。
大概六、七月份的时候,我们开始琢磨商业化、琢磨如何打出“富油井”。
我们接触了一些央国企、零售企业。他们更关心的是用AIGC生成营销文案,而不是内部的降本增效。七、八月份,我们向银行、保险、券商、招聘等开始做私有化部署,也即把三大核心能力从GPT身上复刻下来,变成私有化部署模型,端到端搞定这个事情。也是从这个时间点开始,我们试图把这些能力变成产品能力,开始解决商业化过程中的问题。截止到七、八月,产品形态也从PoC变成跑得通的demo,再进化为企业级产品。
现在来看,借力于拥有全球级曝光度的大模型——这种量级的技术变革之前从未出现过,澜码科技走上了另外一条产品之路。
但它是一条非典型路径。正常路径是这样的——首先,你要有一个思路,基于该思路打造一个产品;其次,找到一个标杆客户,让客户push它,你再帮客户改,让客户用起来。
(2)“富油井”方法论——三“定”
定岗、定场景、定标杆是澜码科技打出“富油井”的三个步骤。
首先确定岗位,我们遵循两个原则:人多、数字化程度比较高。人多能够算出ROI。
全中国从事导购的人有2000万、保险代理1000万、程序员770万。这些都是大岗位。财务、HR也是大岗位。全国猎头也有40万人。
就技能点而言,基层业务单元,在不同行业虽有差别,但大体是类似的。像导购这一岗位,不同地域有所不同,卖衣服还是卖饮料也有一定的区别,但在大多数情况下是相似的。
这些岗位还需要有一个隐藏的前提,是数字化程度比较高。因为数字化是智能化的前提。基本上这些岗位需要处理四项基本任务:数据、文档、应用、流程。
其次,定场景。
我们在一番试错之后,找到了能够端到端做通的有效场景。
以HR为例,澜码科技最初与CGL合作。CGL是一家高端猎头公司,专门做年薪80万以上的猎聘。一经接触,我们发现猎头手中的简历千奇百怪、知识多且复杂。后来,我们退而求其次,专做HR岗位。因为CGL挖的人全部来自阿里巴巴、华为等大厂,所以CGL比较关注华为、阿里巴巴的组织结构。我们做起来,也发现复杂、很难搞定。
CGL之后,我们几经寻找,发现软件外包公司里有一个重复性工作岗位——Java工程师。这个岗位刚需且复制性强。就外包行业平均水平而言,招一个Java工程师的成本是5000-10000元不等,我下定决心抓住并做通这个岗位。后来,真地做通了。
第三,定标杆。
仍以HR为例,基于HR这个岗位,我们挑选出一个标杆客户,与他一起打造,跑完这个流程。
这个标杆客户需要满足两个条件中的一个:具有一定的信任基础;主动找我们,对于打造Agent这件事来说,具有一定的主观意愿。而且共建过程中,标杆客户需要整理知识、场景以及数据,包括投入显卡等IT硬件。
2023年下半年,我们一直在补产品的能力,将上半年积累的PoC沉淀为平台。这个过程,有三个关键词:通用性、易用性以及标准化。定标杆之后,有两道坎,一道坎叫做通用性,另一道坎叫易用性。例如,在完成财务报告后,不同行业如资产管理和银行业对报告的要求有所不同。这就提出了一个问题:如何实现跨行业的通用性?随后,需要解决如何提高易用性的挑战,即如何从最初只有NLP(自然语言处理)工程师才能完成的任务,变成Python工程师、甚至实习生也能够顺利完成的任务。这种逐步转变是市场和需求共同逼出来的。过程中,我们不仅要关注产品的完成情况,还要考虑如何进行抽象化处理,以及制定指导方针来简化流程,增强产品的易用性。
成功的案例和标杆客户是实现这一转变的关键。一旦产品交付,便可以积累数据、经验并在此基础上进行量化评估,如通过完成的表格数量、字段数量和解决的问题类型进行衡量。通过这样的量化,我们可以更好地规划项目的进程,提出改进建议,如提高效率或扩大项目规模。这种方法本质上是将市场需求和客户要求作为推动产品发展的外部力量,与澜码内部的目标和KPI结合,共同促进产品的完善和推广。
接下来,就是产品标准化。
我是从技能或者专家能力的复合性上去看标准化的。从这一角度来看,产品标准化的内涵丰富,首先体现在明确的客户群体。根据Gartner的理论或者跨越鸿沟的概念,任何一个细分的产品都旨在解决特定的问题,以便随着销售量的增加,销售过程变得越来越顺畅、易销售度逐步提升,因为客户之间会相互参考和推荐。以基金公司为例,当第一家公司采用产品时,可能需要一个样板和一定的磨合期。但做到第二家、第三家公司的时候,他们在相互咨询、参考的过程中,形成标准化的需求。产品标准化的前提是需求的标准化。如果需求没有标准化,产品也难以实现标准化。
需求标准化之后,需要考虑业务流程的标准化。可以通过用户访谈来实现。在某一品类中,如果没有交付足够的数量,就无法讨论后续的标准化。标准化意味着已经遇到并解决了所有潜在问题。总结来说,标准化不仅是一个理念或设计,还需要来自市场的真实反馈。通过不断的测试、客户反馈和市场适应,产品方能逐渐向标准化迈进。
(澜码科技打造的流水线“生产”Agent,包括技能中心、任务中心、世界模型。)
05-结尾:雾里行船
某种程度上,创业者都在自不量力地布置一个更大的局,以小博大,去赌成为百亿美金、千亿美金公司的零星可能。
这需要更多的资本、也面临更多的风险,比如外在不可抗力“灰犀牛”也好、内在人的欲望的不可抗,以及其他原因都会成为“拦路虎”。
在当前高度不确定的市场环境中,最让人忧虑的是所谓的“灰犀牛”事件,例如地缘政治等因素。
踩刹车是未来的挑战。目前,市场处于早期阶段、存在着巨大的空白,我们正经历着高速增长。但我们必须进行长远规划并在适当的时候,采取“踩刹车”的策略。如何在关键时刻“踩刹车”将是一个挑战。这个挑战是面向所有人的,既包括我,也包括澜码团队。(记者杨雪涵对本文亦有帮助。)