OpenAI、谷歌接连发布新模型,大模型底座能力升级为AI应用生态带来新的变量与机遇。身处大模型应用落地的广阔蓝海,AI 创业公司的机会在哪?又该如何选择赛道与大厂差异化竞争?
5月16日,腾讯科技硅谷连线澜码科技创始人兼CEO周健、AUGMENT研究科学家董宣毅等创业者,从OpenAI和谷歌最新发布会聊起,共同探讨大模型的发展与应用中的关键问题。
以下为澜码科技创始人兼CEO周健的观点分享,我们做了不改变原意的整理和编辑,以飨读者。
AI实现“让机器去适应人”
不能只靠通用大模型
问题1:看完OpenAI和谷歌发布会后,有哪些让你印象深刻技术突破点?
周健:GPT-4o 的惊喜之处在于多模态能力和实时交互能力。OpenAI在发布会上对GPT-4o进行了实时展示,GPT-4o 能感知符号、情绪甚至感情,就像电影《Her》一样,打开了很多实时交互的可能性。但从大模型行业从业者角度讲,我更希望看到逻辑推理能力的提升。GPT-4o逻辑推理能力有所缺乏,没有达到我原先设想的提升,所以还是有些失望的。
谷歌发布会让我印象比较深刻的,是将模型上下文窗口增加到200万个token。我们一直在讲智能摩尔定律,每1~2年大语言模型的模型水平就会提升一到两代,模型训练成本每18个月降低至原来的四分之一,推理成本每18个月降低至原来的十分之一。从这个角度来看,未来大模型成本降低,可以更好地应用在千行百业,这一点让我感受更为深刻。
问题2:OpenAI和谷歌都在发力多模态大模型,从创业公司角度来说,你如何看待这种新趋势?
周健:OpenAI这次发布会上展示了人机交互会发生怎样的变化,让我们看到实时交互才是未来的方向。我常讲“过去是人适应机器,现在是机器适应人”,在GPT-4o展示之前,由于没看过真的交互产品,很难想象或者说确信度并不太高,这次演示则直观展现出“机器可以怎样适应人”,也为从业者指了一个方向。
另一方面,使用场景增加会丰富信息源,意味着可收集的信息会大幅增加。以澜码为例,我们的客户群体里有猎头公司、零售公司,他们的员工有大量的线下互动,如何有效地收集这些信息成为了一个问题。如果仅仅依赖于人工写总结,那么这些信息其实并没有得到充分的数字化,但多模态展现了一种新的可能性——未来,员工在进行重要的线下沟通时,AI Pin等类似产品可以作为全能助手帮助员工回答问题,实现人机协同,甚至人机融合,这也打开了从业者的想象空间。
问题3:如何看待多模态的技术路线?
周健:我更偏向从仿生学角度思考这个问题。具体来说,大模型以文本为主体的前提假设是文字是内生的,但文字并不是人类的基础,只是其中一部分,或者说一大部分。从爬行动物开始,人类经过漫长的进化过程才到今天的状态,人类信息处理、情绪感知系统等都经过漫长进化才具备了很高的处理效率。
我们当前思考AI处理图像时,往往以固定分辨率(如1024x768)来接收数据,但真实生物或碳基生命往往有更为优化的控制能力,即有选择性地关注或处理某些信息。所以,未来或许可以开发类似的“仿真器”,使AI可以分层地压缩、选择和处理数据,我个人是期待类似这样的进步。
问题4:大模型在文本层面其实还有可优化的空间,OpenAI或谷歌等科技公司现在将精力转移到多模态,会不利于大模型未来发展吗?
周健:某种程度上,大模型在文本层面的问题还是数据缺失。澜码主要做ToB的私有化部署,在实际的业务场景中,我们发现最为重要的是专家知识和经验。
因为在实际业务场景中,无论是编写信贷尽调报告,还是简历推荐等,专家处理文本都是有重点的。举个例子,我们帮一家零售企业落地某个场景应用时,有这么一个场景:用户提问“我朋友过世了,能不能请丧葬假?”在这种情况下,重点是“丧葬假”,而不是“朋友”。如果只用RAG来处理,重点会出现偏离,处理的结果就会大相径庭。
另外,相比于初级和中级员工,专家的知识更为全面且深入。用专家知识赋能Agent,再辅助初级、中级员工,就会提升员工工作效果。
所以,专家知识中包含了专家的深入意见和标注,这对于AI的学习来说是十分宝贵和有价值的。但是,这个问题不应该由大模型公司去解决。大模型公司应该解决基础的、通用性问题,通用大模型就像学校做通识教育,职业教育的责任应该交予公司。
此外,专家知识存在于私域而非公域。当我们进入一个复杂的领域时,会发现公私域之间是有边界的,在处理特定问题时,还是需要依赖私域数据中的专家知识。
更深入地讲,专家知识还需要更新。今天基础大模型还有一个很重要的能力需要被提升,就是如何更新它的记忆。但是,微调、预训练都是很“重”的,在实际场景中,往往需要对专家知识更新。比如,在运维场景中,系统升级后,如何使智能体迅速更新知识,去学习,这个问题还没有被完全解决掉。
所以说,“让机器去适应人”,不是全由基础大模型完成,很多事情是可以由创业公司或者细分领域去做。就像通用搜索其实很难做好,因为最强的搜索是“人肉搜索”,我有问题肯定找最合适的人,因为他可以给我最精确的答案,而不是通用地搜索文本,这是一个道理。
问题5:越来越多AI Native创业公司出现,也有很多移动互联网公司希望利用AI优化原有产品。随着AI生态建立,未来是否会出现越来越多地AI创业公司?
周健: 就像电力革命一样,生成式AI会对应用生态带来极大变革。AI出现后,相当于在X、Y轴后,又多了一个Z轴,很多应用需要按照AI原生方式重新组织。以企业服务为例,过去企业管理需要依赖邮箱等异步工具,现在乃至未来,AI Agent会充当企业内部流程的不同角色,甚至替代员工角色。一些企业软件公司可能很不适应,但在我看来,这是技术路线的本身属性,未来企业需要人和Agent协同工作,这个苗头正在出现。
问题6:经常有人说,OpenAI或谷歌开一个发布会,一批创业公司就更艰难了。AI创业的浪潮下,创业公司的机会在哪?如何选择创业赛道?
周健:在技术变革的时间点上,创业公司最好不要站在大厂的“延长线”上。哈佛商学院的克莱顿·克里斯坦森教授提出过一个经典概念叫“创新者的窘境”,创业者应该走“农村包围城市”路线,即一开始待在毛利率低的地方。因为大厂会追求毛利率和高客单价,而相比于大厂,创业公司的优势就是快,可以集全公司之力进行迭代,解决客户需求。
另外,创业者的机会在于寻找现在不清晰、但有潜力变成“Something Big”的方向。如果你有自己的壁垒,像澜码强调私域数据或专家知识,反而不是大厂所擅长的。
问题7:从移动互联网早期经验来看,最早的创业公司并不一定是活的最好或活到最后的。反而是随着移动互联网发展逐渐稳定,即iphone4或iPhone5时期的公司更为成功。我们现在是否到了基础大模型的终极形态?在这个时间点去创业,成功几率会更大一些吗?
周健:我同意“创业者需要早点下场”这个观点。第一,现在AI已经发展起来了,就像20年前房价快要涨起来的时刻,大家应该尽快买房,而不是再等等,可能再等等就上不了车了。今天大家都在讲,人不是被AI打败,而是被会用AI的人打败。
第二点可能会更激进一些。从硅基智能角度来看,与移动互联网不同,AI发展不太可能停止。目前我们还是更多以“人”的标准来衡量大模型,但硅基智能本身有其独特性,super intelligence不一定按照人的模板设计和运作,它还会继续演进。
我以前喜欢看科幻小说,有个概念叫Gaia(盖娅),意思是整个地球就像一个超级智能,但从人类来看,由于延迟性很高,我们的沟通是异步的。对于硅基智能来说,虽然光速传播也需要大约半秒才能绕地球一圈,但它的确有能力“看到”全球各地的物联网设备下人类的对话,并在这种形态下,进行学习、推理和输出。
这其实是很难想象的。所以,我个人认为未来AI还会持续不断地迭代和进化。有些人认为数据快要用完了,我不这么认为,我认为仍然有大量的数据可供利用和开发,有大量的数据还没有被收集起来。随着数据增多,AI的能力会继续强化,越来越智能。
举个极端的例子,人类个体从出生到死亡的数据,还没有被完整记录和整理过。我们现在的数据都是片段,而非整体。没有整体的数据,AI就不能了解这个人职业生涯、心理发展等等。随着未来更多Agent出现,这些数据会越来越多的被收集下来。
问题8:未来是否会出现端侧大模型?这会对手机等硬件形态产生怎样的影响?
周健:GPT给人机交互带来的一个很大的改变,就是机器开始适应人,而不是人适应机器。我们手机上的APP一定会越来越少,只不过因为产业本身的因素,目前革新速度还是有点慢。当然,每次革命不是将原先的东西全部扔掉,还是需要去慢慢改变的。
今天我们一直在讲数字孪生,但很多做法其实是有点“反人性”的,比如我们在多个应用之间拷贝信息、数据,或者让员工适应不同的软件系统,对员工而言也是很大的负担。所以在端侧能做的,是对个体习惯、偏好的沉淀。相当于在人与上一代系统之间有一个智能体,帮助我们操作、收集程序,处理在老一代系统中的数据和信息。
在形态改变后,可能会出现新的入口或超级APP的机会。因此端侧一定是兵家必争地。一方面是刚才提到的,端侧作为一个入口,有很大的流量。另一方面,人是由俭入奢易、由奢入简难,我听说一些大模型公司已经在讨论如何实现端侧联动,让用户有一致的体验。
问题9:未来五年,在AI领域最大的期待是什么?
周健:我们一直在讲,AGI是一个中等智能的人,知道自己能做什么、不能做什么,我期待GPT-5发布后,能有类似的基础大模型存在,推动AI原生应用发展。
现在大量应用没有落地的主要原因是企业还不适应AI应用的开发方式,有了一个类似的基础大模型,可能会带来新的软件开发范式,会大大降低AI原生应用开发难度,AI Native应用才能百花齐放。我非常期待看到被AI Agent充斥的世界。