【科技观察】“AI Agent”数字员工时代已经来临了吗?

2025-01-08
1.jpg

blog.enterprisedna.co


科技观察

这是科睿研究院第314篇原创内容。

字数3956字,阅读全文大约需要10分钟。


2023年底,斯坦福大学推出了一款名为“小镇模拟游戏”的AI实验项目,在虚拟小镇中,25个AI角色展现出惊人的社交能力,自主交谈、建立关系、制定计划,仿佛拥有了自己的意识。这一成果让人们对AI Agent(智能体)充满期待,似乎具有自主意识和决策能力的AI助手即将成为现实。短短一年间,AI Agent概念在业界迅速升温,微软、Google等科技巨头纷纷入局,初创公司也竞相推出各式“Agent”产品。


在昨晚的全球消费电子展(CES)上,英伟达创始人黄仁勋发表演讲,描绘了一幅未来职场的全新图景。他指出,随着人工智能(AI)技术的不断进步与演变,众多公司将迎来一种全新的“数字员工”,即我们当下所熟知的数字智能体(AI Agent)。这些“数字员工”将具备强大的数据处理、分析与决策能力,能够高效地完成各类工作任务,为公司创造价值。


无独有偶,谷歌在其发布的AI白皮书中,也对AI Agent(智能体)给予了高度重视,并将其视为推动AI技术发展的重要力量。


展望2025年,数字员工(AI Agent)时代已经来临了吗?




2024年AI Agent竞争格局:从大模型价格战到智能体争夺战


2024年上半年,大模型领域的价格战如火如荼,各路玩家纷纷推出价格优惠策略,试图在激烈的市场竞争中占据一席之地。然而,下半年的风向突变,AI Agent的争夺战悄然拉开序幕。在海外市场,科技巨头们纷纷亮出自家的AI Agent实力,将其作为竞争的关键筹码。


10月,Anthropic推出了名为“Computer Use”的AI Agent系统,宣称能够“像人一样操作计算机”。这一特殊API赋予了开发者指导Claude完成各种计算机操作任务的能力,如观察屏幕内容、移动鼠标、点击按钮以及打字等。开发者只需将书面指令转换为具体的计算机指令,即可实现任务的自动化执行。


2.jpg

Anthropic开发人员演示Computer use


微软也不甘示弱,于同月宣布了一项重要计划:为Dynamics 365业务应用平台开发部署10款AI Agent。这些智能体将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照计划,这些AI Agent将在年底开放公测,并持续测试至2025年初。


3.jpg

微软CEO展示Copilot与AI堆栈


谷歌虽起步稍晚,但在年底也迎头赶上。12月,谷歌发布了全新多模态大模型Gemini 2.0,并在此基础上内置了三款AI Agent:“通用大模型助手”Project Astra、“浏览器助手”Project Mariner和“编程助手”Jules。其中,“编程助手”Jules能够作为自主代理直接集成到GitHub的工作流程系统中,分析复杂代码库,跨多个文件实施修复,并准备详细的拉取请求,无需持续的人工监督。


4.jpg

玩家与谷歌AI Agent互动


与此同时,OpenAI在Agent领域的布局相对缓慢。7月,OpenAI更新了AGI路线图,指出自己处于第一层,接近达到第二层,而第三层才是AI Agent。不过,OpenAI预计将于2025年1月推出全新AI Agent——Operator,该系统能够自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等,有望在Computer Use的基础上实现大幅度创新和应用简化。


在国内市场,百度、阿里、腾讯、智谱等大厂也纷纷加入AI Agent的赛道。在B端,百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心等为用户提供了智能体创建平台,并开始在其AI智能助手界面中添加AI Agent入口。在C端,支付宝旗下AI App支小宝、智谱AutoGLM等产品点燃了消费者用户的热情。智谱AutoGLM能够浏览并理解屏幕信息,做出任务规划,实现手机上常用操作的模拟执行,只需接收简单的文字/语音指令,即可模拟人类操作手机完成各种任务。


然而,在这股AI Agent热潮背后,也隐藏着一些冷静的现实。目前,用户能够真正依赖的AI Agent其实寥寥无几。许多所谓的AI Agent,更像是具备自然语言理解能力的对话机器人,缺乏真正的自主意识和决策能力。AI Agent依赖的LLM“黑盒”存在不可预测性,而工作流程中多个AI步骤的连接会加剧这些问题,尤其是对于需要精确输出的任务,用户难以确保Agent能否始终提供准确、符合上下文的响应。


根据LangChain发布的State of AI Agents报告,性能质量是受访者首要关注点,远超成本和安全等因素。生产中采用AI Agents的主要挑战包括开发人员难以向团队和利益相关者解释AI Agent的功能和行为,以及基座LLMs在Tool use方面速度不快且成本高。WebArena排行榜的基准测试结果显示,即便是表现最好的模型SteP,成功率也只有35.8%,而GPT-4的成功率仅达到14.9%。


从技术层面来看,AI Agent的突破取决于LLM、记忆机制、规划能力等各项技术的进步。LLM方面,System 1/2 thinking技术的应用提升了AI模型的推理能力;记忆机制方面,Agentic RAG和Mem0项目为AI Agent提供了更加智能和个性化的记忆功能;规划能力方面,多计划选择、外部模块辅助规划等方法的提出,进一步增强了AI Agent的规划能力。


未来,AI Agent的进化将面临诸多挑战,如实现低延迟、带视觉理解的实时反馈,构建个性化的记忆系统,以及在虚拟与物理环境都具备鲁棒的执行能力等。只有当AI Agent从“工具”转变为“工具使用者”时,真正的Killer Agent才会出现,为各行业带来颠覆性的变革。



大模型遇冷,AI Agent当立?


有人断言,大模型的热潮已近尾声,未来的竞争将聚焦于AI Agent。2024年,曾立志成为“中国OpenAI”的大模型公司纷纷食言,以“六小虎”智谱AI、零一万物、百川智能、MiniMax、月之暗面和阶跃星辰为例,多数企业开始调整业务,甚至缩减人员。


大厂依靠雄厚实力,还能持续投入研发;但众多初创企业不得不面对现实,将目光转向大模型应用层面,寻求成本更低、回报更快的发展路径。与此同时,资本也敏锐地将关注点投向AI应用层。



5.jpg

eluminoustechnologies.com


数据显示,2024年前9个月,国内AI领域共发生317起融资案例,月均融资金额42亿元,仅为去年的两成左右。其中,融资额最高的5家公司拿走了超212亿元,占今年国内AI融资总额的63%。大模型和AI Agent项目最受投资人青睐,分别发生19起和18起融资案。AI视频生成占10%,剩余50%的投资案例则分散在19个不同方向。


在大模型“赢家通吃”的格局下,AI Agent成为AI初创公司的理想选择,也是资本的笃定投资对象。YC合伙人、资深投资人Jared认为,垂直领域AI Agent作为一种新兴B2B软件,有望催生出市值超3000亿美元的科技巨头,其市场规模可能比SaaS大10倍。


投资人看好的AI Agent项目,以AI编程神器Cursor最为出圈。代码是LLMs最容易掌握的能力,其训练数据主要来自GitHub上的开源代码,大部分为“有效数据”。Cursor从最初的提供建议代码,升级为直接帮助用户创造代码文件并准备好运行环境,只需点击启动按钮即可运行代码。即便2024年尚未出现真正的Killer Agent,但在细分领域,Agent已遍地开花。


YC团队分享的数据显示,目前获得投资的Agent项目多在toB领域。Outset将AI Agent应用于问卷调查和分析,替代传统人工服务;Mtic利用AI Agent进行软件质量测试,完全取代传统QA测试团队;Sweet Spot用AI Agent自动搜索、填写政府合同标书;Powerhelp的AI Agent自动完成客户支持工作,提供个性化解决方案;Priora和Nico则用AI Agent进行技术筛选和初步招聘。


可以说,通往AGI的道路是一段旅程,而非目的地。Agent式工作流让我们在这漫长旅程中向前迈进一小步。虽然暂时无法拥有“全能Agent”,但多个垂直领域的专业Agent正逐渐出现,让我们不断获得近似拥有Jarvis的体验。



2025,AI Agent的商用爆发元年?


近日,前OpenAI联创、SSI创始人Ilya Sutskever宣布,预训练时代将彻底终结。随着互联网数据的日益枯竭,AI的发展将从依赖海量数据转向在现有数据中挖掘新价值。Sutskever以人类大脑的发展为例,指出大脑体积停止生长后,智慧仍在进步。


未来,AI的发展将聚焦于在现有LLM基础上构建AI Agent和工具。他预测,智能体(Agentic)、合成数据和推理时计算将成为新的突破点,其中,能够自主完成任务的AI Agent是未来的发展方向。值得注意的是,Sutskever与吴恩达一样,用“形容词”Agentic描述智能体。线性资本Bolt认为,可以用少量、适量、高度的Agentic能力来描述Agent应用的能力。例如,Router类系统具有少量Agentic能力,State Machine类系统具有相当的Agentic能力,而Autonomous类系统具备完全的Agentic能力。厂商在强调产品的Agent属性前,应先回答“How agentic my system is?”


6.jpg

blog.abacus.ai


当前,专业AI Agent在一些领域仍不够成熟,面临输出不精确、性能不佳、用户不信任等问题。但短期内,商业化最成功的AI Agent不一定是“Agentic化”最高的产品,而是能够平衡性能、可靠性以及用户信任的产品。专业AI Agent的发展道路可能是先利用AI增强现有工具,而非提供广泛的全自主独立服务。通过人机协同,让人类参与监督和处理边缘案例,结合严格约束的LLMs、良好的评估数据、人机协同监督和传统工程方法,在自动化等复杂任务方面实现可靠且良好的效果。例如,红杉投资组合中的Rocks公司,其Agent将人类员工融入其中,最初开发了自动撰写、发送电子邮件的技术,但发现加入人类销售后,表现提升了333倍,于是移除了自动发送功能。


展望2025年,更多垂直领域将跑出AI Agent“种子选手”。红杉合伙人Konstantine Buhler预测,医疗和教育等“高服务成本”领域将成为AI技术的下一个重要战场。


LangChain报告显示,人们希望将耗时任务交给AI Agent,充当“知识过滤器”“生产力加速器”和“客服神助攻”。AI Agent部署将由“单”变“多”,从单一智能体发展到“群体协作”模式,出现更多Multi-agent模式,多个Agent扮演不同角色合作完成任务。同时,随着大模型对图像和视频信息的处理能力提升,将出现更为综合性的多模态交互,AI产品整体水平显著提升。


量子位智库观察认为,从2025年开始,AI Agent将广泛投入使用,带来独属于AI 2.0时代的交互方式、产品形态和商业模式。


正如计算机科学家Andrej Karpathy所言,AI Agent代表着一个疯狂的未来,而Agent一词源于拉丁语的Agere,意思是“to do (去做)”。抓住这个疯狂的未来,你可能只需要“Agent”。




Reference List


https://www.wsj.com/articles/how-are-companies-using-ai-agents-heres-a-look-at-five-early-users-of-the-bots-26f87845

https://www.wsj.com/tech/ai/ai-agents-autonomous-bots-human-tasks-913c0ce5?mod=article_inline&mod=article_inline

https://eluminoustechnologies.com/blog/ai-agents/

https://www.barrons.com/articles/nvidia-stock-ceo-ai-agents-8c20ddfb



【本文中包含的图片均来源于网络,仅用于信息传播和新闻报道目的。我们尊重并保护所有版权拥有者的权利。若有任何版权问题,或版权拥有者不希望图片被使用,请与我们联系,我们将在收到通知后立即处理并删除相关图片。】


 往期推荐 

全球人工智能竞赛:美国创新将领先还是落后?

C919客机的国际征程:打破垄断还有多远?

Nature:人工智能如何解密古代文献——并可能改写历史

潜在的变革:2025年人工智能的12个新预测