3月6日凌晨,AI创业公司Monica.im发布了通用型产品Manus,产品名源自拉丁语“手”,象征着将AI从理论思维延伸至实际操作。Monica.im强调,Manus的设计目标是突破传统对话式AI的局限,通过“自主执行”能力,它不仅能够理解用户需求(听懂复杂指令进行推理),更能独自完成从任务规划到实际操作的全过程(顺滑对接完成该任务的各个环节,将最终结果给到用户),从创建网站、规划旅行到分析股票,Manus都能很好完成,呈现出较好的通用性和执行力。
随后在众多科技博主的评测下,这款被冠上了“全球首款通用AI Agent(AI智能体)”的产品迅速小范围出圈,引发市场关注。
AI Agent,又被称作AI智能体,即一种能通过对环境的感知,进行思考决策并执行的智能体。与GPT等应用相比,AI Agent在思考与行动方式上和人类很相似,就像一个能感知、能理解、能行动的AI助手。
Agent概念,并不是当今的产物,而是人工智能不断进化的结果。经过几年的淬炼,用户对AI的期待早已超越简单问答,他们恰就需要这样一个能主动思考的助手,这种供需错位给了AI Agent爆发的机会。
Manus创始人肖弘在Manus发布的前几个小时,在即刻平台上发文“高潮来临”。很难现在就判定Manus的诞生就是AGI的里程碑,但它很有可能将让Agent时代真的进入“高潮时刻”。
与DeepSeek的破圈不同,围绕着Manus的正负声量都很大:有人认为这是继DeepSeek后的又一场技术革命,也有人认为它不像DeepSeek那样在底层技术上实现了重大突破,也没有自研模型,而是“套壳”了Claude和阿里的通义模型。
从技术角度看,Manus本质上是基于基座大模型的系统性工程优化,通过构建多智能体协作框架,将任务划分为“规划-执行-验证”三个阶段,由不同AI代理接力协作,模拟人类处理复杂任务的流程。同时针对不同应用场景设计了多层次环境适配机制,最终形成面向复杂任务的高度工程化整合方案。
在交互体验方面,Manus的核心能力体现在对用户需求的洞察,它最后交付的不仅仅是文字,而是借助代码生成了各类契合任务需求的结果,涵盖了文档、网页、图标甚至是视频。由此,用户能够更加直观地获取到自己想要的结果,还能在过程中对最终的交付结果进行验证。
执正方观点的业内人士表示,Manus是用工程能力去挤压出了模型可完成的最复杂的任务,构建出一个远超单一模型调用的多模型协同网络,展现出了非常出色的系统集成能力,“很接近数字版AI Agent的样子”,为用户带来了更强的掌控感与丝滑的体验感。
例如,在利用Manus生成市场报告时,它能自动调用数据分析工具和设计平台完成全流程,形成“端对端”解决方案。再比如,让Manus筛选简历,只需将存有多份简历的压缩包直接发给它,它会自动解压,浏览找出重要信息,给出候选人评估结果,甚至还能将候选人姓名和重要信息做成表格,方便用户查阅。
与普通大模型不同,Manus不只是提供想法,还能帮用户把想法变为现实,解决实际问题。这背后的核心竞争力在于其全链路自主执行能力——Multiple Agent架构。用户不需要去对话引导,也不需要提供建议,只需要等待Manus直接交付完整的任务成果。
而反方认为,Manus没有发布任何官方详细的技术报告,交互界面类似Devin和Artifact,只不过是个超级缝合怪,而且它的技术并不成熟,存在不少事实性错误。连带着,对Manus的邀请码饥饿营销(人脉炫耀)+KOL尖叫体测评(“人类输了!”等等)+借势其它明星产品(绑定DeepSeek)的一系列营销手段都大表反感。
但不论观点为何,Manus的意义是不容抹杀的,它代表的,其实是另一场竞赛——AI应用。
在多位业界大佬的眼中,2025年都有望成为AI Agent元年。推理大模型涌现出让人惊叹的深度思考能力,这将推动人工智能的一个重要应用方向,即“AI智能体”的落地。如果说大模型让AI长出了“脑”,那AI Agent就是让AI长出了“手”和“脚”。
据Root analysis预测,全球AI Agent市场规模,将从2024年的52.9亿美元,增长到2035年的2169亿美元,期间复合年增长率将达到40.15%。
广阔的市场空间背后,围绕AI应用,在全球范围内,大模型厂商间的角逐无疑将进一步走向激烈。
肖弘这样回应关于“套壳”的争议:所有突破都是模型带来的,基本上是模型先驱动、模型先行。壳是要把模型技术上的创新点,以一个用户可感知的方式展示出来,把模型创新能力封装成用户最能感知的样子。
从这个定义出发,DeepSeek App(包括思维链的展示)是DeepSeek-R1的壳,Cursor是Anthropic Sonnet 3.5的壳,Perplexity是GPT-4的壳,ChatGPT是InstructGPT的壳。
随着模型能力快速进化,“壳”也需要进化。每一代模型能力进化之后,甚至不一定是原厂,是一个第三方厂商把它的用户可感知价值给呈现出来。
“套壳”本身并不可怕,可以视为一种整合和优化资源的方式,关键在于是否能够解决用户的实际问题。用户更在乎的是产品体验,有没有迅速且准确地获得所需的内容,而不是底层用了什么,如何调用工具。
单纯的套壳在AI普及的背景下,难以成为核心壁垒。真正重要的是找到市场需求和商业逻辑,利用AI这个“通用商品”创造独特的价值。换句话说,套壳只是起点,关键在于如何构建需求驱动的差异化优势。
但套壳不应该是终点。Manus能够将现有技术包装并推出满足用户需求的产品,应用端的创新同样不可忽视。
在Manus之前,领先的模型公司中,唯一做过这个尝试的是谷歌。2024年12月12日,谷歌推出Gemini的同时,也推出了一个Agent系统Project Mariner,可以同时完成获取表单、找到公司官网、联系方式等多步骤任务,Agent会自动执行在谷歌搜索中查找电子邮件的过程,且这一过程中用户可以随时点击暂停和停止。同时用户可以看到Agent每一步行动的推理步骤和计划。
在计算机使用层面上,它比Manus还激进。但这个产品目前还未上线。因此Manus已经是当前AI技术整合的一个优秀案例,而且整体性(而非技术创新)上甚至超越了最先进的基础模型公司。
无独有偶,北京时间3月12日凌晨,OpenAI发布了一系列专为构建AI Agents设计的新工具和API,帮助开发者更容易创建能自动完成任务的AI Agents。
OpenAI认为,虽然过去一年推出的高级推理、多模态交互等模型能力为Agent奠定了基础,但开发者在构建生产级Agent时还是会遇到不少难题。为此,他们特地发布了全新的Responses API、三种内置工具以及一个开源的Agents SDK。
Responses API是结合了Chat Completions API(主要用来生成对话回复)的简洁性与Assistants API(能让AI调用外部功能,比如查资料、操作东西)的工具使用能力的新型API接口。三种内置工具包括Web搜索工具(Web Search Tool)、文件搜索工具(File Search Tool)、计算机使用工具(Computer Use Tool,能让AI像人一样操作电脑)。Agents SDK则是基于去年发布的实验性工具Swarm的框架升级、简化多Agent工作流程编排的开源框架。
OpenAI称这些新工具简化了智能体的核心逻辑、编排和交互,使开发人员能够更轻松地开始构建Agent。Responses API将多种功能整合成一个简单接口,而内置工具为AI提供了“感知”和“行动”的能力,Agents SDK则提供了协调多Agent的标准框架。
在接下来的几周和几个月内,OpenAI计划发布其他工具和功能,以进一步简化和加速在平台上构建Agent应用程序。“我们的目标是为开发人员提供无缝的平台体验,以构建可以帮助完成任何行业的各种任务的代理。”让AI不再局限于聊天框,而是能融入现实工作流程,成为你的“数字助理”甚至“数字同事”。
说起来今年的OpenAI过得并不轻松。作为AI领头羊,一月即遭DeepSeek“逼宫”,此次推出的Agent工具包,催生背景同样是中国AI最近成为行业的关注。
可以明显感觉到OpenAI产品节奏加快了,在国内AI企业推出创新模式后,OpenAI会立刻推出类似产品。
放眼整个行业,AI Agent处于风口之上也是共识。2025年仅过去了两个多月,竞争态势已经越来越白热化了。
Manus AI的产品推出引燃了市场对AI Agent的产品热情,市场认知度进一步提升。OpenAI的全面工具链与中国企业的多元化应用,推动着智能体从实验室走向落地。
在技术成熟度与市场需求的双重驱动下,AI Agent似乎到了爆发的节点。
不少人认为,Agent爆发需要两个必要条件,一个是多模态能力,另一个是慢思考能力,在2024年都取得了突破性进展。
虽然AI Agent爆发曙光已现,距离真正的爆发仍有不少要克服的障碍。
现阶段一个最关键的制约因素,还是数据质量、数据规模、应用场景不足,AI模型、AI训练数据集、AI场景落地部署,都远远不够。
不少AI企业通过真实数据和仿真数据结合的方式,将任务过程中的数据喂给大模型。然而仿真数据还是不够真实,Agent在模拟世界能成功,但导入到现实世界就会有一定的失败率。
所以,要结合现实世界实时动态信息,使AI系统不仅能够理解信息,还要形成对物理现象的理解与智能决策能力,从而使得Agent能够灵活应对现实世界的复杂情况。
导入现实世界动态数据将是大模型、AI Agent产生高阶思维的必然路径。一方面,基于互联网上大量文本和图像数据训练的生成式AI模型(GPT、Llama等)在生成人类语言和抽象概念方面已经基本满足需求,但是受其生成规则的限制,对于现实世界的理解有限,因此会出现不符合现实世界规律的幻觉。
另一方面,机器无法感知和察觉它们周围的世界,需要借助AI网络构建和训练各类Agent,并与现实世界进行实时交互并适应各种环境,从而实现对现实世界的洞察和理解。
当前,AI Agent还远未达到数据飞轮的启动时刻,达不到自动驾驶般的普及度,而真实数据的成本极高,需要花长时间积累。数据的匮乏,不仅会影响模型的准确性和稳定性,还制约了其在真实场景中广泛应用的可靠性。
Agent是否能爆发,2025是否能成为真正的“智能体元年”,还取决于在接下来的时间里,能否出现真正的“杀手级应用”。
Manus走红最大的贡献,或许正在于让一系列通用agent类的应用,乃至基础建设工作,都渐渐浮出水面。作为出圈案例,它为一系列配套设施打开了想象和探索的空间。技术人员纷纷思考,这种AI agent产品在工程方面还有许多方向可以进化,还可以继续做点什么来拉高它的效能。行业整体的兴奋与跃跃欲试,让“通用”两个字包含的可能性前所未有地生动。
从DeepSeek到Manus,它们都像AI世界中透进的一缕阳光,让每个AI领域中的逐梦者,坚定信念,默默耕耘,静待破土的力量。
相关链接:中国区支持的其他支付方式名单