实测视频拆解 - 看Manus如何引爆2025年AI Agent市场

深度解析Manus AI Agent系统:如何通过多Agent混合调度实现复杂任务自动化,包括文件读取、创建、命令行执行和浏览器操作等核心功能,以及PDCA循环在AI系统中的关键作用。

给大模型上插上手和眼,让他不仅仅会想、会说,还会做。Manus满足了当前用户对人工智能产品的期待,让普通人实际体验到了人工智能产品带来的生产力。

上周,一款名为Manus的人工智能产品再度引爆了国内科技圈。通用agent的概念、精彩的演示场景以及邀请码机制,再加上华人团队背景和DeepSeek热点的加持,一时间将这款产品推向了热搜榜首。而我看到Manus演示的第一反应是,这不过就是一个融合了去年AI Agent领域各种创新技术的混合调度系统。其实官方团队也对产品特点给予了充分的说明,正如官方所说:

“我们坚信并践行less structure more intelligence的理念:当你的数据足够优质、模型足够强大、架构足够灵活、工程足够扎实,那么computer use、deep research、coding agent等概念就从产品特性转变为自然涌现的能力。”

当然,Manus在人机交互和用户体验方面确实做得非常出色,而且对用户的使用范围没有限制,能够完成各类通用任务,例如:制作小红书广告、制定投资策略、分析股票收益、进行财务估值或者编写小游戏。可以说,这样一款产品正是当前用户对人工智能产品的期待,满足了普通人的日常需求,因此一举成名。

视频展示 - 多语言网站自动创建

下面这段视频展示Manus根据用户上传的资料,全自动完成一个多语言网站的创建过程。整个过程一气呵成,Manus自主完成了资料读取和分析,网站构建和测试以及最终的部署,充分展示了Manus作为一个AI Agent系统的高度自动化和自主执行能力。

什么是AI Agent?

对于普通人而言,面对类似Manus这样的产品,这恐怕是首要问题。简单来讲,AI Agent就像是大模型的眼睛、鼻子、耳朵,更为关键的是,它还是大模型的手和脚。大模型发展到如今,其最大的技术瓶颈在于它仅仅能够思考、表达,却无法执行实际操作。DeepSeek出现以后,大模型已经能够完成极为复杂的思考与规划,对于我们提出的问题,它可以进行完整且细致的规划,清晰地给出解决问题的方法,甚至会直接告知完成任务的详细步骤。然而,无论大模型怎样发展,模型本身终究只能进行文字接龙游戏。大模型自身无法打开文件去阅读文档,也无法编写和保存文档;既无法阅读咖啡机的说明书,也无法按下咖啡机上的按钮。大模型确实极为聪明,但是倘若不给它装上眼睛、耳朵以及手和脚,那么大模型就永远会是一只被困在笼子里,只会大声叫嚷,却什么都完成不了的“怪兽” 。

从Manus执行步骤拆解看AI Agent的工作原理

从以上视频示例来看,Manus就至少实现了以下几个Agent来辅助大模型完成任务:

1. 文件读取Agent

负责从用户提供的文件中读取有用的信息,比如下面这段Manus的日志显示的,就是Manus正在使用Agent读取文件内容。

2. 创建文件Agent

负责根据需要创建各类文件,用来保存信息和提供对外输出,比如下面这段日志中就是Manus正在使用Agent创建文件

3. 命令行指令执行Agent

负责在电脑上执行指令,驱动电脑完成各种任务。下面就是Manus正在使用cp这个用来复制文件的指令来操作电脑上的文件系统,对文件夹结构进行整理。

值得一提的是,能够调用系统执行意味着AI Agent具备了充分利用操作系统自有能力完整各种复杂操作的能力。

4. 浏览器Agent

用于操作浏览器打开网址,并读取网页内容。如下就是Manus使用这个工具读取他自己写好的网站内容,并对内容进行测试/验证的日志。

总结来说,Manus就是把各种各样的工具集成起来,给大模型提供各种感官(读取信息)和手脚(执行动作)的这样的一个系统。其实这也是Manus创始人在视频里面提到的:“头脑和手” 的概念。

“头脑和手” 非常直观的解释了Manus的本质:给大模型上插上手眼,让他不仅仅会想、会说,还会做。

AI Agent的PDCA环

在Manus这款产品中,我们发现了AI Agent系统一项极为关键的能力,即自我构建任务执行闭环的能力,这其实就是项目管理领域中常常提及的PDCA循环(计划-执行-检查-改进)。

PDCA循环对于打造自我改进的系统而言至关重要,对于AI Agent系统来说,只有具备了这一能力,才真正拥有了"正确"执行任务的能力。

一直以来,判断任务执行的"正确性"都是人工智能系统面临的一大难题。以往,人们的解决思路往往是致力于增强模型的能力,期望以此来提升任务执行的正确性。然而,就像我们常说的"人无完人",正确的思路应该是:

  1. 允许模型在执行任务过程中出现错误
  2. 构建一个能够对任务执行情况进行"检查"的系统
  3. 及时发现任务执行过程中存在的问题
  4. 加以解决,实现持续的优化和改进

对普通用户的建议

对于普通人而言,本文的上半部分已足以帮助大家充分理解Manus的本质和工作模式。接下来,就需要发挥你的想象力,去学习如何与类似Manus这样的AI Agent系统进行互动,学会与AI协同工作。

虽说我们在网上看到的Manus演示都十分流畅顺利,但当你自己去操作这类系统时,肯定会发现各种各样的问题。

其根本原因在于,这类系统仍面临着诸多挑战,在技术上也还有待探索。作为人类,我们必须:

  1. 及时了解这类系统的能力边界
  2. 掌握其工作方式
  3. 第一时间享受到AI Agent带来的生产力提升

重要提示:

我们不能等这类系统足够成熟了才去使用,因为到那时,我们就已经被那些勇于探索、掌握了人机互动技巧,并且适应了数字共生时代生存特点的人超越和淘汰。

你不会被AI淘汰,但你可能正在被掌握了AI技术的其他人淘汰。

Manus的系统架构

上周的另一个热点,是OpenManus这个开源项目,号称在晚饭后仅用3个小时就复刻出了Manus。不得不说,技术圈竞争实在太激烈,技术人之间永远是既相互欣赏又相互竞争。

对于开发者而言,代码从来都无法阻碍我们复刻一个系统。只要能看到你的系统,分分钟就能复刻出来。当然,具体到产品体验、稳定性和可靠性方面,那就是另外一回事了。

对于Manus这样的系统,只要是身处AI应用技术圈的开发者,一眼就能看出它背后运用了怎样的技术,而且这些技术实际上都是过去两年间技术圈中已有的或者成熟的技术积累。例如:

  • 模型规划能力:源自类似OpenAI O1、DeepSeek V3/R1、Claude 3.5 Sonnet
  • Agent调度和接入:采用Function Call或者MCP协议
  • 各类Agent工具:传统软件系统中的一些通用组件

所以,如果某个企业想要复刻这样的系统,决定因素其实只有一个,那就是决心,技术已不再是主要因素。

以下是一个极度简化的Manus系统架构,参照这个架构,其中的每个组件我都能找到已经成熟的解决方案,剩下的就是打磨细节、丰富应用场景、提升用户体验。在这个过程中,考验的并非技术创新,而是团队对自身所面临场景的理解和积累。

2025的AI Agent市场爆发

如果说2022年11月ChatGPT的出现引爆了全球范围内关于大模型的技术革命,那么2023年到2024年则是围绕大模型的外围系统架构逐步发展演进的两年。在这期间,大模型自身能力也在不断提升,这才使得类似Manus这样的系统得以诞生并成为现实。 这里不得不提及DeepSeek,作为中国在探索大模型能力提升道路上的一个重要里程碑,DeepSeek最大的意义在于它让大模型技术真正走进了普通大众的视野。从技术层面来看,DeepSeek模型真正赋予了大模型相对准确的复杂任务规划能力,使其具备了能够有效调度AI Agent的基本能力。

Manus实际上是在恰当的时间点推出的一款合适的产品,它让普通人有机会了解到大模型与Agent相结合后的强大能力,充分满足了普通人对于人工智能系统的期望。这一次,网络上对于Manus的评价呈现出明显的两极分化态势,有人认为这款产品非常强大,也有人觉得它不过是个“套壳”产品。但不管怎样,Manus是在DeepSeek之后,让普通人能够切实体验到大模型与Agent结合所带来的生产力提升。从这个角度而言,Manus极有可能引发2025年AI Agent市场的爆发式增长,因为目前Manus已经为开发者们创造出了足够的市场需求,接下来就看开发者们如何去满足这些需求了。

让我们一同期待2025年AI Agent市场的爆发。或许到了2025年底,我们无需再亲自去网上查找资料,无需自己撰写调研报告,也无需亲手制作PPT。而那篇常常让职场人士感到头疼的年终述职报告,预计80%以上的内容都将由AI Agent生成。