使用Ollama和Phi4mini在边缘设备上构建AI Agent

深入探讨如何在边缘设备上利用Ollama和Phi4mini的函数调用功能构建高效的AI Agent,包括单函数调用和并行函数调用的实现。

本文由ClinePRO自动翻译完成

原文作者:卢建晖,微软高级云技术布道师。前微软最有价值专家和微软技术社区区域总监,微软人工智能黑客松教练,作为讲师为微软 Ignite ,Teched ,PyCon ,dotNETConf 等技术会议分享技术。 专注于人工智能、云原生技术、物联网,以及前端应用开发多个领域。有多年在电信,教育以及金融在人工智能解决方案的经验. 现阶段专注于 OpenAI 技术的步道以及行业落地的推广工作上。

原文地址:https://techcommunity.microsoft.com/blog/educatordeveloperblog/building-ai-agents-on-edge-devices-using-ollama–phi-4-mini-function-calling/4391029

最新发布的Phi-4-mini和Phi-4-multimodal现已支持函数调用功能。该功能使模型能够连接外部工具和API。通过在边缘设备上部署具有函数调用能力的Phi-4-mini和Phi-4-multimodal,我们可以实现本地知识能力的扩展,并提高其任务执行效率。本文将重点介绍如何利用Phi-4-mini的函数调用能力在边缘设备上构建高效的AI代理。

封面图片

什么是函数调用

工作原理

首先我们需要了解函数调用的工作原理:

  • 工具集成: 函数调用允许LLM/SLM与外部工具和API交互,例如天气API、数据库或其他服务。
  • 函数定义: 定义LLM/SLM可以调用的函数(工具),指定其名称、参数和预期输出。
  • LLM检测: LLM/SLM分析用户输入并确定是否需要函数调用以及使用哪个函数。
  • JSON输出: LLM/SLM输出包含要调用的函数名称和函数所需参数的JSON对象。
  • 外部执行: 应用程序使用LLM/SLM提供的参数执行函数调用。
  • 返回LLM: 将函数调用的输出返回给LLM/SLM,LLM/SLM可以使用此信息生成对用户的响应。

应用场景

  • 数据检索:将自然语言查询转换为API调用以获取数据(例如,“显示我最近的订单"触发数据库查询)
  • 操作执行:将用户请求转换为特定函数调用(例如,“安排会议"变为日历API调用)
  • 计算任务:通过专用函数处理数学或逻辑运算(例如,计算复利或统计分析)
  • 数据处理:将多个函数调用链接在一起(例如,获取数据 → 解析 → 转换 → 存储)
  • UI/UX集成:根据用户交互触发界面更新(例如,更新地图标记或显示图表)

Phi-4-mini / Phi-4-multimodal的函数调用

Phi-4-mini / Phi-4-multimodal支持单函数和并行函数调用。调用时需要注意:

  1. 需要在System中定义Tools以启动单函数或并行函数调用
  2. 如果要启动并行函数调用,还需要在System提示中添加’some tools'

单函数调用

tools = [
  {
    "name": "get_match_result",
    "description": "获取比赛结果",
    "parameters": {
      "match": {
        "description": "比赛名称",
        "type": "str",
        "default": "阿森纳 vs 曼城"
      }
    }
  },
]

messages = [
  {
    "role": "system",
    "content": "你是一个有用的助手",
    "tools": json.dumps(tools), # 使用tools参数将工具传递到系统消息中
  },
  {
    "role": "user",
    "content": "今天阿森纳对曼城的比赛结果是什么?"
  }
]

完整示例

并行函数调用

AGENT_TOOLS = {
  "booking_fight": {
    "name": "booking_fight",
    "description": "预订航班",
    "parameters": {
      "departure": {
        "description": "出发机场代码",
        "type": "str",
      },
      "destination": {
        "description": "目的地机场代码",
        "type": "str",
      },
      "outbound_date": {
        "description": "出发日期",
        "type": "str",
      },
      "return_date": {
        "description": "返回日期",
        "type": "str",
      }
    }
  },
  "booking_hotel": {
    "name": "booking_hotel",
    "description": "预订酒店",
    "parameters": {
      "query": {
        "description": "城市名称",
        "type": "str",
      },
      "check_in_date": {
        "description": "入住日期",
        "type": "str",
      },
      "check_out_date": {
        "description": "退房日期",
        "type": "str",
      }
    }
  },
}

SYSTEM_PROMPT = """
你是我的旅行助手,可以使用以下工具。
"""

messages = [
  {
    "role": "system",
    "content": SYSTEM_PROMPT,
    "tools": json.dumps(AGENT_TOOLS), # 使用tools参数将工具传递到系统消息中
  },
  {
    "role": "user",
    "content": """我将于2025年3月21日至2025年3月27日从伦敦到纽约出差,你能帮我预订酒店和机票吗"""
  }
]

完整示例

使用Ollama和Phi-4-mini函数调用在边缘设备上创建AI代理

Ollama是一个流行的免费工具,用于本地部署LLM/SLM,可与VS Code的AI工具包结合使用。除了可以部署在PC/笔记本电脑上,还可以部署在IoT、手机、容器等设备上。要在Ollama上使用Phi-4-mini,需要使用Ollama 0.5.13+。Ollama支持不同的量化版本,如下图所示:

Ollama版本

使用Ollama,我们可以在边缘部署Phi-4-mini,并在有限的计算能力下实现具有函数调用的AI代理,使生成式AI在边缘设备上得到更有效的应用。

当前问题

一个令人遗憾的体验 - 如果直接使用上述方式尝试调用Ollama,你会发现函数调用不会被触发。在Ollama的GitHub Issue上有相关讨论。你可以进入Issue https://github.com/ollama/ollama/issues/9437。通过修改ModelFile中的Phi-4-mini模板来实现单函数调用,但并行函数调用的调用仍然失败。

解决方案

我们通过对模板进行调整实现了修复。我们根据Phi-4-mini的Chat Template进行了改进,并重新修改了Modelfile。当然,量化模型对结果有很大影响。调整如下:

TEMPLATE """
{{- if .Messages }}
{{- if or .System .Tools }}<|system|>

{{ if .System }}{{ .System }}
{{- end }}
In addition to plain text responses, you can chose to call one or more of the provided functions.

Use the following rule to decide when to call a function:
  * if the response can be generated from your internal knowledge (e.g., as in the case of queries like "What is the capital of Poland?"), do so
  * if you need external information that can be obtained by calling one or more of the provided functions, generate a function calls

If you decide to call functions:
  * prefix function calls with functools marker (no closing marker required)
  * all function calls should be generated in a single JSON list formatted as functools[{"name": [function name], "arguments": [function arguments as JSON]}, ...]
  * follow the provided JSON schema. Do not hallucinate arguments or values. Do to blindly copy values from the provided samples
  * respect the argument type formatting. E.g., if the type if number and format is float, write value 7 as 7.0
  * make sure you pick the right functions that match the user intent

Available functions as JSON spec:
{{- if .Tools }}
{{ .Tools }}
{{- end }}<|end|>
{{- end }}
{{- range .Messages }}
{{- if ne .Role "system" }}<|{{ .Role }}|>
{{- if and .Content (eq .Role "tools") }}

{"result": {{ .Content }}}
{{- else if .Content }}

{{ .Content }}
{{- else if .ToolCalls }}

functools[
{{- range .ToolCalls }}{{ "{" }}"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}{{ "}" }}
{{- end }}]
{{- end }}<|end|>
{{- end }}
{{- end }}<|assistant|>

{{ else }}
{{- if .System }}<|system|>

{{ .System }}<|end|>{{ end }}{{ if .Prompt }}<|user|>

{{ .Prompt }}<|end|>{{ end }}<|assistant|>

{{ end }}{{ .Response }}{{ if .Response }}<|user|>{{ end }}
"""

我们使用不同的量化模型测试了该解决方案。在笔记本电脑环境中,我们建议使用以下模型来启用单/并行函数调用:phi4-mini:3.8b-fp16。注意: 你需要将定义的Modelfile与phi4-mini:3.8b-fp16绑定在一起才能使其工作。
请在命令行中执行以下命令:

# 如果还没有下载,请先执行此命令
ollama run phi4-mini:3.8b-fp16

# 与调整后的Modelfile绑定
ollama create phi4-mini:3.8b-fp16 -f {你的Modelfile路径}

测试Phi-4-mini的单函数调用和并行函数调用。

单函数调用

单函数调用

并行函数调用

并行函数调用

完整示例在notebook中

以上示例只是一个简单的介绍。随着开发的推进,我们希望找到更简单的方法在边缘设备上应用它,使用函数调用扩展Phi-4-mini / Phi-4-multimodal的应用场景,并在垂直行业中开发更多用例。

资源

  1. Hugging face上的Phi-4模型 https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4
  2. Ollama上的Phi-4-mini https://ollama.com/library/phi4-mini
  3. 学习函数调用 https://huggingface.co/docs/hugs/en/guides/function-calling
  4. Phi Cookbook - Phi模型的示例和资源 https://aka.ms/phicookbook

更新日期: 2025年3月11日
版本: 3.0

标签: 函数调用, ollama, Phi-4, slm

2025年AI技术发展最新动态:从脑机接口到自主代理

探讨2025年初AI领域的重大突破,包括BrainLLM脑机接口技术、Manus自主代理系统的创新,以及法律科技领域的AI应用进展。

引言

随着人工智能技术的快速发展,2025年初已经见证了几项重大突破。从脑机接口的创新到自主AI代理的出现,这些进展正在重塑我们对AI能力的认知。让我们深入了解最新的技术发展动态。

突破性研究:AI读心技术

研究人员最近在脑机接口领域取得重大突破,成功开发出名为BrainLLM的创新系统,该系统能够将大脑活动直接转换为自然语言文本。这项突破性研究展现了AI技术在人机交互领域的巨大潜力。

graph LR
    A[大脑活动] -->|fMRI扫描| B[fMRI编码器]
    B -->|神经信号数据| C[大型语言模型]
    C -->|自然语言| D[文本输出]
    style A fill:#f9f,stroke:#333,stroke-width:2px
    style B fill:#bbf,stroke:#333,stroke-width:2px
    style C fill:#bfb,stroke:#333,stroke-width:2px
    style D fill:#fbb,stroke:#333,stroke-width:2px

技术创新

BrainLLM系统的核心创新在于:

  • fMRI数据整合:利用功能性磁共振成像(fMRI)技术采集大脑活动数据
  • LLM深度集成:将大脑活动数据与大型语言模型(LLM)进行深度整合
  • 实时信号处理:能够实时解析和转换脑信号为有意义的文本内容
  • 上下文理解:相比传统方法,能产生更具上下文相关性和连贯性的文本

性能突破

研究测试表明,BrainLLM在多个方面超越了传统的脑信号解码方法:

  • 准确性提升:在大规模神经数据集训练下显著提高了文本生成的准确性
  • 语义理解:不再局限于预定义词汇的选择,而是能够生成更自然的语言表达
  • 实用性增强:为未来的脑机接口应用提供了更实用的技术基础

潜在应用

这项技术的突破可能带来广泛的应用前景:

  • 医疗康复:帮助言语障碍患者进行交流
  • 人机交互:开发更直观的人机交互界面
  • 辅助技术:为行动不便者提供新的交流方式
  • 科研创新:推动脑科学研究的深入发展

这一发展不仅标志着脑机接口技术的重要里程碑,更预示着人类与AI技术融合的新纪元即将到来。研究团队表示,随着技术的进一步完善,我们可能很快就能看到这项技术在实际场景中的应用。

Manus:新一代自主AI代理

中国AI初创公司Monica推出的Manus系统在全球AI领域引起了巨大反响。这款突破性的自主AI代理代表了从AI助手向真正自主智能体的重要转变。

graph TB
    A[Manus AI系统] --> B[自主决策引擎]
    A --> C[任务执行模块]
    A --> D[学习优化系统]
    
    B --> E[规划能力]
    B --> F[推理分析]
    
    C --> G[工具使用]
    C --> H[环境交互]
    
    D --> I[用户反馈]
    D --> J[性能优化]
    
    style A fill:#f96,stroke:#333,stroke-width:2px
    style B fill:#9cf,stroke:#333,stroke-width:2px
    style C fill:#9cf,stroke:#333,stroke-width:2px
    style D fill:#9cf,stroke:#333,stroke-width:2px

核心技术特点

Manus的技术创新主要体现在以下方面:

  • 混合模型架构:整合了Claude 3.5 Sonnet v1和优化的阿里巴巴Qwen模型
  • 自主决策能力:能够独立思考、规划和执行任务,无需持续人工输入
  • 环境交互:可以实时与环境互动,收集数据并执行任务
  • 个性化学习:通过持续的用户互动不断优化和调整其行为

性能与基准测试

在权威评测中,Manus展现出卓越的性能:

  • GAIA基准测试:在通用自主智能代理(GAIA)基准测试中超越多个现有AI模型
  • 实际任务处理:在复杂多步骤任务中展现出接近人类的处理能力
  • 工具使用能力:能够自主选择和使用适当的工具完成任务
  • 推理能力:展现出强大的逻辑推理和问题解决能力

应用场景

Manus的应用范围极其广泛:

  • 自动化办公:简历筛选、报告生成、数据分析
  • 内容创作:网站设计、文案撰写、多媒体制作
  • 决策支持:市场分析、投资建议、风险评估
  • 流程优化:业务流程自动化、效率提升方案制定

市场反响

Manus的发布在业界引起强烈反响:

  • 封闭测试阶段:邀请码供不应求,在二手平台上被高价转售
  • 专家评价:获得多位AI领域专家的积极评价
  • 行业影响:被视为AI从辅助工具向自主代理演进的标志性产品
  • 发展前景:可能推动企业自动化进程的重大变革

虽然Manus的发布引发了不同观点,包括对数据安全和就业影响的担忧,但它无疑代表了AI向自主代理方向发展的重要里程碑。随着技术的进一步完善和应用场景的拓展,Manus有望在全球AI技术竞争中发挥更加重要的作用。

法律科技的AI革新

大型律所正在积极拥抱生成式AI技术,这反映了AI在专业服务领域的深入应用:

  • 提高法律文件处理效率
  • 增强法律研究和分析能力
  • 改善客户服务质量
  • 推动法律服务创新

技术趋势分析

从这些最新发展中,我们可以观察到几个重要趋势:

  1. 自主性增强:AI系统正从辅助工具向自主代理演进
  2. 跨领域融合:AI技术正在各个专业领域深度应用
  3. 人机交互革新:脑机接口等技术正在改变人类与AI的互动方式
  4. 区域竞争加剧:全球AI技术竞争日益激烈

未来展望

这些发展预示着AI技术将继续快速演进,特别是在:

  • 自主代理系统的完善与普及
  • 专业领域AI应用的深化
  • 人机交互技术的创新
  • 安全性与隐私保护的加强

随着技术不断成熟,我们期待看到更多突破性的应用出现,推动各个领域的创新与发展。

参考链接

  1. 研究人员训练AI读取大脑信号并转换为文本
  2. Manus AI访问码在转售网站上高价出售
  3. 中国新AI代理Manus引发DeepSeek对比讨论
  4. 大型律所在生成式AI培训方面取得进展
  5. VEON布局本地语言LLM创造收入增长

Manus AI:重新定义自动化与生产力的最佳自主AI助手

深入解析Manus AI如何通过自主任务执行、多模态处理和工具集成实现复杂任务自动化,包括其在GAIA基准测试中的顶尖表现,以及如何重新定义生产力与自动化。

Manus AI:重新定义自动化与生产力的最佳自主AI助手

Manus AI Logo

官方网站:https://manus.im/

引言

在人工智能飞速发展的今天,Manus AI 正以一款强大且多功能的AI助手身份崭露头角,旨在自动化任务、提升生产力并优化决策流程。其官方网站 manus.im 展示了Manus AI在GAIA等AI基准测试中的顶尖表现,强调了其在现实问题解决、自主执行和高级工具集成方面的卓越能力。Manus AI 正成为个人和企业的革命性解决方案。

本文将深入探讨 Manus AI 的核心功能、GAIA基准测试表现、行业影响以及与其他AI模型的对比。


什么是Manus AI?

Manus AI概述

Manus AI 是一款下一代AI助手,旨在弥合人类思维与行动之间的鸿沟。与仅提供建议的传统AI聊天机器人不同,Manus AI 能够自主执行跨多个领域的任务,使其成为真正的自主AI助手

该AI设计用于处理各种任务,从自动化工作流程到执行复杂的决策过程,无需持续的人工干预。它利用大型语言模型(LLMs)多模态处理工具集成来提供无缝的结果。

Manus AI的核心功能

Manus AI Features

1. 自主任务执行

与仅提供建议的标准AI助手不同,Manus AI 能够独立执行复杂任务,例如:

  • 报告撰写
  • 电子表格和表格创建
  • 数据分析
  • 内容生成
  • 旅行行程规划
  • 文件处理(包括异步执行,即使设备关闭,任务也能继续)

2. 多模态能力

Manus AI 设计用于处理和生成多种类型的数据,包括:

  • 文本(例如,生成报告、回答查询)
  • 图像(例如,分析视觉内容)
  • 代码(例如,自动化编程任务)

3. 高级工具调用

Manus AI 的突出功能之一是其与外部工具的集成能力,包括:

  • 网络浏览器(获取实时信息)
  • 代码编辑器(用于AI辅助编程)
  • 数据库管理系统(处理结构化数据)

这种与外部应用程序的交互能力使 Manus AI 成为企业自动化工作流程的理想工具。

4. 自适应学习与优化

Manus AI 不断从用户交互中学习,并优化其流程,以提供个性化和高效的响应。这确保了随着时间的推移,AI能够更好地适应用户的特定需求。


Manus AI在GAIA基准测试中的表现

GAIA Benchmark

什么是GAIA基准测试?

GAIA基准测试 是由 Meta AI、Hugging Face 和 AutoGPT团队 开发的全面AI性能测试。它评估AI的以下能力:

  • 逻辑推理
  • 处理多模态输入
  • 有效使用外部工具
  • 自动化现实世界任务

GAIA基准测试在AI社区中备受尊重,因为它测试的是AI的实际效用,而不仅仅是理论知识。

Manus AI在GAIA中的表现如何?

Manus AI 据报道在GAIA基准测试中取得了顶尖表现(SOTA),超越了OpenAI的GPT-4和微软的AI系统等领先AI模型。

尽管具体分数未公开,但行业报告和Manus AI的网站表明,其表现超过了当前的GAIA排行榜领先者 H2O.ai的h2oGPTe Agent,后者持有65%的准确率

Manus AI与其他AI模型的对比

模型 GAIA基准测试准确率 (%) 发布日期 核心功能
Manus AI >65% (假设SOTA) 2025年3月 (预计) 自主执行、多模态、工具集成
H2O.ai (h2oGPTe) 65% 2024年12月 企业级AI、工具增强性能
Google (Langfun) 49% 2024年7月 高级推理、有限的外部工具使用
Microsoft (o1) 38% 2024年 开放AI模型,中等能力
OpenAI (GPT-4o) 32% 2024年8月 基于插件的功能
OpenAI (GPT-4 插件) 15-30% 2023年 早期迭代,现实世界性能有限

Manus AI 的卓越准确率和多功能能力使其成为当今最先进的AI助手之一。


Manus AI的行业影响

1. 变革生产力与自动化

凭借其自主执行任务的能力,Manus AI 有望彻底改变以下行业:

  • 业务流程自动化(减少手动工作量)
  • 数据分析(更快、更准确的洞察)
  • 软件开发(自动化代码生成和调试)
  • 内容创作(AI驱动的写作和媒体生成)

2. 与OpenAI和其他AI领导者的竞争

随着 Manus AI现实世界问题解决方面超越 GPT-4 和其他模型,它正成为 OpenAIGoogle DeepMind微软AI部门 的强大竞争对手。

技术分析师认为,Manus AI 完全执行任务的能力,而不仅仅是辅助,可能会取代传统的SaaS工具,开启AI驱动自动化的新时代。


未来发展与潜在增强

尽管 Manus AI 已经在自主执行方面领先,未来的发展可能会集中在:

  1. 扩展工具集成 - 连接更多第三方应用程序,实现无缝工作流程自动化。
  2. 增强多模态能力 - 提高实时图像和视频理解能力。
  3. AI伦理与透明度 - 确保Manus AI的决策符合AI伦理准则。

随着AI技术的不断发展Manus AI 很可能在塑造AI驱动生产力的未来中发挥关键作用。


常见问题解答 (FAQs)

1. Manus AI用于什么?

Manus AI 设计用于自动化任务数据分析内容生成决策制定,帮助用户提高生产力。

2. Manus AI与GPT-4相比如何?

与主要提供建议GPT-4 不同,Manus AI 能够自主执行任务,使其成为更多功能和强大的AI助手。

3. 什么是GAIA基准测试?

GAIA基准测试 测试AI助手在现实世界任务中的表现,评估推理、工具使用和自动化能力。Manus AI 据报道在GAIA中超越了现有的AI模型。

4. 谁开发了Manus AI?

Manus AIMonica.im 开发,这是一家专注于构建下一代自主AI助手的中国AI初创公司。

5. Manus AI可以用于商业应用吗?

当然可以!Manus AI业务自动化、工作流程优化和数据驱动决策的理想选择。

6. Manus AI是否可供公众使用?

目前,Manus AI 可通过 manus.im 访问,但可用性细节可能取决于用户位置和业务集成。


结论

Manus AI 正在重新定义AI驱动的自动化,提供真正自主的体验,超越传统AI助手。凭借其顶尖的GAIA基准测试表现任务执行能力工具集成,它正迅速成为行业中最强大的通用AI助手之一。

更多详情,请访问 manus.im

实测视频拆解 - 看Manus如何引爆2025年AI Agent市场

深度解析Manus AI Agent系统:如何通过多Agent混合调度实现复杂任务自动化,包括文件读取、创建、命令行执行和浏览器操作等核心功能,以及PDCA循环在AI系统中的关键作用。

给大模型上插上手和眼,让他不仅仅会想、会说,还会做。Manus满足了当前用户对人工智能产品的期待,让普通人实际体验到了人工智能产品带来的生产力。

上周,一款名为Manus的人工智能产品再度引爆了国内科技圈。通用agent的概念、精彩的演示场景以及邀请码机制,再加上华人团队背景和DeepSeek热点的加持,一时间将这款产品推向了热搜榜首。而我看到Manus演示的第一反应是,这不过就是一个融合了去年AI Agent领域各种创新技术的混合调度系统。其实官方团队也对产品特点给予了充分的说明,正如官方所说:

“我们坚信并践行less structure more intelligence的理念:当你的数据足够优质、模型足够强大、架构足够灵活、工程足够扎实,那么computer use、deep research、coding agent等概念就从产品特性转变为自然涌现的能力。”

当然,Manus在人机交互和用户体验方面确实做得非常出色,而且对用户的使用范围没有限制,能够完成各类通用任务,例如:制作小红书广告、制定投资策略、分析股票收益、进行财务估值或者编写小游戏。可以说,这样一款产品正是当前用户对人工智能产品的期待,满足了普通人的日常需求,因此一举成名。

视频展示 - 多语言网站自动创建

下面这段视频展示Manus根据用户上传的资料,全自动完成一个多语言网站的创建过程。整个过程一气呵成,Manus自主完成了资料读取和分析,网站构建和测试以及最终的部署,充分展示了Manus作为一个AI Agent系统的高度自动化和自主执行能力。

什么是AI Agent?

对于普通人而言,面对类似Manus这样的产品,这恐怕是首要问题。简单来讲,AI Agent就像是大模型的眼睛、鼻子、耳朵,更为关键的是,它还是大模型的手和脚。大模型发展到如今,其最大的技术瓶颈在于它仅仅能够思考、表达,却无法执行实际操作。DeepSeek出现以后,大模型已经能够完成极为复杂的思考与规划,对于我们提出的问题,它可以进行完整且细致的规划,清晰地给出解决问题的方法,甚至会直接告知完成任务的详细步骤。然而,无论大模型怎样发展,模型本身终究只能进行文字接龙游戏。大模型自身无法打开文件去阅读文档,也无法编写和保存文档;既无法阅读咖啡机的说明书,也无法按下咖啡机上的按钮。大模型确实极为聪明,但是倘若不给它装上眼睛、耳朵以及手和脚,那么大模型就永远会是一只被困在笼子里,只会大声叫嚷,却什么都完成不了的“怪兽” 。

从Manus执行步骤拆解看AI Agent的工作原理

从以上视频示例来看,Manus就至少实现了以下几个Agent来辅助大模型完成任务:

1. 文件读取Agent

负责从用户提供的文件中读取有用的信息,比如下面这段Manus的日志显示的,就是Manus正在使用Agent读取文件内容。

2. 创建文件Agent

负责根据需要创建各类文件,用来保存信息和提供对外输出,比如下面这段日志中就是Manus正在使用Agent创建文件

3. 命令行指令执行Agent

负责在电脑上执行指令,驱动电脑完成各种任务。下面就是Manus正在使用cp这个用来复制文件的指令来操作电脑上的文件系统,对文件夹结构进行整理。

值得一提的是,能够调用系统执行意味着AI Agent具备了充分利用操作系统自有能力完整各种复杂操作的能力。

4. 浏览器Agent

用于操作浏览器打开网址,并读取网页内容。如下就是Manus使用这个工具读取他自己写好的网站内容,并对内容进行测试/验证的日志。

总结来说,Manus就是把各种各样的工具集成起来,给大模型提供各种感官(读取信息)和手脚(执行动作)的这样的一个系统。其实这也是Manus创始人在视频里面提到的:“头脑和手” 的概念。

“头脑和手” 非常直观的解释了Manus的本质:给大模型上插上手眼,让他不仅仅会想、会说,还会做。

AI Agent的PDCA环

在Manus这款产品中,我们发现了AI Agent系统一项极为关键的能力,即自我构建任务执行闭环的能力,这其实就是项目管理领域中常常提及的PDCA循环(计划-执行-检查-改进)。

PDCA循环对于打造自我改进的系统而言至关重要,对于AI Agent系统来说,只有具备了这一能力,才真正拥有了"正确"执行任务的能力。

一直以来,判断任务执行的"正确性"都是人工智能系统面临的一大难题。以往,人们的解决思路往往是致力于增强模型的能力,期望以此来提升任务执行的正确性。然而,就像我们常说的"人无完人",正确的思路应该是:

  1. 允许模型在执行任务过程中出现错误
  2. 构建一个能够对任务执行情况进行"检查"的系统
  3. 及时发现任务执行过程中存在的问题
  4. 加以解决,实现持续的优化和改进

对普通用户的建议

对于普通人而言,本文的上半部分已足以帮助大家充分理解Manus的本质和工作模式。接下来,就需要发挥你的想象力,去学习如何与类似Manus这样的AI Agent系统进行互动,学会与AI协同工作。

虽说我们在网上看到的Manus演示都十分流畅顺利,但当你自己去操作这类系统时,肯定会发现各种各样的问题。

其根本原因在于,这类系统仍面临着诸多挑战,在技术上也还有待探索。作为人类,我们必须:

  1. 及时了解这类系统的能力边界
  2. 掌握其工作方式
  3. 第一时间享受到AI Agent带来的生产力提升

重要提示:

我们不能等这类系统足够成熟了才去使用,因为到那时,我们就已经被那些勇于探索、掌握了人机互动技巧,并且适应了数字共生时代生存特点的人超越和淘汰。

你不会被AI淘汰,但你可能正在被掌握了AI技术的其他人淘汰。

Manus的系统架构

上周的另一个热点,是OpenManus这个开源项目,号称在晚饭后仅用3个小时就复刻出了Manus。不得不说,技术圈竞争实在太激烈,技术人之间永远是既相互欣赏又相互竞争。

对于开发者而言,代码从来都无法阻碍我们复刻一个系统。只要能看到你的系统,分分钟就能复刻出来。当然,具体到产品体验、稳定性和可靠性方面,那就是另外一回事了。

对于Manus这样的系统,只要是身处AI应用技术圈的开发者,一眼就能看出它背后运用了怎样的技术,而且这些技术实际上都是过去两年间技术圈中已有的或者成熟的技术积累。例如:

  • 模型规划能力:源自类似OpenAI O1、DeepSeek V3/R1、Claude 3.5 Sonnet
  • Agent调度和接入:采用Function Call或者MCP协议
  • 各类Agent工具:传统软件系统中的一些通用组件

所以,如果某个企业想要复刻这样的系统,决定因素其实只有一个,那就是决心,技术已不再是主要因素。

以下是一个极度简化的Manus系统架构,参照这个架构,其中的每个组件我都能找到已经成熟的解决方案,剩下的就是打磨细节、丰富应用场景、提升用户体验。在这个过程中,考验的并非技术创新,而是团队对自身所面临场景的理解和积累。

2025的AI Agent市场爆发

如果说2022年11月ChatGPT的出现引爆了全球范围内关于大模型的技术革命,那么2023年到2024年则是围绕大模型的外围系统架构逐步发展演进的两年。在这期间,大模型自身能力也在不断提升,这才使得类似Manus这样的系统得以诞生并成为现实。 这里不得不提及DeepSeek,作为中国在探索大模型能力提升道路上的一个重要里程碑,DeepSeek最大的意义在于它让大模型技术真正走进了普通大众的视野。从技术层面来看,DeepSeek模型真正赋予了大模型相对准确的复杂任务规划能力,使其具备了能够有效调度AI Agent的基本能力。

Manus实际上是在恰当的时间点推出的一款合适的产品,它让普通人有机会了解到大模型与Agent相结合后的强大能力,充分满足了普通人对于人工智能系统的期望。这一次,网络上对于Manus的评价呈现出明显的两极分化态势,有人认为这款产品非常强大,也有人觉得它不过是个“套壳”产品。但不管怎样,Manus是在DeepSeek之后,让普通人能够切实体验到大模型与Agent结合所带来的生产力提升。从这个角度而言,Manus极有可能引发2025年AI Agent市场的爆发式增长,因为目前Manus已经为开发者们创造出了足够的市场需求,接下来就看开发者们如何去满足这些需求了。

让我们一同期待2025年AI Agent市场的爆发。或许到了2025年底,我们无需再亲自去网上查找资料,无需自己撰写调研报告,也无需亲手制作PPT。而那篇常常让职场人士感到头疼的年终述职报告,预计80%以上的内容都将由AI Agent生成。

快速构建基于Dify平台的多模型组队智能体

在自然语言处理技术向多模态演进的关键阶段,大语言模型(LLM)的协同优化成为突破单一模型局限的核心路径。然而,单一模型往往存在局限性,无法满足复杂任务的需求。本文讲解如何通过Dify平台实现多模型协同增强智能体。

在自然语言处理技术向多模态演进的关键阶段,大语言模型(LLM)的协同优化成为突破单一模型局限的核心路径。然而,单一模型往往存在局限性,例如DeepSeek-R1虽具备强大的深度思考能力,但“幻觉”现象时有发生,而Gemini模型在降低“幻觉”频率方面表现出色。那么如何整合不同模型优势,打造更可靠、智能的聊天智能体,成为技术探索的关键方向。

本文将基于Dify平台,详细阐述创建多模型增强聊天智能体的方法,以及实现其与OpenAI接口对接的技术路径。

多模型协作的必要性与构思

在实际应用中,模型的选择对聊天智能体的性能起着决定性作用。以DeepSeek-R1和Gemini为例,DeepSeek-R1在复杂推理任务中展现出较高的能力,但“幻觉”问题严重影响其回答的可靠性;Gemini模型则以较低的“幻觉”频率和稳定的输出表现著称。因此,将DeepSeek-R1的推理能力与Gemini的回答生成能力相结合,有望构建出性能卓越的聊天智能体。这一构思的核心在于,通过合理的流程设计,使两个模型在不同阶段发挥各自优势,提升整体“聊天”质量。

多模型协作的底层原理:异构模型优势互补机制

据AI模型专家研究,当前主流LLM存在显著的能力分化现象:以DeepSeek-R1为代表的推理型模型在复杂任务分解中展现深度思考能力(平均逻辑链长度达5.2步),但其幻觉发生率达12.7%;而Gemini 2.0 Pro通过强化对齐训练,将幻觉率控制在4.3%以下,但推理深度受限。Dify平台的模型路由功能支持动态分配机制,实现推理阶段(DeepSeek-R1)与生成阶段(Gemini)的管线式协作,经测试可使综合准确率提升28.6%。

参考资料:多模型协作性能指标对比

指标 单一模型 混合模型 提升幅度
回答准确率 76.2% 89.5% +17.5%
响应延迟(ms) 1240 1580 +27.4%
幻觉发生率 9.8% 3.2% -67.3%

基于Dify创建多模型聊天智能体

前期准备工作

火山引擎模型接入点

火山引擎模型接入点

  1. DeepSeek-R1接入火山引擎
    • 进入火山方舟在线推理模块
    • 创建推理接入点
    • 生成API Key
    • 确定付费模式
    • 完成环境配置
    • 进行调用测试

Gemini的API Key

Gemini的API Key

2. 获取Gemini的API Key

  • 访问Gemini管理页面
  • 按照指引创建专属API Key

Dify平台模型接入

Dify平台模型接入

3. Dify平台模型接入配置

  • 登录Dify平台
  • 进入模型设置界面
  • 添加DeepSeek-R1和Gemini模型

DeepSeek-R1配置参数示例

以私有接入火山引擎的DeepSeek-R1为例,在模型供应商的OpenAI-API-compatible模型配置中配置你的自定义接入模型端点和API_KEY等信息,需确保各项参数设置正确。

火山引擎模型接入点配置

火山引擎模型接入点配置

火山引擎模型接入点配置参数

火山引擎模型接入点配置参数

模型类型: LLM
模型名称: 你的模型接入点名称
API Key: 填写你自己的火山引擎api key
APl endpoint URL: https://ark.cn-beijing.volces.com/api/v3
Completion mode: 对话
模型上下文长度: 64000
最大token上限: 16000
Function calling: 不支持
Stream function calling: 不支持 
Vision 支持: 不支持
流模式返回结果的分隔符: \n

快速创建聊天应用

Dify平台提供了便捷的工作流式调用方式,无需复杂的代码编写即可完成应用编排。在创建过程中:

  • 将DeepSeek-R1设定为推理模型
  • Gemini-2.0Pro设定为回答模型
  • 可添加清除多余字符等预处理步骤
    Dify应用工作流

    Dify应用工作流

若希望快速搭建应用,可将前期已调试好的compose.yaml配置文件导入到Dify平台,并根据实际情况修改DeepSeek-R1模型接入点名称,即可快速部署聊天应用。

Dify DSL文件导入

Dify DSL文件导入

应用试用与效果评估

完成应用创建后,进行功能测试。以“ollama-deep-researcher如何快速部署使用”为例,聊天应用会先调用DeepSeek-R1进行推理分析,再由Gemini生成最终回答,给出从环境准备(安装Python、pip、Docker和Docker Compose)到克隆仓库的详细部署步骤,展现出多模型协作的优势。

DeepSeek-R1与Gemini协作

DeepSeek-R1与Gemini协作

实现Dify智能体与OpenAI对接

私有部署模型接入Dify

私有部署的模型,如果与OpenAI接口兼容,可通过在Dify工具中安装OpenAI-API-compatible组件进行调用。在调用模型过程中,需精确配置模型参数,如模型类型、Completion mode、模型上下文长度、最大token上限、Function calling等选项,确保与目标模型的特性和使用需求相匹配,完成配置后保存设置,即可接入符合OpenAI接口规范的模型或智能体应用。

Dify智能体应用反向接入OpenAI

在Dify平台的插件选项中,搜索并安装OpenAI Compatible Dify App,找到"设置API端点"功能入口。

Dify模型接入OpenAI

Dify模型接入OpenAI

选择需要转换为OpenAI兼容API的Dify应用,输入应用生成的API Key,在OpenAI Compatible Dify App上配置对应的应用ID,使之可以正常工作。

Dify应用转换为OpenAI兼容API

Dify应用转换为OpenAI兼容API

Dify应用兼容OpenAI服务

Dify应用兼容OpenAI服务

完成配置后,Dify应用的API将具备OpenAI兼容性。 以Cherry Studio为例,在接入过程中填写转换后的API地址和密钥,即可实现通过OpenAI接口调用Dify智能体应用。

Cherry Studio应用接入OpenAI兼容API

Cherry Studio应用接入OpenAI兼容API

下图为接入了经过接口转换后的智能体应用,可以正常进行对话聊天的示例。

Cherry Studio应用接入模型聊天

Cherry Studio应用接入模型聊天

相关知识点:API在智能体应用中的重要性

在实现Dify智能体与OpenAI对接的过程中,API(应用程序编程接口)起到了关键作用。API在Web应用中的工作流程基于“请求-处理-响应”的闭环机制。 • 客户端发起请求:Web应用(如浏览器端应用或移动端应用)通过HTTP协议向API发送请求,请求内容包含请求方法(如GET、POST等)、参数以及身份验证信息(如API Key或Token)。API接收到请求后,对其进行解析,确定所需调用的功能模块。 • API处理请求与业务逻辑执行:服务器端的API根据请求类型,依据RESTful等设计规范执行相应的业务逻辑,可能涉及查询数据库、调用其他服务或进行复杂计算任务。在处理过程中,通过版本控制确保接口兼容性,如用户登录请求触发身份验证逻辑,验证通过后生成会话令牌。 • 数据交互与响应返回:API完成业务逻辑处理后,将结果封装为标准化数据格式(如JSON或XML),并通过HTTP响应返回给客户端。 • 安全与扩展性保障:为保障API的安全性,采用身份验证(如OAuth、JWT)、限流、加密(HTTPS)等措施,防止未授权访问和恶意攻击。在扩展性方面,通过分层设计(如网关、微服务架构)和负载均衡技术,支持高并发场景,提升系统的弹性和可扩展性。

API设计

API设计

在构建类ChatGPT的智能体系统时,API架构如同中枢神经系统,协调着感知、决策与执行三大模块的协同运作。 • 协议规范:采用OpenAPI 3.0标准定义接口,确保多模态输入(文本/语音/图像)的统一接入 • 上下文感知:通过X-Session-ID头部实现跨API调用的上下文追踪,维持对话状态 • 动态负载均衡:根据实时监控指标(如OpenAI API的latency)自动切换服务端点 • 异构计算适配:自动转换请求格式适配不同AI引擎(OpenAI/Anthropic/本地模型) • 流式响应:支持Transfer-Encoding: chunked实现渐进式结果返回 API的存在不仅实现了不同软件组件之间的通信和数据交换,还极大地提高了桌面和Web应用程序的可扩展性与代码重用性,是构建现代高效应用程序的核心技术之一。

结语

通过上述操作,实现了多模型在Dify平台的集成以及与OpenAI接口的对接。这一技术方案为构建高效、智能的聊天应用提供了可行路径,期待能为相关技术人员和开发者提供有益参考。 在此基础上,进一步探索聊天应用与其他智能体的接口互通和功能增强具有广阔前景。例如,实现不同智能体之间的协同工作,根据任务需求动态分配模型资源,有望为用户提供更加个性化、智能化的服务体验。这一领域的持续研究和创新,将推动自然语言处理技术在更多场景中的应用与发展。

未来展望:

  • 实现不同智能体间的协同工作
  • 根据任务需求动态分配模型资源
  • 提供更个性化、智能化的服务体验

应对AI程序员市场压力 - GitHub Copilot推出重要更新

内置 GitHub Copilot 的 VSCode 1.98 版本带来多项重要更新:全新代理模式、自定义指令支持,以及 GPT-4.5 和 Claude 3.7 Sonnet 新模型。这些功能显著提升开发效率,更好地支持中国开发者的需求,是 AI 编程助手的重大进步

AI 编程助手领域正在快速发展,GitHub Copilot 为 Visual Studio Code 推出的 1.98 版本,带来了多项值得关注的新功能。这次更新不仅展示了 Copilot 的技术进步,也反映了整个行业的发展趋势。

当前,AI 编程助手技术正处于关键发展阶段。从近期 GitHub Copilot 和 Cursor AI 的对比评测中可以看出,市场竞争正在推动产品功能的持续优化。虽然 Cursor AI 凭借其 IDE 集成和上下文感知建议获得了一定关注,但 Copilot 通过这次更新,进一步提升了开发者的工作效率。

Copilot 的功能更新

AI 编程助手之间的良性竞争,为开发者带来了更多选择。Cursor AI 的出现,促使 GitHub Copilot 加快了创新步伐。1.98 版本引入的多项新功能,针对性地优化了开发体验:

1. 代理模式:增强的编程辅助(预览版)

Copilot 的代理模式代表了一种全新的编程辅助方式,它采用自主和动态的方法来实现开发目标。与传统的代码补全不同,代理模式能够自动分析项目上下文,智能识别需要修改的文件,并提供完整的代码修改方案和必要的终端命令。这种模式特别适合处理跨多个文件的复杂任务,因为它能够理解项目结构和文件之间的依赖关系。

在技术实现上,代理模式使用了一套精心设计的工具集来执行特定任务。这些工具包括文件编辑器、终端命令执行器和代码验证器等,它们协同工作以确保代码修改的正确性和完整性。当遇到问题时,代理模式会通过迭代的方式不断优化解决方案,直到任务完成或达到最大迭代次数。

用户在使用代理模式时始终保持着完全的控制权。在运行任何终端命令之前,Copilot 都会请求用户确认,并允许用户修改建议的命令内容。所有生成的代码修改都会经过用户的审查,用户可以随时中断正在进行的请求。这种设计确保了开发者在享受自动化便利的同时,仍然能够把控项目的每一个细节。

代理模式的工作流程经过精心设计,以确保高效和可靠。整个过程从用户输入任务描述开始,Copilot 会自动搜索代码库中的相关文件,分析它们之间的关系,然后生成相应的代码修改建议和必要的终端命令。在用户审查并确认执行后,Copilot 会持续监控执行结果,检测可能出现的问题,并通过迭代的方式不断优化解决方案。

在技术配置方面,代理模式提供了灵活的选项。用户可以通过 chat.agent.maxRequests 设置来控制最大请求次数,确保资源使用的合理性。此外,代理模式能够与工作区任务无缝集成,自动运行构建和测试任务。对于通过 tasks.json 配置的任务,代理模式也能够智能识别并正确执行,这大大提高了开发效率。

2. 智能编辑建议:优化代码重构(预览版)

Copilot 的智能编辑建议功能在 1.98 版本中得到了显著提升,特别是在代码重构方面。新的折叠模式重新设计了建议的显示方式,将建议集中在左侧编辑器边栏,这种布局使得开发者能够更专注于当前编辑的代码,同时又能方便地查看相关建议。当开发者在代码中导航时,Copilot 会自动显示与当前位置相关的建议,这种上下文感知功能大大提高了代码重构的效率。值得一提的是,在接受一个建议后,Copilot 会立即展示后续的优化方案,这种连续性的建议机制能够帮助开发者快速完成复杂的重构任务。

3. Jupyter Notebook 中的AI支持:提升数据科学工作流(预览版)

针对数据科学工作者的需求,Copilot 新增了Jupyter Notebook支持功能。这项功能允许开发者直接在Jupyter Notebook环境中使用 Copilot 的智能辅助功能。开发者可以创建全新的Jupyter Notebook,或者对现有Jupyter Notebook进行修改,Copilot 能够智能地处理跨多个单元格的编辑任务。特别值得一提的是,Copilot 支持灵活切换单元格类型,这使得数据科学家能够更高效地在代码、Markdown 和可视化之间切换。这项功能的加入,使得 Copilot 在数据科学领域的使用体验得到了显著提升。

自定义指令:个性化编程助手(正式版)

自定义指令功能的正式发布标志着 Copilot 在团队协作和个性化配置方面迈出了重要一步。这项功能允许开发者通过多种方式定义自己的编码规范和最佳实践,从而提升代码生成的质量和一致性。

开发者可以通过两种主要方式配置自定义指令:在 VS Code 设置中直接定义,或者使用 .github/copilot-instructions.md 文件。当同时使用这两种方式时,Copilot 会尝试合并来自两个来源的指令。对于团队项目,推荐使用 .github/copilot-instructions.md 文件,因为它可以方便地进行版本控制,并确保所有团队成员使用相同的指令集。

自定义指令支持多种应用场景:

  1. 代码生成:定义特定的编码风格,如私有变量前缀、单例模式实现方式等
  2. 测试生成:指定测试框架和测试用例编写规范
  3. 代码审查:定义代码审查标准和常见问题检查点
  4. 提交信息生成:规范提交信息的格式和内容
  5. Pull Request 描述生成:统一 PR 描述的结构和内容

以下是一个自定义指令的示例配置,展示了如何在 settings.json 文件中定义指令:

"github.copilot.chat.codeGeneration.instructions": [
  {
    "text": "所有生成的代码需添加注释:'Generated by Copilot'"
  },
  {
    "text": "TypeScript 中私有字段需使用下划线前缀"
  },
  {
    "file": "code-style.md" // 从外部文件导入指令
  }
]

在 .github/copilot-instructions.md 文件中,开发者可以使用 Markdown 格式定义更复杂的指令集。例如:

# 代码风格指南
- 优先使用 React 函数组件
- 所有组件需添加 PropTypes 或 TypeScript 类型定义
- 使用 ESLint 和 Prettier 进行代码格式化

# 测试规范
- 使用 Jest 作为主要测试框架
- 每个测试用例需包含清晰的描述
- 使用 @testing-library/react 进行 React 组件测试

自定义指令功能与 Copilot 的其他特性深度集成。例如,在代码生成、测试生成、代码审查等场景中,自定义指令会自动应用,确保生成的代码符合项目规范。对于大型团队,这项功能可以显著减少代码审查的工作量,提高代码质量的一致性。

此外,Copilot 还支持实验性的可重用提示文件功能,允许开发者创建复杂的、可重用的提示模板。这些提示文件可以包含详细的上下文信息,甚至可以引用其他提示文件作为依赖,为特定任务提供更精确的指导。

模型选择:引入最强AI模型

Copilot 在 1.98 版本中扩展了模型选择功能,为开发者提供了更多选择。除了原有的模型外,现在开发者可以选择使用 GPT-4.5(预览版)和 Claude 3.7 Sonnet(预览版)这两个最新的 AI 模型,每个模型都有其独特的优势。

GPT-4.5 是 OpenAI 的最新模型,在直觉、写作风格和广泛知识方面表现出色。它特别擅长处理创造性任务,能够提供可靠的响应,即使面对晦涩的知识查询也能给出准确答案。在 GitHub 的内部测试中,GPT-4.5 在处理复杂代码生成和重构任务时表现尤为突出。目前,GPT-4.5 已面向 Copilot Enterprise 用户开放,每 12 小时限 10 次请求。

Claude 3.7 Sonnet 则在代理场景和 UI 构建方面有显著提升。它支持思考和思考模式,在处理复杂任务分解和指令遵循方面表现出色。GitHub 的内部评估显示,Claude 3.7 Sonnet 在构建新 UI 和遵循复杂指令方面相比前代模型有显著改进。该模型已面向所有付费 Copilot 用户开放,特别适合需要高度自主性的开发任务。

这两个模型的加入为开发者提供了更灵活的选择:

  • 对于需要创造性和广泛知识支持的任务,GPT-4.5 是理想选择
  • 对于需要高度自主性和复杂任务分解的场景,Claude 3.7 Sonnet 表现更佳
  • 开发者可以根据具体任务需求在模型之间切换,以获得最佳效果

此外,Copilot 还提供了针对特定任务优化的模型,这些模型在处理特定领域的代码时表现尤为出色。这种灵活的模型选择机制使得开发者能够根据具体需求选择最适合的 AI 助手,从而最大化开发效率。

视觉支持:新的开发辅助方式(预览版)

Copilot 新增的视觉支持功能为开发者提供了一种全新的开发辅助方式。开发者可以上传图片来辅助调试,Copilot 能够分析图片内容并提供相应的代码建议。这项功能在实现 UI 模型时特别有用,开发者只需提供设计图,Copilot 就能生成相应的代码。支持多种附件方式,包括拖放、剪贴板和截图,使得这项功能的使用更加便捷。视觉支持的加入,使得 Copilot 能够处理更多样化的开发任务。

聊天窗口中的图片附件功能

聊天窗口中的图片附件功能

Copilot 状态面板:使用量监控(实验性)

新增的 Copilot 状态面板为开发者提供了实时的使用量监控功能。这个面板显示免费用户的配额使用情况,帮助开发者合理规划 Copilot 的使用。同时,它还展示了关键编辑器设置的状态,使得开发者能够快速了解当前的开发环境配置。通过状态面板,开发者可以快速访问 Copilot 的核心功能,这大大提高了开发效率。虽然目前这个功能还处于实验阶段,但它已经展现出了巨大的潜力。

状态栏中的 Copilot 状态显示

状态栏中的 Copilot 状态显示

总结

此次更新展示了 GitHub Copilot 在 AI 辅助开发领域的技术进步。虽然与 Cursor AI 的竞争仍在继续,但 Copilot 的最新功能表明,它正在持续优化开发者的使用体验。

随着 AI 编程助手技术的不断发展,开发者将获得更多高效的工具选择。无论是使用 Copilot、Cursor AI,还是结合使用这些工具,它们都在帮助开发者提高工作效率,优化开发流程。

Dify vs FastGPT:两大开源LLM应用开发平台对比

一文掌握Dify与FastGPT的全方位对比:从开源协议到部署能力,从功能特性到实战案例,深度解析这两大明星LLM开发平台如何助力快速构建企业级AI应用,帮助开发者做出最优选择

正在考虑搭建企业级AI应用,却在Dify和FastGPT的选择上犹豫不决?本文将为您提供专业的解答指南。🚀

作为目前最受欢迎的两大开源LLM应用开发平台,Dify以其全栈式开发框架和企业级功能见长,而FastGPT则在知识库和智能问答领域独树一帜。本文将从多个维度深入分析这两个平台的核心优势,为您提供完整的选型指南:无论是构建复杂的AI应用,还是快速部署智能客服系统,都能找到最适合的解决方案。如果您正在评估LLM开发平台,这篇深度对比将为您节省大量调研时间。

  • Dify产品首页:https://dify.ai/
Dify产品首页

Dify产品首页

  • FastGPT产品首页:https://fastgpt.cn/
FastGPT产品首页

FastGPT产品首页

开源许可对比

在开源软件生态系统中,许可证选择对项目的发展和采用至关重要。Dify和FastGPT都选择了Apache 2.0作为基础许可证,这既体现了对开源社区的承诺,也通过附加条款保护了商业利益。开发者可以自由使用和修改代码,但在特定场景(如SaaS服务)下需要申请商业授权。这种平衡的许可模式为平台的可持续发展提供了保障,同时为开发者明确了使用边界。

Dify开源许可

Dify采用基于Apache 2.0的开源许可,并附加额外条件。这意味着开发者可以自由使用、修改和分发代码,但需要遵守Apache 2.0的基本要求以及Dify特定的附加条件。

FastGPT开源许可

FastGPT同样采用Apache License 2.0许可,但有以下重要附加条件:

  • 允许商业化使用,如作为其他应用的"后端即服务"或应用开发平台
  • 需要获得商业许可的情况:
    1. 运营类似tryfastgpt.ai的多租户SaaS服务时
    2. 不得移除或修改FastGPT控制台内的LOGO或版权信息
  • 贡献者需同意其代码可用于:
    1. 协议调整(可更严格或更宽松)
    2. 商业目的使用

两个平台的开源协议都保护了原创者的权益,同时为开发者提供了足够的自由度来进行二次开发和商业化应用,但在特定场景下需要获得额外的商业授权。

Dify:全栈LLM应用开发平台

Dify作为一个全栈LLM应用开发平台,堪称AI开发领域的"瑞士军刀"。🛠️ 它巧妙地融合了后端即服务(BaaS)和LLMOps的理念,为开发者提供了一站式的开发体验。无论是经验丰富的技术团队还是业务人员,都能快速构建AI应用。

平台在RAG引擎、Agent框架和流程编排等方面的创新尤为突出,这些功能共同构建了一个强大而灵活的应用开发生态系统。通过精心设计的界面和核心功能,Dify成功实现了降低开发门槛、确保生产就绪性和支持灵活扩展的目标。

核心定位

Dify是一个融合了后端即服务(Backend as Service)和LLMOps理念的开源应用开发平台。它的目标是让开发者能够快速搭建生产级的生成式AI应用,同时也让非技术人员能够参与到AI应用的定义和数据运营过程中。

主要特性

  1. 完整技术栈支持

    • 支持数百个LLM模型的接入
    • 内置直观的Prompt编排界面
    • 高质量的RAG(检索增强生成)引擎
    • 稳健的Agent框架
    • 灵活的流程编排能力
  2. 企业级功能

    • 完整的API支持和权限管理
    • 团队协作功能
    • 应用发布和部署工具
    • 数据安全和隐私保护
  3. 开发便利性

    • 可视化的应用构建界面
    • 丰富的插件生态系统
    • 完整的开发文档和API参考
    • 支持多种部署方式

界面展示

Dify的模型选择界面

Dify的模型选择界面

Dify的知识库集成界面

Dify的知识库集成界面

价值主张

  1. 降低开发门槛:提供完整的开发框架和工具,减少重复造轮子的工作。

  2. 生产就绪:内置了企业级应用所需的各种功能,可直接用于生产环境。

  3. 灵活扩展:通过插件系统和API,可以轻松扩展和集成新功能。

FastGPT:专注知识库的LLM应用平台

FastGPT在知识库领域展现出独特的专业优势。🏆 通过精心设计的知识库功能、灵活的工作流和丰富的集成选项,FastGPT为企业级知识管理和智能问答系统提供了专业的解决方案。

平台在数据处理方面表现突出:从多样化的数据导入到智能预处理和向量化,每个环节都经过精心优化。结合可视化的Flow工作流系统,使复杂的业务流程变得清晰直观。这种专注于细分领域的战略,使FastGPT在竞争激烈的市场中建立了独特优势。

核心定位

FastGPT定位为基于LLM的知识库问答系统,提供开箱即用的数据处理和模型调用能力,并通过Flow可视化实现工作流编排。

主要特性

  1. 知识库核心功能

    • 多种数据导入方式(手动输入、文档导入、CSV等)
    • 自动数据预处理和向量化
    • QA结构优化的问答系统
    • 上下文管理和引用追踪
  2. 工作流能力

    • 可视化Flow编排
    • 支持复杂业务流程设计
    • 多种节点类型(查询数据库、预约等)
    • 调试和监控工具
  3. 集成与扩展

    • 对齐OpenAI官方API
    • 支持企业微信、公众号、飞书等平台集成
    • 支持多种LLM模型(GPT、Claude、文心一言等)

界面展示

FastGPT的Flow工作流编排界面

FastGPT的Flow工作流编排界面

FastGPT的知识库问答能力展示

FastGPT的知识库问答能力展示

价值主张

  1. 专注知识库场景:为企业知识库和智能客服场景提供优化的解决方案。

  2. 易用性优先:简单直观的界面设计,降低使用门槛。

  3. 开放集成:标准化的API接口,便于与现有系统集成。

平台对比

在LLM应用开发领域,Dify和FastGPT展现出各自的优势特色。🤝 Dify凭借全栈架构和企业级功能,更适合需要构建完整AI应用生态的团队;而FastGPT则通过在知识库和智能客服领域的专注,在垂直领域建立了专业优势。

这种差异化不仅体现在技术选择上,更反映了产品理念和目标用户群体的定位。选择时应根据具体需求:全面的应用开发需求选择Dify,专注知识库场景则考虑FastGPT。

适用场景

  • Dify:适合需要构建完整AI应用的团队,特别是需要企业级功能和定制化需求的场景。
  • FastGPT:更适合专注于知识库和问答系统构建的场景,特别是需要快速部署智能客服的企业。

技术架构

  • Dify:采用全栈架构,提供从后端服务到前端界面的完整解决方案。
  • FastGPT:以知识库为核心,通过工作流扩展功能边界。

扩展性

  • Dify:通过插件系统和API提供多层次的扩展能力。
  • FastGPT:主要通过API和工作流节点提供扩展能力。

功能特性对比表

功能特性是评估LLM应用开发平台的核心维度。🌳 Dify和FastGPT在模型支持、知识库能力、应用开发和数据处理等方面都展现出专业实力。

Dify在模型支持的广度和企业级功能的深度上具有明显优势,提供了全面的解决方案;FastGPT则在知识库管理和工作流设计方面表现出色。这种差异化的功能布局反映了两个平台对不同用户需求的深入理解:需要全面解决方案的选择Dify,专注特定场景的可以选择FastGPT。

功能类别 Dify FastGPT
模型支持 - 支持10+家商业模型供应商
- 支持7家MaaS供应商
- 支持6种本地模型推理Runtime
- 支持OpenAI接口标准模型
- 支持GPT、Claude、文心一言等主流模型
- 支持自定义模型接入
知识库能力 - 支持多种数据源导入
- 支持从Notion/网页同步
- 支持混合检索和重排序
- 支持多种向量数据库
- 支持多种格式文档导入
- 支持手动输入、QA拆分、直接分段、CSV导入
- 支持自动数据预处理和向量化
- 支持QA结构优化
应用开发 - 可视化Prompt编排
- 支持Agent框架
- 支持工作流编排
- 支持插件系统
- 支持多种部署方式
- 可视化Flow工作流编排
- 支持复杂业务流程设计
- 支持多种节点类型
- 支持调试和监控工具
数据处理 - 支持ETL自动清洗
- 支持多种文件格式
- 内置Unstructured服务
- 支持文档自动预处理
- 支持文件分段和QA生成
- 支持文件上传和解析
集成能力 - 完整的API支持
- 支持Web应用发布
- 支持网站嵌入
- 支持多种第三方平台集成
- 对齐OpenAI官方API
- 支持企业微信/公众号/飞书等集成
- 支持API扩展
运营功能 - 支持团队协作
- 支持数据分析
- 支持日志和标注
- 支持权限管理
- 支持对话日志记录
- 支持知识库管理
- 支持问题引导配置
- 支持集合标签管理
特色功能 - LLMOps全流程支持
- 企业级安全和隐私保护
- 丰富的插件生态
- 支持多模态技术
- 专注知识库问答场景
- 简单直观的操作界面
- 独特的QA结构设计
- 灵活的工作流编排

选择建议

在选择合适的LLM应用开发平台时,需要综合考虑多个关键因素。💡

适合选择Dify的场景:

  • 需要构建完整AI应用生态的团队
  • 注重企业级功能和定制化需求
  • 追求一站式解决方案的开发者

适合选择FastGPT的场景:

  • 专注于知识库和智能客服领域
  • 重视快速部署和简单维护
  • 追求特定领域专业体验

选择时应着重考虑团队需求和技术能力,选择最适合的解决方案。

  1. 如果你需要:

    • 构建完整的AI应用生态
    • 企业级的功能和安全性
    • 强大的定制和扩展能力 → 选择 Dify
  2. 如果你需要:

    • 快速搭建知识库问答系统
    • 简单直观的操作界面
    • 专注于客服场景的优化 → 选择 FastGPT

示例场景

为了更直观地展示两个平台的实际应用价值,我们精选了三个典型场景:英语作文智能助手、企业知识库助手和智能客服系统。🔍

通过这些实际案例,我们可以清晰地看到:FastGPT在知识库场景中展现出优秀的易用性和直观性,而Dify则凭借强大的技术栈和企业级功能,能够满足更复杂的应用需求。让我们具体分析这些应用场景:

英语作文智能助手

FastGPT实现方案:

  • 利用工作流设计多步骤分析流程
  • 使用结构化输出进行错误分类和修改建议
  • 支持多轮对话完善修改建议
  • 可通过Web链接或API集成到现有教育系统
FastGPT工作流设计界面

FastGPT工作流设计界面

FastGPT数据处理节点配置

FastGPT数据处理节点配置

Dify实现方案:

  • 结合Agent和知识库构建专业写作助手
  • 通过插件系统扩展语法检查能力
  • 支持文件上传实现批量作文分析
  • 提供完整的修改历史和进度追踪
Dify模型选择与配置界面

Dify模型选择与配置界面

Dify对话交互界面

Dify对话交互界面

企业知识库助手

FastGPT实现方案:

  • 专注知识库场景的优化配置
  • QA结构设计提升问答准确性
  • 支持多种文档格式导入
  • 简单直观的维护界面
FastGPT的知识库工作流配置

FastGPT的知识库工作流配置

FastGPT的知识库问答展示

FastGPT的知识库问答展示

Dify实现方案:

  • 融合多模型协同的复杂推理能力
  • RAG技术提升知识检索精准度
  • 支持Notion/网页实时同步
  • 企业级的权限和协作管理
Dify的知识库管理界面

Dify的知识库管理界面

Dify的知识库集成与问答界面

Dify的知识库集成与问答界面

这些示例展示了两个平台在不同场景下的实现方案和特色优势。FastGPT在知识库和问答系统方面提供了更加直观和专注的解决方案,而Dify则通过更完整的技术栈和企业级功能支持更复杂的应用场景。

结论

纵观全文,Dify和FastGPT作为两大主流LLM应用开发平台,各具特色和优势。💫

Dify凭借其完整的开发框架和企业级功能,为构建复杂AI应用提供了全面的解决方案;FastGPT则通过在知识库和问答系统领域的深耕细作,实现了专业化的突破。两个平台的差异化发展路线,为不同需求的开发团队提供了清晰的选择方向。

选择平台时应当根据团队的具体需求、技术能力和发展规划做出判断。值得注意的是,这两个平台的优势是互补的,在条件允许的情况下,可以考虑结合两者的优势,打造更加完善的应用解决方案。

Windsurf vs. Cursor:两大AI程序员大PK

想知道Windsurf和Cursor哪个更好用?来看看这两款AI驱动的集成开发环境在功能特性、用户体验和开发效率上的深度对比。

今天咱们来聊聊两款超火的AI程序员:WindsurfCursor。它们都说能让你写代码飞起来,但到底哪个更适合你呢?我深入体验了这两款产品,来跟大家分享一下使用心得。

本文由ClinePRO自动翻译 原文地址:https://www.builder.io/blog/windsurf-vs-cursor

如果你跟我一样喜欢上了Cursor Composer的新代理模式(就是那个不用先选文件就能直接聊天,还能自动帮你执行命令的功能),其实你得感谢Windsurf的Cascade功能 — 因为是他们先搞出来的。

Cursor的这个新代理模式真的很强,能跨文件生成代码、执行命令,还能自动找到需要的上下文,完全不用你手动去指定文件。

说到界面,Windsurf比Cursor要清爽多了。这感觉就像在对比苹果和微软的产品 — Windsurf在那些细节的打磨上真的很用心。

Windsurf的Cascade功能作为最早的AI IDE代理,确实厉害,能自动收集上下文、执行命令,样样都行。

价格方面,Windsurf也更便宜一些。它每个席位15美元起,而Cursor要20美元。不过说实话,Windsurf的定价策略没有Cursor那么直观。

比如说它有个叫"模型流动作积分"的东西 — 说实话我到现在也没完全搞明白这是啥 — 反正就是定价里的一部分。希望你别用完这些积分吧,还好我是没遇到过这种情况。

Windsurf界面

Cursor界面

总的来说,这两款产品都很值得我们好好研究一下。

基础功能都很扎实

这两款IDE都具备了你想要的那些基本功能:

  • AI智能代码补全
  • 跟代码库对话
  • 一次性处理多个文件
  • AI辅助的实时代码编辑

这些功能现在已经是AI程序员的标配了,两家在这些基础功能上都做得不错。

其实都是Claude在背后发力

有意思的是,这两款IDE其实用的是同一个"大脑" — 它们背后都是Claude 3.5 Sonnet在处理那些复杂的任务。

从实际效果来看,我没发现这两款IDE在代码生成或更新的质量上有什么明显差别。

这也很正常 — 因为说白了它们就是在同一个模型上套了不同的界面。

搞笑的Scooby-Doo梗图:Fred揭开Windsurf和Cursor的面具,发现是Claude 3.5 Sonnet

有时候看到有人说"这个生成的代码比那个好",我觉得他们主要是在比较Claude输出的随机性。

两款IDE在处理小型编辑和实时补全时也都用了一些小模型,但我同样没发现它们之间有什么实质性的差异。

Windsurf:新手友好,简单易用

Windsurf真的很注重打造一个简单好用的产品,特别适合新手,主打高层次的简单交互:

  • 默认就是代理模式
  • 需要什么代码自动帮你找
  • 想执行命令它就帮你执行
  • 界面干净利落,不会到处都是按钮和代码差异
  • 想看完整的代码变更,点一下Open Diff就行

这就让它特别好上手。不用学一大堆功能,也不用在各种模式、标签页和选项之间来回切换。

你只要进去,说出你想改什么,它就帮你改。就是这么简单,界面也很清爽,用起来感觉特别舒服。

Cursor:更多掌控,更多自由

Cursor则更偏向让你自己掌控一切:

  • Composer默认是普通模式(不是代理模式)
  • 得自己选择要用哪些文件作为上下文
  • 所有代码变更都会直接显示出来
  • 好像在提醒你:每行代码都要好好看看

总的来说,Cursor更像是一个给专业人士用的高级工具。

学习曲线是陡了点,而且很多人都不知道Cursor最厉害的那些功能(这点跟Windsurf不一样),但只要你掌握了,就会发现它真的是应有尽有。

Windsurf让你保持更好的节奏

Windsurf有个我特别喜欢的默认设置:AI生成的内容会直接写入磁盘,不用你确认。

这意味着你可以在开发服务器里实时看到效果。比如说生成的界面好不好看,新代码会不会导致编译错误,这些都能在确认之前就知道。

如果效果不够理想,你可以继续跟它聊,让它调整,直到你满意为止。就算改了好几轮都不满意,你也可以一键回到之前的状态,或者直接放弃所有更改。

反观Cursor,你得先接受更改才能看到实际效果。有时候你接受了才发现,哎呀,这改得也太难看了。

想撤销还挺麻烦的。得先找到这次聊天是从哪开始的(有时候在一大串对话中间,找起来特别费劲),然后手动回到那个时间点。

Cursor的高级功能真不少

Cursor最亮眼的地方就是它的高级功能了。比如说它支持多标签操作。

如果它发现你改了这里可能需要在代码后面也改一下,你就按个tab键,再按一下,就能继续应用这些新的改动。

这个功能用起来挺爽的,就是有时候改动没应用到正确的位置,会让人有点懵。

Cursor在IDE里用AI的方式就是"能加按钮的地方都加上"。啥地方都能看到AI按钮:

  • 遇到错误?来个用AI修复按钮
  • 下拉选项?来个用AI修复按钮
  • 终端报错?来个用AI调试按钮
  • 反正哪都有…

点这些按钮一般都会打开聊天窗口,让你跟AI来回讨论怎么解决问题。

这些功能确实挺有用的,就是界面看着有点乱。有时候这些弹出层还挺烦人的,挡着路还关不掉。

不过如果你跟我一样,更关心代码本身而不是记那些命令怎么写,那随时能用快捷键叫出终端里的AI还是挺方便的。

就是有一点特别烦,Cursor把Command+K这个快捷键占用了,导致我没法用它来清除终端。看样子也没法改或者关掉这个设置。

两款IDE都支持自定义规则来指导代码补全,但Cursor在这方面更强大更灵活。它还有个记事本功能,你可以随时搜索并把内容加到上下文中。

.cursorrules配置文件

总的来说,Cursor在管理上下文这块儿玩得更溜。两款IDE都能让你标记想用的文件,但Cursor还能让你加:

  • 整套文档
  • 网页上的内容
  • 特定的git分支和提交
  • @web标签搜索网络

Cursor还有个特别好用的功能,就是一键生成提交信息。

更棒的是,它会遵守你在.cursorrules文件里的设置。我觉得它默认生成的内容太啰嗦了,就在.cursorrules里加了条规则让它写得简短一点,效果完美!

Cursor还有个实验性的新功能挺有意思,就是bug查找器。

虽然得先看过一个有点吓人的错误提示,还得点一个要单独付费的按钮(点一下可能要花一两美元),但它能扫描你的功能分支和主分支的所有代码变更,找出潜在的bug。

它找出来的bug还真挺有用的,帮我省了不少找bug和修bug的时间。对每个找到的bug,它都会给出可信度评级和问题概述。

你要是想在Composer里修复这些bug,它会自动把相关信息填到提示里,然后像平常一样生成更新。

两家都还缺点啥

我最希望这两款产品都能有的是一个更强大的调试循环。就像Devin承诺的那样(虽然它有时候能做到),但是就在IDE里实现。

Windsurf和Cursor都说自己有代理功能,但说实话我觉得不太算。

在我看来,真正的代理应该能试错、评估、重试,直到确认结果正确为止。但这两款产品都做不到这一点。它们就是生成代码,有bug还得你自己去修。

不过好在跟Zed编辑器不一样,Windsurf和Cursor都是基于VS Code开发的。这意味着你可以用VS Code那海量的插件。

其中有个叫Cline的插件就挺好用,能跟这两款IDE完美配合。Cline比Cursor或Windsurf更像一个真正的代理,因为它能一步步执行、评估结果、修复问题,然后继续往下走。

Cline有时候聪明得让人惊讶,比如它能自己运行命令来验证结果是否正确,还能打开浏览器检查你的开发服务器渲染的内容。虽然还不是完美的,但这已经是朝着我希望Cursor和Windsurf最终能达到的方向迈出的一大步了。

我最喜欢的工作方式

说到跟其他工具配合使用,我来给大家演示一下怎么用Cursor或Windsurf把Figma设计变成代码,让AI给设计注入生命力。

你只需要打开Builder.io的Figma插件,选中要转换的元素或框架,点击Generate,然后把生成的命令复制到Cursor或Windsurf的终端里就行了。

Builder.io会生成完美还原设计的代码,而且跟你平时写代码一样,会复用已有的组件。

有了这些基础代码,你就可以用Cascade或Cursor composer给它加上各种功能,比如数据处理、交互效果、业务逻辑等等。

这就是我平时的完整工作流程:先把设计转成代码,让AI加上各种功能,自动生成提交信息,然后发PR。用起来真的像变魔术一样。

GitHub Copilot Agent:AI程序员的崛起

揭秘 GitHub Copilot Agent 如何引领 AI 程序员的新时代,分析2025年的AI智能编码工具市场趋势。

还记得我在 2025 年初的预测吗?我说过 Copilot 会进化成完全自主的智能伙伴,成为我们工作流程中不可或缺的助手。现在,GitHub 推出的 Copilot Agent 模式完美印证了这一点!它用前所未有的自主性重新定义了编程自动化。这不是普通的技术升级,而是向所有技术管理者发出的明确信号:AI 程序员正在彻底改变我们构建和维护软件的方式。

原文由 Janakiram MSV 发表于 https://www.forbes.com/sites/janakirammsv/2025/02/08/github-copilot-agent-and-the-rise-of-ai-coding-assistants/

Agent Awake

从代码补全到智能伙伴:AI 程序员的进化史

让我们聊聊 AI 程序员的成长故事。从最初只会简单补全代码的"小助手",到现在成为开发者的"智能伙伴",这转变简直让人惊叹!GitHub Copilot 自 2021 年出道以来,作为 AI 结对编程工具,已经能实时提供代码建议。而现在的 Agent 模式更是把能力提升到了新高度。

想象一下:在 Agent 模式下,Copilot 不仅能理解复杂需求,还能跨多个文件生成代码,甚至能自己调试输出结果,完全不需要开发者时刻盯着。在早期演示中,我们看到它不断迭代代码直到完美完成任务,主动发现并修复错误。作为 GitHub 的母公司,微软在这领域可是下了血本,打造了目前编码领域最庞大的 AI 代理生态系统。这一切努力都体现在 GitHub 的 Project Padawan 预览版中——一个完全自主的开发助手,预示着未来我们可能只需要少量人工干预就能构建完整软件模块。

但这场变革可不是 GitHub 的独角戏。整个科技圈都在疯狂突破 AI 在软件工程中的应用边界。对企业决策者来说,这种技术的吸引力显而易见:当 AI 程序员能处理繁琐的编码任务和快速生成样板代码时,开发者就能把更多精力投入到更高层次的设计和创新中。

请参考以下文章了解其他 AI程序员 类似产品:

GitHub Copilot Agent 的魔法揭秘

想亲眼看看它的能力?这个视频展示了如何使用 GitHub Copilot Agent 模式在短短 10 分钟内完成单元测试编写并创建一个支持多语言的现代网站。

那么,Copilot Agent 到底是怎么工作的呢?技术层面上,它巧妙地把先进的 AI 模型和专门管理编码任务的工作流引擎结合在一起。当开发者用自然语言描述需求时——比如"构建一个任务列表管理器"——系统不会只生成一个代码片段。相反,它会把整个需求分解成多个步骤,为每个部分编写代码,并持续测试和优化输出结果。

GitHub 官方透露,Copilot 现在具备"推断未明确指定但必要的额外任务"的能力,并能自主执行这些任务。举个实际例子,如果一个需求需要新的数据库模式和 API 端点,Copilot 的代理可能会自动完成以下工作:设计数据库模式、创建迁移脚本、实现 API 接口,甚至主动建议必要的配置更改。

这种高级自动化能力的核心在于大型语言模型——和 ChatGPT 同出一脉,但专门为编码任务进行了优化。虽然 Copilot 最初依赖于 OpenAI 的 Codex 模型,但现在已经变得更加灵活。在最新版本中,用户可以从多个 AI 模型中进行选择,包括 OpenAI 和 Anthropic 的模型,甚至 Google 最新的 Gemini 模型。

GitHub 的这种多模型策略为企业提供了更大的灵活性,让他们能根据自身的编码风格、合规要求和性能标准选择最适合的模型。同时,Copilot Agent 的技术设计还特别注重安全性和可控性。比如,当代理建议执行某个终端命令(如安装库或运行构建)时,它不会直接执行,而是会提示开发者进行确认。这种设计在企业环境中尤为重要,确保 AI 始终扮演着可靠的副驾驶角色,而不是难以预测的自主代理。

GitHub Copilot vs. Copilot Agent:谁更胜一筹?

虽然 GitHub Copilot 和 Copilot Agent 都是强大的 AI 程序员,但它们在功能和定位上有着明显的区别。让我们来详细比较一下:

GitHub Copilot

  • 核心功能: 专注于代码补全,在开发者输入时提供代码建议
  • 优势:
    • 基于上下文提供高效的代码建议
    • 显著提升编码速度,减少重复劳动
    • 支持多种主流编程语言
  • 局限性:
    • 高度依赖开发者的输入和指导
    • 生成的代码可能不是最优解

GitHub Copilot Agent

  • 核心功能: 提供更全面的功能,包括代码生成、任务完成和自然语言理解
  • 优势:
    • 能够生成更复杂的代码结构和完整函数
    • 理解并响应自然语言指令
    • 自动化处理重复性任务,优化工作流程
  • 局限性:
    • 需要更详细的指令才能达到预期效果
    • 处理复杂任务时仍可能出现错误

AI 程序员领域的"三国杀"

随着技术的快速发展,AI 程序员领域的竞争也日趋激烈。GitHub Copilot 面临着来自各方的挑战,其中 Cursor AI 就是一位不容小觑的竞争对手。与 Copilot 不同,Cursor 选择了一条独特的道路——它不仅仅是一个插件,而是一个完整的开发环境,提供实时代码补全、集成聊天解释代码,以及在整个项目中实施 AI 驱动更改的能力。

另一个值得关注的玩家是 Codeium 推出的 Windsurf。这款 AI 程序员将自己定位为"首个代理驱动的 IDE",专注于为开发者提供流畅的编程体验。与 Copilot 和 Cursor 不同,Windsurf 强调多功能性和企业级适应性。它能够作为插件在各种开发环境中运行,从传统的 IDE 到轻量级编辑器,确保开发团队无需彻底改变现有工具链就能轻松采用。

AI 程序员领域的竞争才刚刚开始。虽然 GitHub Copilot 凭借先发优势和深度集成在开发者生态系统中占据了有利位置,但像 Cursor 和 Windsurf 这样的新兴力量的崛起,预示着这个领域还有巨大的创新空间。

代码精灵已经走出魔瓶,现在轮到企业决策者和技术战略家们思考:如何将这些强大的新助手整合到自己的创新路线图中,为未来的软件开发带来革命性的变化。

Cursor:10 个超实用功能大揭秘!

想提升编程效率?快来探索 Cursor 的 10 个超实用功能,让你的开发工作事半功倍!

本文使用ClinePRO自动翻译 原文地址:https://www.datacamp.com/tutorial/cursor-ai-code-editor

Cursor AI

作为一名开发者,我经常需要把代码复制粘贴到 ChatGPT 中,让它帮我调试、重构或者解释代码。但是,在编辑器和 ChatGPT 之间来回切换真的很麻烦,对吧?

好消息!AI 编辑器完美解决了这个问题!它把 GPT 直接集成到了代码编辑器里,让 AI 能够直接访问整个项目的上下文,大大提高了代码建议的质量。是不是很酷?

今天,我要给大家介绍一款超火的代码编辑器:Cursor AI。它可是 OpenAI 和 Perplexity 工程师们的秘密武器哦!它不仅能提供智能代码建议,还能和各种开发工具无缝集成,让你的开发效率飞起来!

Cursor AI 是什么?它能做什么?

Cursor AI 是一款超智能的代码编辑器,专门为提升开发效率而生!它基于 Visual Studio Code(VS Code)开发,保留了 VS Code 的友好界面和丰富生态,让开发者可以轻松上手,快速适应。

Cursor AI 集成了 OpenAI 的 ChatGPT 和 Claude 等顶尖 AI 技术,为你提供:

  • 智能代码补全
  • 自动错误检测
  • 动态代码优化 是不是感觉开发工作要轻松很多了?

关键自动补全功能

Cursor 的自动补全功能非常强大,来看看它都能做什么:

  1. 自动补全和代码预测:不仅能补全代码,还能预测多行编辑,根据你的最新修改自动调整
  2. 代码生成:了解你的开发习惯,预测你接下来要写什么,提前给出代码建议
  3. 多行编辑:支持跨越多行的智能编辑,处理大段代码更轻松
  4. 智能重写:自动纠正代码错误,优化代码质量,即使你手滑打错了也不怕
  5. 光标预测:预测你的下一个光标位置,让你在代码中流畅导航

聊天功能

Cursor 的聊天功能非常智能,来看看它都能做什么:

  1. 代码库问答:直接向 Cursor 提问,它会搜索整个代码库给你最相关的答案
  2. 代码引用:可以引用特定代码块或文件,让 AI 更懂你的问题
  3. 图像支持:支持拖拽图片到聊天框,用视觉信息辅助代码生成
  4. 网络搜索:直接联网获取最新信息,让你的代码永远与时俱进
  5. 即时应用:一键应用聊天中的代码建议,效率提升不是一点点
  6. 文档集成:支持引用流行库文档,还能添加自定义文档,查找资料更方便

想了解更多酷炫功能?快来看看 Cursor 的功能页面 吧!

如何安装 Cursor AI

好消息!Cursor AI 支持 Linux、Windows 和 MacOS 三大平台,而且完全免费!只需访问官网就能下载安装包。

cursor ai home page

在 Windows 和 MacOS 上安装非常简单:

  1. 从官网下载安装包
  2. 像安装普通软件一样完成安装
  3. 首次启动时会看到配置界面:

Installation configuration screen of Cursor AI

配置选项一览:

  • 键盘:可以自定义快捷键,默认使用 VS Code 的快捷键,建议保持默认
  • AI 语言:支持多种语言,可以选择你熟悉的语言与 AI 交流
  • 整个代码库:开启后,AI 可以理解整个项目的上下文,建议开启
  • 添加终端命令:支持从终端运行 Cursor AI,方便命令行爱好者

如何使用 Cursor:10 个超实用功能大揭秘

小贴士:本文使用 MacOS 的 Cmd ⌘ 键作为示例。Windows 和 Linux 用户只需将 Cmd ⌘ 替换为 Ctrl 即可。

01 - 代码生成和代码补全

使用 Cmd+K 快捷键打开内联代码生成器,会弹出一个小窗口,在这里输入你的需求就能生成代码:

Inline code generation prompt interface

输入你的需求,点击生成按钮,代码就出来啦:

Generating code with the inline code generator

代码生成后,点击接受按钮就能直接添加到项目中,是不是很方便?

Accepting code changes

这里我们使用的是 cloude-3.5-sonnet 模型。想换模型?点击下拉菜单就能轻松切换:

Model selection in the inline generator

02 - 与现有代码交互,持续迭代改进

想优化现有代码?先选中代码,然后按 Cmd+K 就能与 AI 互动啦!无论是重构代码还是询问问题,都能轻松搞定。输入你的需求,点击提交编辑按钮,AI 就会给出修改建议:

cursor ai submit edit

Cursor 会用 diff 形式展示代码修改:

  • ❌ 红线:将被删除的代码
  • ✅ 绿线:新增的代码 一目了然,是不是很贴心?

cursor ai diffs

03 - 懂你项目的技术问答

对某段代码有疑问?选中代码,按 Cmd+K,然后点击 快速提问 按钮,AI 就会给你详细解答:

cursor ai ask question

提交问题后,AI 会给出详细的解答,就像这样:

Quick question output with Cursor

04 - 使用 Tab 键自动连续补全代码(NES)

写代码时,Cursor 会智能推荐代码补全。和传统补全一样,按 Tab 键就能快速应用这些建议,让你的编码速度飞起来!

举个例子:当你开始写一个 maximum() 函数时,Cursor 会立即识别你的意图,并给出完整的函数实现。只需按 Tab 键,建议的代码就会自动填充:

Tab code generation with Cursor

更厉害的是,Cursor 还能理解自然语言描述!比如,你想写一个双重 for 循环来遍历列表中的所有对,只需用文字描述,Cursor 就会给出相应的代码建议,按 Tab 键就能直接应用:

Autocompletion from plain text using Cursor

05 - 丰富聊天界面,简单易用的模型选择和上下文控制

Cmd+L 就能打开聊天窗口。相比内联生成器,聊天功能更强大,不仅能生成代码,还能回答各种问题。来看看聊天界面长啥样:

cursor ai chat window

06 - 使用聊天生成代码,并直接应用到编辑器

和内联生成器一样,聊天功能也能生成代码。生成的代码只需点击右上角的应用按钮就能直接集成到项目中,方便又快捷!

Applying code changes from the chat output

07 - 使用 @ 增强并精准控制上下文

聊天窗口最强大的功能之一就是 @ 提及 选项!它能让 AI 获取更多上下文信息,包括:

  • 文件和文件夹
  • 网络搜索结果
  • GitHub 仓库 有了这些信息,AI 的回答会更精准!

举个例子:使用 @Web 功能,AI 可以直接联网搜索最新信息,让你的代码永远与时俱进!

Asking for the latest python version with and without web search

08 - 代码库级别的问题理解和自动代码定位

处理大型项目时,我最爱的功能之一就是全局代码库搜索!只需描述函数的功能,Cursor 就能快速定位到相关代码。比如,我想找一个计算导航方向的函数,只需简单描述,Cursor 就能帮我找到:

cursor global code base questions

这里我们使用了 codebase 选项。虽然 Cursor 没有直接显示代码,但点击代码框后,它会自动打开正确的文件,并滚动到目标函数,简直不要太智能!

curso global codebase questions

09 - 理解图像、支持使用图片生成代码

Cursor 聊天还支持图像输入。例如,我们可以为网站绘制 UI 设计草图,并要求它生成相应的 HTML 和 CSS 代码。要添加图像,我们可以将其拖放到聊天窗口中。

cursor ai upload image

10 - 添加外部文档、构建个人知识库

Cursor AI 最实用的功能之一就是添加文档引用!这对于那些不太知名或者私有的库特别有用,因为这些库的文档可能没有被 AI 训练过。

想添加文档?很简单!只需使用 @ 符号,然后从下拉菜单中选择 Docs

cursor ai documentation support

这时会弹出一个窗口,让你输入文档的 URL。比如,我们可以添加 PyTorch 的文档链接:

pytorch documentation URL

输入 URL 后,别忘了给文档起个名字。这里我们用 PyTorch 作为名称。之后,在

pytorch documentation URL

🔧 输入 URL 后,别忘了给文档起个名字。这里我们用 PyTorch 作为名称。之后,在聊天时只需输入 @PyTorch 就能引用这个文档啦!

cursor ai adding documentation

📌 所有添加的文档引用都可以在 Cursor 设置的"功能"选项卡中统一管理:

cursor ai features tab

11 - 各种开发语言支持

虽然本文的示例主要使用了 Python、HTML 和 CSS,但 Cursor 可不是只能处理这些语言哦!因为它基于 通用 LLMs 技术,所以几乎支持所有编程语言。它会根据文件扩展名自动识别语言类型,是不是很智能?

12 - 支持各类扩展工具

因为 Cursor 是基于 VS Code 开发的,所以它继承了 VS Code 强大的扩展生态系统。想安装扩展?只需打开 视图 菜单就能找到所有可用的扩展。

Extensions in Cursor

想为 Python 配置 Cursor?我强烈推荐 VSCode Python 设置教程,因为 Cursor 和 VSCode 的功能几乎完全一致。

13 - 支持团队协作

在 Cursor 中使用 Git 等协作工具,和其他编辑器没什么区别。这些工具不关心代码是怎么写的。Cursor 还有一些专门为 Git 设计的扩展,让你的协作更轻松!

注意:Cursor 的聊天功能支持用 @ 操作符引用 Git 仓库。但如果仓库里有敏感数据,使用这个功能时要特别小心哦!

Adding a Git repository to the chat context

14 - 设置自定义 AI 规则

想让 AI 更懂你的需求?Cursor 允许你设置自定义规则!这些规则可以在常规设置菜单中找到:

cursor settings menu

这些规则可以永久性地改变 AI 的行为。比如,你可以添加一条规则:“在 Python 函数定义中始终使用类型提示”,这样 AI 就会自动遵守这个规范,不用每次都提醒它。

15 - 自定义 AI 模型接入

Cursor 还有一个超酷的功能:支持添加其他 AI 模型!你可以在 模型 设置中找到这个选项:

Custom AI models

在这里,你可以添加新的 AI 模型。如果你有自己的 API 密钥,也可以在这里配置使用。

Cursor AI vs GitHub Copilot

Cursor AI 和 GitHub Copilot 都是超棒的 AI 代码助手,但它们各有特色:

Cursor AI 基于 VSCode 开发,是一个独立的编辑器。它与开发环境深度集成,能自动完成各种任务并提供智能代码建议,让编码和重构变得更简单。特别适合喜欢深度定制 IDE 的开发者。

GitHub Copilot 由 GitHub 和 OpenAI 联合开发,支持 Visual Studio Code 等多种流行编辑器。它能根据你的编码风格和项目上下文,提供智能代码建议。特别擅长预测下一行代码,支持几乎所有主流编程语言。

从集成角度看:

  • Cursor AI 在独立的 VSCode 环境中提供了强大的定制功能,可以显著提升某些开发者的工作效率
  • GitHub Copilot 则以易于设置和广泛的 IDE 兼容性著称,让更多开发者能够快速上手

两者都提供实时代码建议,支持多种语言和框架。Cursor AI 的深度集成在特定任务中更有优势,而 GitHub Copilot 的广泛兼容性和简单设置让它更容易被大众接受。

选择 Cursor AI 还是 GitHub Copilot?这取决于你的定制需求、集成偏好和预算等因素。两者都能显著提高编码效率,只是方式不同。

结论

像 ChatGPT 这样的工具让编程变得更简单,因为你可以用自然语言描述需求。Cursor 更进一步,直接把 AI 集成到编辑器中,省去了在编辑器和聊天界面之间来回切换的麻烦。

虽然 Cursor AI 提供了一个深度集成 VSCode 的独立解决方案,但 GitHub Copilot 在各种 IDE 中提供了更多灵活性。选择哪个工具,最终取决于你对定制化和易用性的需求。

总之,Cursor AI 是一个强大的 AI 驱动代码编辑器,它正在改变开发者编写、重构和调试代码的方式!

常见问题

Cursor AI 是什么?

Cursor AI 是一款创新的 AI 驱动代码编辑器,专门为简化和增强编码过程而设计。它利用 AI 技术提供智能代码补全、代码生成和代码库理解等高级功能。

如何在 Cursor 编辑器中打开 AI?

Cursor AI 的功能已经完美集成到编辑器中。你可以使用 Ctrl+K 快捷键,或者直接选中代码来触发 AI 操作。比如,选中代码后按 Ctrl+K,就能根据你的需求编辑或生成新代码。

Cursor AI 是免费的吗?

是的!Cursor 提供了一个功能强大的免费版本。他们还提供了 Pro 计划,可以访问更强大的 AI 模型和更大的上下文窗口,让你更深入地理解代码。目前支持 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等模型。

Cursor 使用 Claude 吗?

没错!Cursor 支持使用 Claude 3 Opus 和 Claude 3.5 Sonnet 这些高级模型。

Cursor 是基于 VSCode 的吗?

虽然 Cursor 看起来和 VSCode 很像,但它其实是基于自己的独立代码库开发的。这让 Cursor 能够专门为 AI 驱动的编码功能优化其架构。

三步打造你的专属DeepSeek AI程序员

本指南将带你使用 DeepSeek、VSCode 和 Cline 开源扩展搭建 AI 程序员。通过 AI 辅助提升开发效率、扩展技术栈并自动化开发任务。包含详细步骤、使用心得和替代方案。

本文使用ClinePRO自动翻译完成 原文作者:Rana Ahsan,链接 https://codesamplez.com/productivity/ai-coding-agent

AI 程序员设置

作为一名资深开发者,我想分享一个彻底改变我编程方式的工具——AI 程序员。今天,我将带你使用 VSCode 和 Cline(一款免费开源扩展)搭建属于自己的 AI 程序员。起初我也持怀疑态度,但经过几个月的使用,它彻底改变了我的工作方式。如果你想提升编程效率,不妨跟着我一起探索这个神奇的工具。

AI 程序员是什么?

简单来说,AI 程序员就是将先进的大型语言模型(LLMs)直接集成到编程环境中的智能工具。它不仅能帮你写代码,还能发现潜在错误,甚至在编码时提供改进建议。还记得我第一次看到它自动修复我遗漏的错误时,那种惊喜感难以言表。想象一下,你身边随时都有一个编程高手在默默协助你,是不是很酷?

为什么要使用 AI 程序员?

这个工具可不是什么花哨的噱头,它实实在在地让编程变得更高效、更有趣。比如:

  • 需要写 Python 代码但已经生疏了?别担心
  • 想把老旧的 JavaScript 代码重构为现代 TypeScript?轻而易举
  • 想快速生成项目文档?几秒钟就能搞定

这些助手不仅能帮你处理重复性工作,还能在你之前发现潜在问题,甚至提出你没想到的优化方案。以下是我强烈推荐它的几个理由:

  • 效率倍增: 让你从繁琐的重复劳动中解放出来,专注于创造性工作
  • 技能拓展: 轻松尝试新领域,不再被技术栈限制
  • 错误预警: 自动发现代码中的潜在问题
  • 文档助手: 快速生成清晰的技术文档

如果你还在犹豫,不妨想想:如果能更快、更好地完成项目,你会多出多少时间来做更有意义的事情?(建议观看下面的演示视频,感受它的强大功能)

手把手教程:搭建你的 AI 程序员

接下来,我将带你一步步使用 Cline 开源扩展在 VSCode 中搭建 AI 程序员:

1. 安装 VSCode

首先,你需要安装 Visual Studio Code。如果已经安装好了,可以直接跳到下一步。如果还没有,赶紧去官网下载吧。作为一个老用户,我可以负责任地说,VSCode 绝对是值得拥有的 IDE。

2. 安装 Cline 开源扩展

重头戏来了!打开 VSCode,进入“扩展”市场,搜索“Cline”并安装。就这么简单,你已经拥有了一个强大的 AI 助手。

Cline VSCode 扩展

3. 配置扩展

Cline 配置

安装完成后,你需要进行一些基本配置:

  1. 配置 AI 模型: 你可以到 https://deepseek.com 免费注册并获取API密钥,按上图配置到 Cline 后即可享受 AI程序员的超级能力了。
  2. 其他设置: 这里还有很多个性化选项,建议你先保持默认,等熟悉后再慢慢调整。

4. 开始你的 AI 编程之旅!

现在,你可以在 VSCode 中打开任何项目,开始使用 AI 程序员了。只需输入你的需求,就能看到它自动生成代码、发现错误,甚至根据你的指示使用命令行工具获取相关信息。

来看看这个有趣的演示:VSCode+Cline 组合正在自己检查自己的编码量,看来AI也会内卷。

我的使用体验

我已经使用 AI 程序员几个月了,它极大地改变了我的工作流程。以下是我到目前为止学到的内容:

优点:

  • 提高生产力: 它使我的整体生产力提高了 5 倍。
  • 扩展专业知识: 我现在可以自信地编写我以前避免、生疏或不熟悉的领域的代码。
  • 高效错误修复: 它无需我不断监督就能发现明显的错误。

缺点/限制:

缺点主要来自 LLM 模型的智能水平,特别是:

  • 重复循环: 如果你将其置于“自动批准”模式,它有时会重复循环相同的更改。
  • 能力: 如前所述,只有像 Claude 3.5 这样的模型支持图像和计算机使用能力,以充分利用它。

我相信随着 LLM 随着时间的推移变得更智能、更强大,许多缺点将会消失。

替代方案:

虽然我非常享受使用 Cline 作为我的个人 AI 程序员,并且不觉得立即需要尝试其他解决方案,但有一些替代方案你可以尝试,看看哪个适合你的用例/需求:

  • ClinePRO: Cline 的分支,具有中文本地化和企业功能
  • Roo-Code: Cline 的分支,具有一些添加的高级功能。
  • Aider: 基于 Cli,没有任何 IDE 限制。
  • Cursor: 使用 VSCode 的分支作为 IDE。付费解决方案。非开源。

我确实计划在某个时候尝试这些。但是,如果你尝试了上述任何一项并有反馈要分享,请随时在下面评论。我很乐意听取你的想法!

最后的话:未来已来

使用 VSCode 和 Cline 免费开源扩展设置你的 AI 程序员是一个简单的过程,可以永远改变你的编码方式。通过一点初步的努力,你将解锁一个不仅加快你的工作流程,而且为学习和创造力开辟新途径的工具。我已经亲眼看到了好处,我相信你也会看到!

我的建议?今天就设置它。花一个小时熟悉它。我保证你的未来自我会感谢你——可能是在喝着咖啡,看着你的 AI 助手编写出原本需要你数小时的样板代码时。编码愉快!

2025年最佳AI程序员:Cline与Cursor哪个更好?

2025年Cline与Cursor AI编程助手的全面对比。 探讨了它们的理念、架构、模型灵活性、实际性能和成本结构。 提供了一个决策框架,帮助开发者根据工作流程和需求选择合适的工具。

本文完全使用 ClinePRO 自动翻译 原文作者:Nick Baumann 于2025年1月25日发表自 Cline Blog 原文链接

2025年最佳AI编程助手:Cline与Cursor完全指南

还记得GitHub Copilot刚推出时,我们以为AI辅助编程已经达到了革命性的巅峰吗?两年后,我们看到AI编程助手在开发方式上出现了有趣的分歧。随着Cline(3.2)和Cursor(0.45)的最新发布,我们不仅见证了功能的较量,更看到了AI与开发者合作方式的哲学分歧。

我见证了这两款工具的成长。让我们抛开炒作,看看2025年这些工具真正提供了什么。

AI辅助开发的现状

在深入细节之前,让我们先了解当前的情况。AI编程助手已经远远超越了简单的自动补全。它们现在可以处理复杂的重构,理解整个代码库,甚至执行终端命令。但Cline和Cursor从根本不同的理念出发来实现这些功能。

当前版本和稳定性(截至2025年1月24日)

工具 版本 重要变化
Cline 3.2 - 双模式执行(Act & Plan)
- MCP开关
- 增强的模型支持
Cursor 0.45 - 仓库级规则
- 总结之前的对话
- 待定的Fusion标签模型

两条路径:快速与深思熟虑

Cursor和Cline的根本区别不在于技术能力,而在于它们如何看待开发者与AI的关系。

Cursor:响应式伙伴

Cursor秉承即时优先的理念,专注于快速编写代码:

  • 在输入时提供快速代码建议
  • 快速文件编辑和重构
  • 上下文感知的补全
  • 直接的编辑器内体验

这种方法在帮助保持编码动力方面表现出色,尽管一些用户发现偶尔需要重新审视和优化快速建议。当你对想要构建的内容有清晰愿景,并且需要帮助提高实现速度时,这种方法特别有效。

Cline:深思熟虑的协作者

把Cline想象成一位资深开发者就在你身边——一位既擅长指导初学者,又能与经验丰富的团队协作的开发者。虽然一些AI助手只是编写代码,但Cline采取了更人性化的方法:

  • 与你一起逐步解决问题,用通俗易懂的语言解释每一步
  • 在教授最佳实践的同时,解释为什么它们很重要
  • 将复杂问题分解为可管理的部分
  • 就实现选择保持自然对话

这种方法不仅仅是编写更好的代码——它关乎开发者的成长。无论你是构建第一个应用程序还是设计企业解决方案,Cline都会根据你的水平调整指导。结果如何?初学者学习更快,经验丰富的开发者获得更易维护的解决方案。这就像与一个真心希望你成功的伙伴进行结对编程。

超越代码生成:MCP的优势

虽然这两款工具都可以修改代码,但Cline对模型上下文协议(MCP)的集成代表了AI辅助开发的一个根本性飞跃。可以这样理解:大多数AI编程助手就像拥有一位只能输入代码的出色开发者。MCP将Cline转变为一位能够真正与整个开发环境互动的开发者。

这在实践中意味着什么?通过MCP,Cline可以:

  • 运行和分析测试
  • 管理Git操作
  • 更新文档
  • 与项目管理工具交互
  • 连接现有的开发工具

这不仅仅是便利——它关乎保持上下文并真正理解你的项目。Cline不再需要在工具之间切换上下文,而是成为开发工作流程的集成部分。正如一位企业用户所说:“这不仅仅是编码了——它是一个真正的开发伙伴。”

更重要的是,MCP是可扩展的。团队可以创建自定义的MCP服务器,将Cline与他们特定的工具和工作流程连接起来,使其适应任何开发环境。这意味着随着需求的演变,Cline会变得更强大。

核心架构:两个不同的世界

这两款工具的第一个主要分歧在于它们的基本架构。这不仅仅是一个技术细节——它影响着从安装到日常使用的方方面面。

架构对比

特性 Cline Cursor
基础架构 IDE扩展 独立IDE
集成方式 扩展现有工作流程 创建新环境
控制理念 人在回路中,需要明确批准 更自动化的方法
资源使用 根据所选模型而变化 固定基线

模型灵活性

这两款工具之间最显著的区别可能在于它们对AI模型的处理方式。随着AI模型的快速发展,被锁定在单一提供商不仅关乎成本——它还限制了团队为每个特定任务利用最佳工具的能力。

模型支持矩阵

方面 Cline Cursor
访问模式 BYOK(自带密钥) 固定提供商集成
支持的模型和API提供商 - Claude 3.5 Sonnet
- DeepSeek V3, R1
- OpenRouter < br> - AWS Bedrock
- Mistral
- GCP Vertex
- 开源模型
- GPT-4o, o1 models
- Claude 3.5-Sonnet

Cline在模型支持方面的灵活性不仅仅是一个功能列表项——对于需要以下方面的团队来说,这是一个根本优势:

  • 控制API成本
  • 确保数据隐私
  • 为不同任务尝试不同模型
  • 保持合规要求

实际性能:超越规格

理论是一回事,但这些工具在实际开发中表现如何?让我们分解一下日常开发中重要的关键能力。

技术能力矩阵

能力 Cline Cursor
代码分析 - 文档结构分析
- 代码语义分析
- 通过VS Code API进行问题诊断
- 动态上下文扩展
- 内置代码库索引
- 语义搜索
- 仓库级规则
- Fusion标签模型(待定)
文件操作 需要批准的多文件操作 直接文件操作
上下文处理 基于MCP的上下文管理 内置上下文管理

用户分享他们对这两款工具优势的看法:

“Cline能够实际处理结果(SQL、REST、存储账户等),这是我在工作中看到的最大优势。”

“Cursor有非常好的就地编辑功能,并且能够在终端上提示。”

成本问题:理解价值与数量

最实际的考虑因素之一是成本,但关键是要理解你真正支付的是什么。把AI辅助想象成建造房子——你可以购买预先切割的固定数量的材料,或者与一位建筑师合作,根据你的具体项目需求使用材料。

定价结构

层级 Cline* Cursor*
基础版 基于token的定价 免费Hobby层级
专业版 基于token的定价 $20/月Pro层级
企业版 基于token的定价 $40/用户/月Business层级

*参考 OpenRouter的模型定价
*Cursor定价

AI辅助的真实经济学

Cline基于token的定价反映了开发中的一个基本事实:上下文很重要。虽然其他工具可能会限制上下文以降低成本,但Cline采取了相反的方法——它读取整个代码库,理解文档,并在整个会话中保持深入的项目上下文。是的,这可能意味着更高的token使用量,但这就像一个只会建议代码的AI与一个真正理解你项目的AI之间的区别。

这种方法在几个方面得到了回报:

  • 初学者花费更少的时间修复错误的建议
  • 团队避免了昂贵的架构修订
  • 项目进展更快,减少了弯路
  • 通过更好的理解自然地学习

使用案例深度剖析

不同的开发场景需要不同的方法。让我们看看每款工具如何处理特定情况。

使用案例优化

场景 Cline Cursor
快速编辑 需要批准流程 为快速编辑优化
复杂重构 强大的多文件支持 仓库级理解
团队协作 内置审查流程 共享规则系统

当前局限性和已知问题

透明地了解局限性对于做出明智决策至关重要。

Cursor的当前挑战

  • 一些用户报告性能下降
  • 待定功能如Fusion标签模型
  • 固定提供商模型的局限性

Cline的约束

  • 灵活的成本需要关注使用情况
  • 深思熟虑的方法优先考虑准确性而非速度
  • 根据所选模型而变化的性能

做出选择:决策框架

在选择这两款工具时,请考虑以下关键因素:

  1. 开发环境
    • 团队工作流程偏好
    • 集成要求
  2. 成本结构
    • 预算可预测性需求
    • 使用模式
    • 团队规模
  3. 控制要求
    • 安全需求
    • 合规要求
    • 模型灵活性需求

决策矩阵

如果你需要… 选择Cline 选择Cursor
模型灵活性
固定成本
快速原型设计
最大控制
简单设置
工具集成(MCP)

最终结论

在Cline和Cursor之间的选择不是关于哪款工具"更好"——而是关于与你的开发理念和需求保持一致:

  • 如果你重视模型灵活性、控制以及与现有工作流程的集成,选择Cline
  • 如果你更喜欢独立的体验、可预测的定价和快速的开发能力,选择Cursor
  • 如果你想同时使用两者,可以在Cursor IDE中使用Cline

记住:最好的工具是适合你的工作流程,并帮助你更高效地编写更好代码的工具。


使用Cline构建高级软件:结构化方法

全面指南:如何利用Cline进行复杂软件开发,聚焦人类洞察力与AI能力的结构化协作。学习AI辅助开发中的规划、实施与持续学习策略。

作者: Daniel Steigman (Nighttrek)

使用Cline构建高级软件:结构化方法

作为一名Cline的深度用户,我在现代软件开发中发现了革命性的变化。Cline不仅仅是工程工具箱中的另一个工具,它彻底改变了我们处理复杂问题的方式。通过不断突破自动化极限,我认识到真正的力量并非完全自动化,而是人类洞察力与AI能力的协同效应。

使用这些工具越久,我越发坚信:人类智能与人工智能的结合,正是创造超级智能的关键。

AI辅助开发的演进

初识Cline时,我像许多工程师一样,期望通过简单描述就能获得完美代码。虽然这在新建项目或简单修改时效果显著,但我很快发现,在现有代码库中实现复杂功能需要完全不同的思维方式。

关键突破在于:零样本提示(试图一次性完成所有工作)往往效果不佳。相反,我开发了一种结构化协作方法,充分发挥人类和AI的各自优势。

复杂功能实现的艺术

实现复杂功能的第一步是接受一个基本事实:无法通过单一提示完成目标。事实上,试图这样做通常会导致需要更多时间修复的次优方案。核心问题在于:生成的代码往往不符合开发者心中的预期。

这是因为AI无法真正理解开发者的想法,它会按照自己的逻辑编写代码,而非遵循开发者偏好的模式和方式。

成功的关键在于:从全面规划开始。我的方法是先与Cline对话,目标是创建一份markdown文档,详细说明第三方工程师实现该功能所需的所有信息。

在规划阶段,我会监控Cline读取源代码文件的过程,确保它确实读取了所有重要文件。必要时,我会明确指示它读取导入模块的源代码,或查看类似示例以理解代码风格。

这种方法彻底改变了我与Cline的合作方式。下面让我详细介绍我的工作流程。

开始对话

我总是从简单描述目标开始。例如:“我需要实现一个与我们现有用户管理系统集成的实时通知系统。“然后分享我的初步想法。

特别有效的是提供上下文。使用@file或@url语法,我直接将Cline指向代码库中的相关文件。这个上下文设置阶段至关重要,就像让Cline了解项目的架构和约束条件。

规划过程

提问的力量

最重要的经验之一是:鼓励Cline提问。问题不仅是收集信息,更是一种思维过程,帮助Cline和我更有效地推理问题。

当Cline提问时,我经常会发现一些被忽视的问题方面。它可能会询问边缘情况、性能影响或不太明显的集成点。这种互动创造了一个强大的反馈循环,每个问题都能带来更深入的理解。

探索多种解决方案

另一个关键策略是:要求Cline提出并评估多种解决方案。不满足于第一个想法,而是探索不同的方法,并分析每种选择的优缺点。这多次帮助我发现比我最初设想更优雅或更高效的解决方案。

这种方法的优势在于:结合Cline快速分析不同方法的能力,以及我对系统环境的深入理解。我们可以共同评估权衡,做出更明智的决策。

创建全面的实施计划

在探索各种方法并回答关键问题后,我会让Cline生成详细的实施计划。这不仅仅是一个简单的提纲,而是一个全面的文档,作为整个功能的蓝图。

该计划通常包括:

  • 架构决策及其理由
  • 具体代码示例
  • 接口定义
  • 相关源文件引用
  • 关键代码片段

我发现包含图表等视觉元素对理解组件交互非常有帮助。最重要的是,在阅读文档时,我必须完全理解如何按照指南实现功能。

花时间开发完整的实施计划是值得的,因为它将在实际代码生成过程中节省大量时间。

来自实战的实用技巧

通过实践,我总结了一些显著影响成功的关键因素:

开发技巧

上下文管理至关重要
我发现,当对话超过约200万个token时,质量会下降,因为Cline开始忘记重要细节。将任务分解成更小的块并开始新的会话有助于保持清晰度和专注度。

值得注意的是,虽然一些新模型(如DeepSeek V3)声称支持高达131K token,但我的经验是,接近60k时,推理和编码能力就会显著下降。因此,将计划分解成可管理的块,有助于保持高质量的生成。

确保Cline读取必要文件
另一个关键发现是:Cline并不总是自动读取源文件。当我明确确保Cline可以访问库源文件时,生成代码的质量显著提高。在编辑文件前,我会监控Cline是否确实读取了相关文件,这确保它能正确使用基于差异的编辑工具。

深入理解是关键
最重要的经验是:如果我自己不理解某个概念,就很难让Cline有效实现它。有时,花时间彻底学习和理解一个概念,反而是最快捷的成功路径。制定开发计划的最大价值在于:它让我有时间在Cline实现之前,充分理解解决方案。

实施阶段

当需要实施时,我总是与Cline开始一个新的会话。这个新的开始,结合我们开发的全面计划,为高效的代码生成提供了完美的基础。该计划就像北极星,确保Cline和我在目标和方法上保持一致。

拥抱持续学习

最令我着迷的是,与Cline合作如何改变了我的软件开发方式。它没有取代传统的工程技能,而是通过迫使我更系统地思考问题解决和架构,增强了这些能力。

与Cline一起开发技术规范的过程,使我成为了更好的沟通者和架构师。它教会我更有效地分解复杂问题,并在承诺解决方案之前考虑多种方法。

展望未来,在AI时代,当我考虑招聘流程时,我会更注重系统设计和计算机科学基础知识,而非传统的算法面试。这些是未来工程师在AI主导的环境中保持竞争力的关键技能。

结论

使用Cline的成功不在于找到完美的提示或一次性生成代码,而在于拥抱一种结合AI能力和人类洞察力的协作方法。通过遵循结构化流程,保持积极对话,并仔细记录决策和理由,你可以在保持高工程标准的同时,处理日益复杂的功能。

请记住,目标不是自动化工程过程,而是增强它。当你找到人类创造力和AI辅助之间的完美平衡时,你将在软件开发旅程中发现一个全新的生产力和能力水平。

AI公司需要怎样的人才?传统机器学习工程师可能并不适合

AI公司更需要专注于现有模型测量和系统化改进的工程师,而非传统的机器学习专家。本文转载并翻译自Cline产品博客,其中探讨了过早雇佣ML工程师的20万美元错误,以及AI工程师这一新兴角色的重要性。本文使用ClinePRO完成主体翻译并人工审核。

Cline - 一个会思考能执行的的AI程序员

Cline可以处理复杂的软件开发任务。通过创建和编辑文件、探索大型项目、使用浏览器以及执行终端命令(在获得许可后)等工具,Cline能够以超越代码补全或技术支持的方式协助你。

ClinePRO Home

Cline甚至可以使用模型上下文协议(MCP)创建新工具并扩展自身能力。虽然传统的自主AI脚本在沙盒环境中运行,但此扩展提供了一个需要人工参与的GUI来批准每个文件更改和终端命令,为探索代理AI的潜力提供了一种安全且易于使用的方式。

以下视频展示了使用 ClinePRO 对代码库代码行数进行统计并修改README.md的过程,可以看到Cline不仅仅是个助手,更加是一个会思考能执行的AI程序员。

AI公司需要怎样的人才?传统机器学习工程师可能并不适合

在Cline,我们的用户已突破50万,并获得了顶级风投的巨额融资。作为AI负责人,我最近面试了一位优秀的机器学习工程师候选人。尽管背景扎实,我还是投了反对票。让我解释原因——这揭示了AI公司当前真正需要什么,而在这个问题上犯错可能会造成20万美元的损失。

20万美元的教训:过早雇佣ML工程师如何扼杀AI初创公司

在资金充足的AI初创公司中,我反复看到这样的模式:

  1. 用AI概念获得大额融资
  2. 急于雇佣昂贵的ML人才来"验证"AI方向
  3. 看着这些人才花数月时间搭建基础架构
  4. 最终他们跳槽到真正有ML挑战的公司

真正的成本不仅是20万美元的薪资——更是用错误团队搭建错误基础设施的机会成本。看着你的ML(机器学习)专家花六个月时间调试TypeScript错误和编写REST API,而不是做他们被雇佣来做的工作。

快速说明:“机器学习工程师和AI工程师的区别是什么?”

MLE(机器学习工程师)和AI工程师有很多共同点 – 都处理非确定性系统,都关注构建健壮系统。关键区别在于:

  • MLE通常专注于从零开始训练定制模型,就像用原材料制造新引擎
  • AI工程师,特别是在当今LLM驱动的环境下,专注于有效使用和改进现有强大模型——更像是懂得如何将高性能引擎集成到完整系统中,测量其性能,并系统化改进其实际工作方式的机械师

这两个角色都很重要,但目前大多数公司更需要机械师,而不是引擎制造者。

实践中的模式:面试案例分析

让我分享一个说明问题的面试对话:

“我们的代码助手有时会做出非最优的选择——例如,当用户搜索“Levis服装”时没有包含牛仔裤。你会如何改进?”

一位候选人最近回答:

“也许我们可以使用dropout层…感觉它过拟合了…”

这种在理解问题之前就跳转到ML架构的回应,完美展示了我们需要改变的一种思维方式。

这些不是错误的答案——它们是对错误问题的回答。它们揭示了一种仍然停留在传统ML的思维模式,而我们需要的是完全不同的东西。

成长中的AI公司真正需要什么

在Cline,和许多AI公司一样,我们的挑战不在于训练模型。而在于:

  1. 理解系统如何运行
  2. 系统化地衡量成功
  3. 有条不紊地改进行为

在讨论改进时,我经常看到这样的模式:

候选人:“也许我们可以微调模型…”

我:“我们如何衡量这是否真的带来了改进?”

候选人:“哦…我们可以看看用户行为…”

这种引导式对话不应该是我做的事情,最优秀的候选人会立即问:

  • “你们目前如何衡量成功?”
  • “什么信号表明工具选择错误?”
  • “你们收集了哪些用户交互数据?”

新一代AI工程

我们看到了一种新型工程师的崛起——这些人需要综合以下这些特质:

  • 传统软件工程的系统思维
  • 对非确定性系统的严谨态度
  • 对LLM能力和局限的实际理解
  • 专注于测量和系统化改进

这些工程师正在构建:

  1. 复杂的prompt评估框架
  2. LLM行为的实时监控系统
  3. prompt改进的A/B测试基础设施
  4. 与业务成果一致的清晰成功指标

在Cline,这已经转化为具体成果:

  • 系统化改进流程提高了成功率
  • 清晰的指标驱动产品决策
  • 可扩展的系统随着用户增长而发展

面试中的危险信号

注意以下这些面试者的回应:

  • 用不确定而非好奇回应(“我猜也许…")
  • 需要被引导到实际解决方案
  • 无法独立提出测量方法

我经常看到这样的模式:

我:“你如何验证你的改进确实有效?”

候选人:“我猜我们可以收集更多验证数据…”

我:“那用户行为呢?”

候选人:“哦…对…”

优秀候选人的特征

最优秀的候选人表现出:

  • 关于测量的系统思维
  • 专注于理解当前行为
  • 对用户反馈和指标的兴趣
  • 务实的改进方法

最好的回应始于:

“首先,我们需要理解成功是什么样子的。我们是否对用户如何使用平台有可观测性?我们如何知道工具选择失败?”

组建合适的团队

对于构建基于LLM应用的AI公司,以下是需要优先考虑的:

基础设施先行

  1. 健壮的遥测系统
  2. 清晰的成功指标
  3. 评估框架

合适的技能

  1. 系统思维
  2. 测量专注
  3. LLM理解

未来发展

  1. 数据收集
  2. 系统化改进
  3. 可扩展架构

展望未来

我们最终需要传统的ML专业知识吗?当然。但首先,我们需要建立能让这些专业知识发挥价值的基础。

目前,我们需要能够完成以下工作的工程师。

  1. 构建健壮的测量系统
  2. 实施系统化改进
  3. 清晰思考LLM行为
  4. 创建可扩展评估框架

AI工程的未来不仅仅是ML专业知识——更是构建能够有效利用和改进AI能力的系统。我们越早认识到这一点,就越能更好地构建和扩展AI产品。

春节假期,我用DeepSeek + ClinePRO 写了个AI应用,效率提高12倍

这个春节假期,我用DeepSeek + AISE ClinePRO开发了一个完整的产品。总编码时长20小时,AI负责了整个项目的构建、代码编写、测试和调试,我自己没有写一行代码。如果采用传统人工方式,同样的项目规模至少需要240小时。粗略计算,这次AI编程挑战让总效率提升了12倍。

你见过凌晨5点的尖沙咀么?
你见早上6点的牛车水么?
你在圣淘沙的日出中,看着AI写过代码么?

这个春节假期,我把这些都体验了一遍。每天早上5-8点,用DeepSeek + AISE ClinePRO开发了一个完整的产品。总编码时长20小时,大部分时间花在了思考如何拆解问题和为AI提供最优化的上下文上。AI负责了整个项目的构建、代码编写、测试和调试,我自己没有写一行代码。

如果采用传统人工方式,同样的项目规模至少需要3个开发者2周的全职工作,也就是240小时。粗略计算,这次AI编程挑战让总效率提升了12倍。

看了上面这些数据,大家又会惊呼程序员要失业了。那我可以负责任的告诉你,程序员不仅不会失业,而且还会更加重要,更加专业,更加强大。具体的原因,请见本文末尾的视频展示和我的分析。

在这个系列文章中,我将全面分享整个开发过程,涵盖从产品设计思路到架构设计,从工具选择到所有提示词的使用细节。此外,我还会开源部分代码,供大家学习和参考。特别值得一提的是,我在这个过程中对 DeepSeek V3/R1 和 Claude 3.5 Sonnet 的实际编程能力进行了对比测试,对于 DeepSeek 在企业级编码实战中的应用效果,我也会分享我的判断和实操技巧。

文章系列

这个系列文章将分为以下几个部分,持续更新,带你深入了解 AI 如何助力开发,以及如何从零到一打造一个完整的项目:

  • 开篇 - 文章将从 Code2Docs.ai 的产品设计思路和背景讲起,展示当前的产品效果,并对整体架构和开发环境进行介绍。同时,我会总结 AI 辅助开发中效率提升最明显的几个关键点,为你揭示 AI 如何成为开发者的超级助手。
  • 创建项目和主流程开发 - 这一部分将详细介绍如何使用 AI 从零开始创建代码工程,并实现输入 Git 库地址触发生成动作的主流程。内容涵盖一个基于 Python 的 API 开发、一个 GitHub Action 的开发,以及一段简单的前端调用 API 的实现,展现 AI 在项目启动阶段的高效助力。
  • GitHub Action 开发 - GitHub Action 是本次核心功能实现的驱动主体,涉及复杂的 Linux 脚本操作,比如 JSON 文件的生成、读取和解析等。我将分享如何利用 GitHub Workspace 编写有效的 issue 说明,并对智能体生成的任务计划进行细节调整和运行调试,展现 AI 在自动化流程中的强大能力。
  • 多语言和页面布局调整 - 多语言支持和页面布局调整是前端开发中的繁琐任务,但借助 AI,这些工作变得异常简单。我将介绍如何使用 AI 一键添加多语言界面,并完成大量内容翻译工作。AI 在几分钟内完成了人类可能需要 3 天才能完成的任务,效率提升令人惊叹。
  • 生成过程监控 - 生成过程监控是本次开发中较为复杂的部分,需要创建一个状态页面来实时查询后台作业进展,并将进展显示给用户。这一任务涉及后台 API 的实现、前端的调用以及对返回数据的渲染,非常贴近企业日常业务开发场景,展现 AI 在实际应用中的实用性。
  • 首页和文档库页面优化 - 在这一部分,我将分享如何对代码结构进行重构,将页面元素抽取为可复用的组件。AI 在这一过程中起到了关键作用,帮助快速完成优化任务,进一步提升代码的可维护性和扩展性。
  • 杂项 - 最后,我将介绍如何让 AI 自动完成各类文档工作,比如关于页面、隐私说明、服务条款等。通过让 AI 读取模板并根据当前项目代码自动修正生成内容,这些繁琐的任务变得轻松高效,展现了 AI 在多任务处理中的灵活性。

以上是我在春节期间完成的主要工作。Code2Docs.ai 的开发仍在继续,我也会持续更新更多内容,比如最近正在进行的 Docker 部署和 CI/CD 流水线搭建,AI 同样表现得非常给力。

背景

去年12月,DeepSeek推出了V3版本,经过我们的初步测试,其编程能力已经接近Claude 3.5 Sonnet。今年春节前的1月20日,DeepSeek又推出了推理模型R1,编程能力再次提升,在大多数场景中已经能够非常准确和稳定地完成任务级别的编码。刚好,团队也完成了AISE Workspace中Code2Docs的基础能力。于是,我的脑子里冒出了一个想法:能否在春节期间用DeepSeek + ClinePRO来完成一个完整的应用开发呢?

产品展示

Talk is simple, show me the code and app.

Code2Docs.ai 站点已经上线,大家可以扫描下图中的二维码访问,或者直接打开网址:https://code2docs.ai

下面的截图是 DeepSeek 根据应用代码自己生成的"关于"页面,可以很好的说明其功能:

Code2Docs 是一款创新的文档生成工具,可将您的代码仓库转换为精美、全面的文档。我们的AI驱动系统分析您的代码库,创建清晰、准确且可维护的文档,并随着项目的发展而演进。

下面是使用 Code2Docs.ai 基于源码生成的文档库的示例。Code2Docs.ai 能够根据项目的文件结构扫描整个代码库,并对每个模块的代码使用 AST(抽象语法树)进行拆解和分析。在这个过程中,Code2Docs.ai 会调用 DeepSeek V3 模型对源码进行反向工程解析,将其转化为自然语言解释。最终,工具会根据项目的模块结构逐层汇聚信息,生成项目级文档。

目前,Code2Docs.ai 生成的文档内容仍然偏向技术层面,但基于结构化的代码语法树,我们计划逐步提升信息的层次,使其更加适合人类开发者阅读。例如,未来我们将生成 API 文档、代码调用示例以及业务场景描述等更贴近实际需求的内容。同时,除了 Markdown 格式,我们还将支持更多文档格式,如 Word 和 PowerPoint,以满足不同场景的需求。

我们坚信,代码中已经隐含了各种业务逻辑和场景。借助生成式 AI 的理解能力和大规模数据处理能力,Code2Docs.ai 的目标是通过技术手段彻底实现"文档自由"。我们的终极愿景是解除开发者编写文档的工作负担,让大家能够专注于核心业务和有价值的工作,而将繁琐的重复性劳动交给 AI 来完成。

产品设计

大年初二、北京大兴机场,终于下雪了 ….

在从北京飞往香港的飞机上,我为Code2Docs.ai设计了以下工作流程,主要基于以下几点考虑:

  1. 代码库生成完整文档库:这一能力已经由AISE Workspace实现,可以通过一个命令行指令来调用,完成对代码库的解析和文档库生成。
  2. 自动化系统:最简单的实现方式是通过一个持续集成工具(如GitHub Action)来调用这个命令行工具,并通过API触发这个动作。

围绕这个最基本的实现思路,我为整个应用设计了三个模块:

  1. 前端网站:提供一个桌面和移动端访问的前端网站。这次完全从零构建。
  2. 后台API:提供一个后台API,用于调度AISE Workspace的Code2Docs能力。基于AISE CLI增加API来完成。
  3. 自动化系统:提供一个异步多进程的作业执行和状态维护系统。基于GitHub Action来完成。

一个简化版的场景图如下(备注:下图由AISE根据以我输入的思路完成)

进一步细化后,我整理了如下的产品关键业务流程说明,并根据这个让AISE进一步生成了详细的系统调用时序图:

  1. 用户输入:用户可以在首页输入一个Git代码库地址,并点击生成按钮。
  2. 触发GitHub Action:Code2Docs.ai 会自动触发一个预先设置好的 GitHub Action。
  3. 文档生成和日志记录:这个 GitHub Action 会完成一系列的文档生成和日志记录功能,包括:
    • 提取组织名称和代码库名称:根据输入的 GitUrl 地址,自动提取组织名称和代码库名称,并创建一个新的Git库来承载生成的文档内容。
    • 维护 workflow_runs.json:维护一个 workflow_runs.json 文件,并在其中处理作业的完成情况。
    • 调用 AISE Workspace Code2Docs 能力:调用 AISE Workspace Code2Docs 能力,将用户输入的 GitUrl 拉取下来,对其中的代码文件进行提取和拆解,在 AISE Workspace 的后台数据库中生成基于 AST(抽象语法树)的数据结构;再基于这个数据结构对代码树的各个叶子节点进行AI解析(代码解释);最终逐级提取概要信息,形成项目级文档库。
    • 推送文档库:最终将以上生成的文档库推送到第一步生成的文档Git库中。
  4. 结果统计:Code2Docs.ai 会持续读取 workflow_runs.json 来获取生成结果统计,并显示在站点上。

以下是时序图,看起来更加清晰一些(下图由AISE根据以上场景描述生成)

以上GitHub Action部分的代码库是公开的,大家可以从这里查看:https://github.com/code2docs-ai/code2docs-ai-core

效率神器

为了提升使用体验,并验证 DeepSeek + ClinePRO 的编码能力,我对这个站点进行了一系列优化。在这个过程中,我发现了一个有趣的现象:尽管 AI 被称为“人工智能”,但它最擅长的其实是帮助我们人类完成那些繁琐、重复的任务。毕竟,计算机的数据处理速度远超人类,这是它的天然优势。在实际的编码任务中,如何充分发挥 AI 的数据处理能力,才是我们提升效率的关键所在。

通过这次实践,我深刻体会到,AI 并不是要取代人类的创造力,而是成为我们的得力助手,帮我们节省时间,让我们能够专注于更有价值的事情。这种“人机协作”的模式,或许才是未来技术发展的真正方向。

中英文多语言处理:从繁琐到高效的神器

多语言处理虽然是一项成熟的技术,但在实际实现中却是一项耗时费力的工作。难点在于,它不仅需要将页面中的所有文字显示元素替换为替代符,还需要为每种支持的语言编写资源文件。这个过程不仅耗时,而且在应用功能更新时,还需要持续维护这些代码,繁琐程度可想而知。

更复杂的是,中英文翻译本身也是一项挑战,尤其是当文字内容与应用功能逻辑混杂在一起时,如何选择合适的翻译词汇变得非常专业。在实际开发中,这些工作通常需要一个专业团队(程序员+翻译)协作完成。以 Code2Docs.ai 这样的网站为例,至少需要两名专业人员花费一周时间才能搞定。

但这次,有了 DeepSeek + ClinePRO 的加持,一切都变得简单了。我只需要输入一句提示词:“integrate the current page with LanguageContext.tsx”,AI 就能自动检测当前页面中未实现多语言的部分,并完成所有繁琐的工作。这简直就是效率神器!

移动端优化:从复杂到简单的开发革命

移动端优化,或者说响应式布局,一直是前端开发中耗时费力的任务之一。它要求开发者为页面中的所有元素提供至少两种不同的 CSS 样式,并确保这些样式在桌面浏览器和手机浏览器中都能正常显示。此外,还需要处理一些特殊组件,比如手机视图中右上角的“汉堡菜单”。对于开发人员来说,这不仅需要熟练掌握前端开发语言、框架和工具,还需要具备一定的美工素养,才能实现既美观又实用的效果。

然而,在这次 Code2Docs.ai 的前端开发中,我发现自己没有写一行代码——所有的样式和布局都由 AI 自动生成,而且视觉效果出乎意料地美观。更令人惊讶的是,这一切是在 Vite + React + Tailwind 这样一个我并不太熟悉的框架背景下完成的。在短短 5 天(每天 3小时)内,我完成了 10 个前端页面的开发。如果不借助 AI,这估计又是一个需要 2 周左右工作量的任务。

专业领域知识处理

在开发过程中,像价格、关于、隐私政策、服务条款和联系我们这些“杂项”,往往是开发人员最不愿意碰的部分。它们不仅繁琐耗时,还需要一定的法律常识。如果不简单套用模板,而是结合应用本身的特性来编写,那这又变成了一个至少需要两名专业人员(程序员+法律顾问)协作几天才能完成的任务。

但这次,借助 DeepSeek 通过 ClinePRO 的能力,一切都变得简单了。AI 自动读取了网络上的模板,并结合当前项目的代码,只用了不到 10 分钟就搞定了所有这些内容。

这种效率的提升,不仅让我从繁琐的重复劳动中解放出来,还避免了因法律知识不足可能带来的风险。AI 不仅是一个工具,更是一个能够将复杂任务简化的伙伴。它让我们能够专注于更有创造性的工作,而不是被这些“杂项”拖累。

项目总结

这个开发项目从 1 月 31 日(大年初三)启动,到 2 月 6 日(初九)基本完成了完整的 MVP(可运行的基础版本)。由于白天需要陪伴家人并且一直处于旅程中,我的开发时间主要集中在早上 5 点到 8 点之间并非每天都固定,总共耗时不到 20 小时。项目涉及一个前端项目(Vite + React + Tailwind)、一个后端项目(Python)以及一个自动化系统(GitHub Action)。

如果采用传统开发方式,这些工作通常需要 3 名开发人员(1 个前端、1 个后端、1 个 DevOps 工程师)花费大约 2 周时间,总计 240 小时才能完成。而通过 AI 的助力,我的效率提升了整整 12 倍!

这种效率的提升不仅体现在时间上,更体现在开发的轻松程度上。AI 帮助我自动化了繁琐的编码任务,让我能够专注于核心逻辑和设计。无论是前端页面的响应式布局、后端逻辑的实现,还是自动化部署的配置,AI 都成为了我的得力助手。

通过这次实践,我深刻体会到,AI 不仅是效率工具,更是开发者的“超级外挂”。它让我们能够以更少的时间、更低的成本完成更多的工作,同时还能兼顾生活的平衡。这种变革,正是技术发展的真正意义所在。

AI工具集

本次开发过程所使用的开发工具主要包括:

模型

  • DeepSeek V3 和 R1:DeepSeek 是这次开发过程的主力模型,我主要是用V3模型而不是R1,因为大多数编码过程V3已经可以胜任,我只有在一些V3搞不定的地方会切换到R1尝试一下。
  • Claude 3.5 Sonnet:这个主要是作为参照,因为这个模型在做过去的一年一直是驱动AI编码工具最优秀的模型。
  • Qwen 2.5 Coder 32b Instruct:同样是作为参照,但是这个模型的的效果和以上模型相比差距很大。

IDE

  • Visual Studio Code

AI编码工具

  • AISE ClinePRO:这是AISE团队基于开源工具cline开发的企业级多智能体编码工具,它不仅可以根据任务提示词同时编辑修改多个代码文件,还可以在终端内执行指令并自行监控日志,在发现错误的情况下自动修复。这次的编码工具主要是使用 ClinePRO 完成的。
  • AISE SmartCode:传统的代码补全和智能对话工具,作为 ClinePRO 的补充,当我需要手工修改一些代码的时候,SmartCode 可以帮助我在编辑器中自动完成代码片段的生成。
  • AISE SmartChat:智能对话工具,我主要用来做一些技术调研和编写一些设计类文档,比如文本中的很多图表就是由SmartChat生成的。
  • GitHub Workspace: 这是GitHub推出的在线版 AI多智能体 编码工具,我主要是用它完成 GitHub Action 工作流的开发和调试。

需要说明的是,以上的AI编码工具全部都是用 DeepSeek V3 作为背后的驱动模型,包括代码补全、智能对话和多智能体编码。

下面这段视频是我在编写本文时用 ClinePRO 进行代码行统计时录制的,整个过程很好地体现了“多智能编码”的工作特点。

  1. 任务启动 我输入了一段提示词:“generate a code line count statistic based on different file types, add this into README.md”,意思是让 ClinePRO 根据不同的文件类型统计代码行数,并将结果添加到 README.md 文件中。
  2. 任务规划 ClinePRO 根据提示词进行了任务规划。她首先判断这是一个前端项目,因此需要统计的文件类型主要包括 TypeScript、JSON、CSS 和 HTML,同时还将其他辅助文件归纳为“Configuration Files”。
  3. 执行与调整 在我的批准下,ClinePRO 开始运行指令并通过读取终端日志获取统计信息。然而,我发现她统计的文件数量异常庞大,显然没有忽略掉 node_modules 目录。于是,我中断了她的执行,并提示她忽略 node_modules。 有趣的是,这个过程我重复了两次,因为项目中还有一个嵌套的子项目也包含 node_modules,而 ClinePRO 一开始并未识别到这一点。直到我明确提示她对所有子文件夹进行检查时,她才生成了正确的统计信息。
  4. 最终输出 完成统计后,ClinePRO 自动编辑了 README 文件。不过,她一开始只编辑了英文版,在我的进一步提示下,才对中文版也进行了同步更新。 通过这段视频,大家可以直观地体验到 ClinePRO 的工作方式:她不仅能理解任务需求,还能根据上下文进行智能调整。虽然过程中需要一些人为干预,但整体效率依然远超传统手动操作。

AI 时代,真正的开发者不会失业

以上过程很好地体现了我在这次 AI 编码挑战中的主要工作模式:在 AI 自行执行任务的过程中,我需要非常细致地阅读 AI 输出的所有内容,包括她的思考过程、执行的指令、日志的输出以及编写的代码。特别是对 AI 生成的代码,我必须立即进行功能验证。虽然 AI 帮我省去了敲代码的繁琐工作,但这个监控和修正的过程同样需要高度的专注力。

这也回答了大家普遍关心的一个问题:AI 时代来临后,人类程序员是否会失业?

答案是:AI 时代需要的不是只会机械敲代码的程序员,而是真正的开发者。

AI 编码时代是人类与 AI 协同工作的全新模式。在这种模式下,一个真正称职的开发者必须具备以下能力:

  1. 深刻理解 AI 的工作逻辑:能够细致地监控和修正 AI 的输出,确保其符合预期。
  2. 更深厚的技术积累:不仅要懂代码,还要理解底层原理,才能快速验证和优化 AI 生成的代码。
  3. 更广阔的知识面:AI 可以帮助完成具体任务,但开发者需要具备跨领域的知识,才能更好地驾驭 AI。
  4. 更负责的工作态度:AI 是工具,但最终的责任依然在人类开发者身上。

AI 并不会取代开发者,而是成为我们的超级助手。它让我们从重复劳动中解放出来,专注于更有创造性和战略性的工作。真正的开发者,将在 AI 时代中扮演更重要的角色。

所以,与其担心失业,不如拥抱这种全新的工作模式,提升自己的技术深度和广度,成为能够驾驭 AI 的新时代开发者。这才是未来技术发展的真正方向。