以下是目前支持或适配 MCP(Model Context Protocol)协议、可实现网页自动化的开源工具与框架,按技术成熟度和集成深度分类整理:
一、原生支持 MCP 的浏览器自动化工具
1.Auto-GUI(Anthropic 官方实验项目)
- GitHub: github.com/anthropics/auto-gui (需申请访问权限)
- 能力: 通过 MCP 将自然语言指令 → 浏览器操作序列 示例指令:
- “登录Gmail,下载最新附件,保存到~/Downloads”
- 自动生成操作代码:点击、输入、文件下载等
- 优势:直接使用 MCP Server 解析意图,无需手动编写脚本
2.BrowserGym(MIT 开源)
- GitHub: github.com/servicefoundry/browsergym
- MCP 集成方式:
- 核心功能: 将网页转为结构化文本(含元素位置) 执行 MCP 生成的 click(xpath), type(text) 等原子操作
- 适用场景:电商比价、数据抓取、表单填写
二、通过 MCP 适配器扩展的工具
1.Playwright + MCP Bridge
- 架构:
- LLM –MCP–> [适配层] –Python–> Playwright
- 实现代码片段:
# MCP 指令转 Playwright 动作
def mcp_to_playwright(mcp_command):
if "click" in mcp_command:
selector = parse_selector(mcp_command)
page.click(selector)
elif "extract_table" in mcp_command:
return page.eval_on_selector('table', parse_table)
- 案例:自动将 “导出 Salesforce 上周客户列表” 转换为 Playwright 脚本
2.Selenium IDE + MCP Plugin
- 插件地址: github.com/mcp-selenium/ide-extension
- 功能: 录制操作 → 生成 MCP 可读的 workflow.json 反向解析:输入 “重复登录操作” → 调用历史脚本
三、AI-Agent 框架的 MCP 兼容方案
1.AutoGPT-Web (基于 AutoGPT)
- 项目链接: github.com/torantulino/autogpt-web
- MCP 接入点: 通过 tools/mcp_tool.py 注册网页操作能力 支持指令:
name: web_navigation
description: 根据MCP协议控制浏览器
params:
url: string
action: [click, scroll, extract]
2.LangChain + MCP Tools
- 集成代码:
from langchain.agents import mcp_toolkit
toolkit = mcp_toolkit.create_package(
tools=["web_scraping", "form_autofill"]
)
agent = initialize_agent(toolkit, llm, agent="mcp-aware")
- 典型工作流:
用户提问 → LLM 生成 MCP 指令 → 调用浏览器工具 → 返回结果
四、自主搭建建议(若无现成方案)
最小可行架构
graph TB
U[用户指令] --> MCP_Client
MCP_Client --> MCP_Server
MCP_Server --> LLM(Claude/GPT)
LLM --> Parser(指令解析器)
Parser --> |JSON指令| Driver[浏览器驱动]
Driver --> |操作结果| MCP_Server
MCP_Server --> U
关键组件选型
模块 |
推荐方案 |
作用 |
浏览器控制 |
Playwright/Puppeteer |
执行点击、输入等底层操作 |
页面理解 |
BeautifulSoup + OCR |
将网页转为LLM可读的文本 |
MCP Server |
Anthropic官方SDK |
协议解析与工具路由 |
动作映射器 |
自定义适配层 |
将 {“action”:”click”, “xpath”: “//button”} 转 Playwright 调用 |
五、现成解决方案对比
工具 |
MCP 原生支持 |
学习成本 |
复杂操作支持 |
可视化调试 |
Auto-GUI |
✅ |
低 |
★★★★☆ |
无 |
BrowserGym |
✅ |
中 |
★★★☆☆ |
有 |
Playwright桥接 |
❌ (需适配) |
高 |
★★★★★ |
有 |
AutoGPT-Web |
⚠️ (部分) |
极高 |
★★☆☆☆ |
无 |
部署建议:
- 快速验证选 BrowserGym(20分钟跑通Demo)
- 企业级自动化用 Playwright桥接(稳定性高)
- 需复杂决策链的场景用 LangChain集成(如:”比价后下单最低价商品”)
通过上述工具,开发者可直接用自然语言驱动网页操作,大幅提升自动化效率。重点推荐关注 Anthropic Auto-GUI 的开放进度,这将是未来最成熟的 MCP 网页自动化方案。