🌐 Browser Use
页面操控 · 自动化代理 · 无头驱动
让您的 AI 智能体"长出"能够注视并操作真实互联网网页的眼睛与手掌!基于 Playwright 底层重新编译,支持多网页无头渲染并允许模型执行点击、输入和拖拽动作。
OpenClaw Team
🚀 快速安装
在您的终端中执行以下命令即可完成安装:
npx clawhub install browser-use
📊 数据总览
| ⭐ 收藏点赞 | ☁️ 总计调用 | 👥 当前活跃 | 🎯 稳定版本 |
|---|---|---|---|
| 1.2k | 68.4w | 8,400 | v3.1.2 |
🎛️ 详解:它是如何运转的?
有别于只能拉取枯燥 DOM 的爬虫节点,browser-use 是针对多模态 LLM 而彻底重构的一个前端环境虚拟交互器:
- 🎭 虚拟像素级交互映射:模型不仅能够通过它读取特定标签的内容(譬如:帮我阅读这篇推文),更支持由模型输出坐标系和行为树,实现拟真的页面操作(譬如:帮我点击右上角的购买按钮并输入这串优惠码)。
- 📸 视觉快照与页面摘要双轨:不仅支持文字,它在每一次重载页面后都能快速截图通过 API 抛回大模型。配合最前沿的 GPT-4o 及 Claude 3.5 Sonnet 等视觉多模态巨星模型时,它能获取近乎人类操作的丝滑感知。
- 🛡️ 指纹反混淆拦截规避:底层架构剥离了传统自动化框架常带的僵尸特征,利用隐身驱动插件,最大概率规避商用网站复杂的 Cloudflare 和 Captcha 拦截器。
- 🧵 持久态上下文 Session:您可以指定维持 Cookie 状态存储。这样就意味着 AI 可以利用您的登录态持续帮您管理内部中后台、执行审核甚至批量发帖业务,不需要每次重新登录。
🧭 典型业务场景剖析
🛒 场景一:多节点抢单与票务代挂
作为高阶用户,您可以写出如下的编排流:告诉 Agent 监听某一门票网站的余票情况,一旦有余票,则使用 browser-use 立即操纵页面焦点点击"加入购物车",填充收货地址并提交订单。全过程都是实打实的客户端操作,成功率极高。
📊 场景二:深网封闭系统搬砖
不同于那些公开的 Wiki 数据可以用 Tavily 采集;往往很多极其珍贵的数据(比如竞品后台的数据驾驶舱)都必须经历多层密码登录并在单页应用(SPA)中拉取。AI 可以使用本工具自动填充工号,在看板列表中逐一切换选项卡并将复杂图表抓为图像上报,构建独家自动化资产。
💻 常用命令参考
安装完成后,您不仅可以通过对话让 AI 自主调用,还可以在 CLI 侧手动发起操作:
执行一次无缝操作:打开特定网站,执行自然语言意图,并在完毕后留档:
clawhub execute browser-use url="https://x.com" \
intent="search for 'OpenClaw' returning the top 3 posts" \
--screenshot-on-finish
使用视觉模式,并将每一步骤存留作为调试追踪:
clawhub execute browser-use intent="Login to GitHub and star myclaw repo" \
--enable-vision=true --trace-dir="./traces"
🛡️ 环境要求与鉴权预备
- 📦 系统底层依赖:安装后,由于使用了无头浏览器,初次执行
npx clawhub install browser-use会在您的设备中下载约 150MB 的核心 Chromium 二进制库,请保障网络和磁盘顺畅。 - 💰 多模态消耗极高:如果您开启了视觉截屏(Vision)的联动模式,每次 AI 思考的步骤都会耗费可观的大模型 API Token,请确保您的 LLM 账户额度依然坚挺。
© 2026 OpenClaw. All rights reserved.
