English | 简体中文
开源、视觉驱动的 UI 测试。用自然语言编写测试用例,自动化任意平台。
使用 Midscene Skills 搭配 OpenClaw 控制任意平台
大多数 UI 自动化都依赖页面结构,包括读取 DOM 或无障碍树的 AI 工具。页面结构既脆弱又不完整:选择器一重构就失效;缺少语义化标注的元素,如纯图标按钮、自定义控件和 <canvas>,对它们是“看不见”的;原生应用与跨域 iframe 也难以触达;页面结构还无法判断界面实际看起来是否正确。
Midscene 仅凭截图工作。你只需用自然语言描述每一步:
<canvas>、原生应用、跨域 iframe 上,也可以定位。Midscene 首先为 UI 测试而生,但同一套视觉驱动引擎也能胜任任意 UI 自动化任务。
只要能截图,Midscene 就能工作。Web 浏览器、Android、iOS、HarmonyOS、桌面应用,以及任意自定义界面,全部通过同一套 API。
你可以用 JavaScript SDK 或 YAML 编写自动化,也可以通过 Skills 交给 AI Agent。所有方法都可以在 API 参考 中查阅,包括 aiAct、aiQuery 和 aiAssert。
Midscene 在 UI 操作上完全采用纯视觉路线:元素定位仅基于截图。它支持 Qwen3.x、Doubao-Seed-2.1、GLM-4.6V、gemini-3.5-flash、UI-TARS 等具备极强 UI 定位能力的多模态模型,也包括可自托管的开源选项。在数据提取与页面理解场景中,你仍可按需选择携带 DOM。
阅读更多:模型策略。
扩展 Midscene.js 能力的社区项目:
感谢以下项目:
如果你在研究或项目中使用了 Midscene.js,请引用:
@software{Midscene.js,
author = {Xiao Zhou, Tao Yu, YiBing Lin},
title = {Midscene.js: Your AI Operator for Web, Android, iOS, Automation & Testing.},
year = {2025},
publisher = {GitHub},
url = {https://github.com/web-infra-dev/midscene}
}
Midscene.js 采用 MIT 许可证。
如果这个项目对你有帮助或启发,欢迎点个 Star
$ claude mcp add midscene \
-- python -m otcore.mcp_server <graph>