
首个开源的,代理化(agentic)的视频制作系统
粘贴参考视频 · 快速开始 · 尝试这些提示词 · 流水线 · 工作原理 · 提供商 · 智能体指南
关注开发进展
将您的 AI 编程助手变成一个完整的视频制作工作室。用通俗的语言描述您的需求——您的智能体会自动处理研究、脚本编写、资产生成、剪辑以及最终合成。
重要的区别: OpenMontage 可以制作基于图像生成的视频,但它也能为免费/开源工作流制作真正的原生视频(video video):智能体会从免费的免版税素材和开源档案中建立语料库,检索实际的动态画面,将它们剪辑到时间线中,并渲染出成品。这绝非通常那种“让几张静态图片动起来就称为视频”的把戏。
“来自明天的信号 (SIGNAL FROM TOMORROW)” — 一部完全通过 OpenMontage 制作的电影级科幻预告片:包括概念、剧本、场景规划、Veo 生成的动态片段、配乐以及 Remotion 合成。
“最后的香蕉 (THE LAST BANANA)” — 一部 60 秒皮克斯风格的动画短片,讲述了一根孤独的香蕉与奇异果建立友谊的故事。使用了 6 个 Kling v3 生成的动态片段(通过 fal.ai)、Google Chirp3-HD 旁白、免版税钢琴曲、TikTok 风格的词级字幕以及 Remotion 合成。总成本:1.33 美元。
“虚空神经接口 (VOID — Neural Interface)” — 仅使用一个 API 密钥 (OpenAI) 制作的产品广告。包含 4 张 AI 生成的图像 (gpt-image-1)、TTS 旁白、自动获取的免版税音乐、通过 WhisperX 生成的词级字幕以及 Remotion 数据可视化。总成本:0.69 美元。零手动资产工作。
“糖果乐园的午后 (Afternoon in Candyland)” — 一部吉卜力风格的动漫。一个小女孩在糖果门、软糖河和棒棒糖花园中奇妙的午后冒险。包含 12 张 FLUX 生成的图像,配有多图交叉淡入淡出、电影级摄像机运动(缩放、平移、Ken Burns 特效)、闪光/花瓣/萤火虫粒子叠加效果,以及带有自动检测能量偏移的环境音乐。总成本:0.15 美元。无需视频生成,无需手动剪辑。
“森林之灵 (Mori no Seishin)” — 一部吉卜力风格的动漫,讲述森林之灵穿过古老树林的旅程。包含 12 张 FLUX 生成的图像,配有视差交叉淡入淡出、漂移和平移的摄像机运动、萤火虫和花瓣粒子、电影级暗角光照效果以及环境森林配乐。总成本:0.15 美元。通过 Remotion 动画引擎让静态图像栩栩如生。
“潜入深渊 (Into the Abyss)” — 以动漫风格渲染的深海探索。生物发光的花园、珊瑚大教堂和发光生物 — 12 张 FLUX 生成的图像,配有闪烁和薄雾粒子叠加、光线特效、平滑的摄像机运动和海洋环境配乐。总成本:0.15 美元。完全不需要视频生成 API。
订阅 YouTube 上的 @OpenMontage,第一时间观看发布的最新视频 — 每个视频都包含了完整的提示词、流水线、使用的工具和成本,方便您自行复现。
从参考视频开始通常比从空白提示词开始要快得多。
OpenMontage 可以从 YouTube 视频、Short、Reel、TikTok 或本地片段开始,并将其转化为切实可行的制作计划:
"这是一个我非常喜欢的 YouTube Short 视频。请给我制作一个类似的,但主题是关于量子计算的。"
您得到的回复绝非“盲目猜测的乱炖提示词”。您将得到:
完美兼容 Claude Code、Cursor、Copilot、Windsurf、Codex — 任何能够读取文件并运行代码的 AI 编程助手。
brew install ffmpeg / sudo apt install ffmpeg / ffmpeg.orggit clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
在您的 AI 编程助手中打开该项目,然后告诉它您的需求:
"制作一个 60 秒的动画解说视频,讲解神经网络是如何学习的"
或者如果您想使用真实素材的路径:
"制作一部 75 秒的纪录片蒙太奇,展现雨中的城市生活。只使用真实素材,无旁白,需要一种挽歌般的基调和配乐。"
就是这么简单。智能体会通过实时网络搜索研究您的主题,生成 AI 图像,撰写并配音带有语音指导的脚本,自动寻找免版税的背景音乐,烧录词级字幕,并渲染最终视频。在您看到任何内容之前,系统会运行多点自我审查——ffprobe 验证、帧采样、音频电平分析、交付承诺验证以及字幕检查。每一个提供商的选择都会在 7 个维度上进行评分,并附有可审计的决策日志。每一个创意决定都需要您的批准。
没有
make? macOS/Linux:python3 -m venv .venv && source .venv/bin/activate && python -m pip install -r requirements.txt && cd remotion-composer && npm install && cd .. && python -m pip install piper-tts && cp .env.example .envWindows PowerShell:
py -3 -m venv .venv; .\.venv\Scripts\Activate.ps1; python -m pip install -r requirements.txt; cd remotion-composer; npm install; cd ..; python -m pip install piper-tts; Copy-Item .env.example .envWindows: 如果
npm install报错ERR_INVALID_ARG_TYPE,请改用npx --yes npm install。
本仓库专为智能体(Agent)操作而构建。如果您是 OpenClaw 风格的智能体,以下是快速发挥作用的最短路径:
AGENT_GUIDE.md 开始,然后是 PROJECT_CONTEXT.md。pipeline_defs/ 进行,阶段导演技能在 skills/pipelines/ 中,工具发现通过 registry(注册表)完成。bash
python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2))"
python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2))"# .env — 每个密钥都是可选的,只需添加您拥有的即可
# 图像 + 视频网关:
FAL_KEY=your-key # FLUX 图像 + Google Veo、Kling、MiniMax 视频 + Recraft 图像
# 免费素材库:
PEXELS_API_KEY=your-key # 免费库存视频和图像
PIXABAY_API_KEY=your-key # 免费库存视频和图像
UNSPLASH_ACCESS_KEY=your-key # 免费库存图像
# 音乐:
SUNO_API_KEY=your-key # 完整的歌曲、伴奏,涵盖任何流派
# 语音与图像:
ELEVENLABS_API_KEY=your-key # 顶级 TTS、AI 音乐、音效
OPENAI_API_KEY=your-key # OpenAI TTS、GPT Image 2 图像
XAI_API_KEY=your-key # xAI Grok 图像编辑/生成 + Grok 视频生成
GOOGLE_API_KEY=your-key # Google Imagen 图像、Google TTS(700+ 种声音)
# 更多视频提供商:
HEYGEN_API_KEY=your-key # HeyGen — 汇集 VEO、Sora、Runway、Kling 的统一网关
RUNWAY_API_KEY=your-key # Runway Gen-4 直连
有 GPU 吗?解锁免费的本地视频生成
make install-gpu
# 然后添加到 .env:
VIDEO_GEN_LOCAL_ENABLED=true
VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # 或 wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b
您不需要付费 API 密钥就能制作出真正的视频。开箱即用的 make setup 会为您提供:
| 能力 | 免费工具 | 功能 |
|---|---|---|
| 旁白配音 | Piper TTS | 免费离线文本转语音 — 逼真的真人发音旁白 |
| 开源影像素材 | Archive.org + NASA + Wikimedia Commons | 免费/开源档案影像、教育媒体及纪录片素材 |
| 额外素材库 | Pexels + Unsplash + Pixabay | 免费库存影像/图片(开发者密钥可免费获取) |
| 合成 (React) | Remotion | 基于 React 的渲染 — 带弹簧动画的图片场景、文字卡片、数据卡片、图表、TikTok 风格词级字幕、数字人开口说话 (TalkingHead) |
| 合成 (HTML/GSAP) | HyperFrames | HTML/CSS/GSAP 渲染 — 动态排版、产品宣传、发布短片、注册区块、网站转视频、绑定好的 SVG 角色动画 |
| 后期制作 | FFmpeg | 编码、字幕烧录、音频混合、色彩调色 |
| 字幕生成 | 内置 | 带有词级时间轴的自动生成字幕 |
OpenMontage 会在提案阶段在 Remotion 和 HyperFrames 之间进行选择(锁定为 render_runtime)。Remotion 是数据驱动解说和任何使用现有 React 场景堆栈内容的默认选择;HyperFrames 则是大量使用动态图形且更自然表达为 HTML + GSAP 的需求的默认选择,包括 character-animation 流水线的 SVG/GSAP 绑定输出。详见 skills/core/hyperframes.md 了解完整的决策矩阵。
两条近乎免费的路径:
projects/<project-name>/renders/final.mp4。如果您想要第二种(真实素材)路径,请在提示词中要求制作纪录片蒙太奇 (documentary montage)、音画诗 (tone poem) 或素材库拼贴 (stock-footage collage),并明确说明只使用真实素材 (use real footage only)。
设置完成后,将以下任何内容复制到您的 AI 编程助手中。每条指令都会运行一个完整的制作流水线。
"Here's a YouTube short I love. Make me something like this, but about CRISPR for high school students."(这是一个我非常喜欢的 YouTube 短片。请给我制作一个类似的视频,但主题是面向高中生的 CRISPR 基因编辑技术。)
"Analyze this Reel and give me 3 original variants I could make for my own product launch."(分析这个 Reel 视频并给我 3 个原创变体,我可以用它来发布我自己的产品。)
"I like the pacing and hook in this video. Keep that energy, but turn it into a 45-second explainer about black holes."(我喜欢这个视频的节奏和钩子。保持这种能量,但把它变成一个 45 秒的关于黑洞的解说视频。)
"Make a 45-second animated explainer about why the sky is blue"(制作一个 45 秒的动画解说视频,解释为什么天空是蓝色的)
"Create a 60-second video about the history of the internet, with narration and captions"(制作一个 60 秒关于互联网历史的视频,包含旁白和字幕)
"Make a data-driven explainer about coffee consumption around the world"(制作一个关于全球咖啡消费情况的数据驱动型解说视频)
"Make a 90-second documentary montage about what a city feels like at 4am. Use real footage only, no narration, elegiac tone."(制作一部 90 秒的纪录片蒙太奇,展现凌晨 4 点城市的感觉。只使用真实素材,无旁白,挽歌般的基调。)
"Create a 60-second Adam-Curtis-style archival collage about 1950s consumer optimism. Prefer Archive.org and Wikimedia footage."(制作一部 60 秒 Adam Curtis 风格的档案拼贴画,探讨 20 世纪 50 年代的消费乐观主义。优先使用 Archive.org 和 Wikimedia 的素材。)
"Cut together a dreamlike montage about coming home in the rain using real stock footage only. Music yes, narration no."(用纯真实素材剪辑一个关于雨中归家的梦幻般蒙太奇。需要音乐,不需要旁白。)
"Create a 30-second Ghibli-style animated video of a magical floating library in the clouds at golden hour"(制作一部 30 秒的吉卜力风格动画视频,展示黄金时刻云端上一座神奇的漂浮图书馆)
"Make a 30-second anime-style animation of an underwater temple with bioluminescent coral and ancient ruins"(制作一部 30 秒动漫风格的水下神庙动画,内含发光珊瑚和古代遗迹)
"Create an animated explainer about how CRISPR gene editing works, using AI-generated visuals"(使用 AI 生成视觉效果,制作一部关于 CRISPR 基因编辑原理的动画解说视频)
"Make a product launch teaser for a fictional smart water bottle called AquaPulse"(为一款虚构的名为 AquaPulse 的智能水瓶制作一个产品发布预告片)
"Create a cinematic 30-second trailer for a sci-fi concept: humanity receives a warning from 1000 years in the future"(为一个科幻概念制作一部 30 秒的电影级预告片:人类收到了来自 1000 年后的警告)
"Make a 90-second animated explainer about quantum computing for middle school students, with a fun narrator voice and custom soundtrack"(制作一部面向中学生的 90 秒量子计算动画解说视频,配有有趣的旁白声音和定制的背景音乐)
想了解更多?查看完整的 提示词画廊 获取经过测试的提示词、预期成本和输出示例,或者运行 make demo 立即渲染零密钥的演示视频。
每条流水线都是一个完整的制作工作流,从创意直到成品视频。
| 流水线 | 产出内容 | 最适用场景 |
|---|---|---|
| 动画解说 (Animated Explainer) | 包含研究、旁白、视觉效果、音乐的 AI 生成解说 | 教育内容、教程、主题解析 |
| 动画 (Animation) | 动态图形、动态排版、动画序列 | 社交媒体、产品演示、抽象概念 |
| 化身代言 (Avatar Spokesperson) | 数字人驱动的演讲者视频 | 企业通讯、培训、公告 |
| 电影级 (Cinematic) | 预告片、前导片、基于情绪的剪辑 | 品牌宣传片、前导预告、促销内容 |
| 片段工厂 (Clip Factory) | 从单一长素材中批量生成经过排名的短视频片段 | 将长内容重制为社交媒体短片 |
| 纪录片蒙太奇 (Documentary Montage) | 从通过 CLIP 索引的免费影像库和开放档案(Pexels、Archive.org、NASA、Wikimedia、Unsplash)中剪辑出的主题蒙太奇 | 视频随笔、情绪化短片、检索优先的空镜头剪辑、无付费视频生成 API 的真实素材视频 |
| 混合 (Hybrid) | 源素材 + AI 生成的辅助视觉效果 | 使用图形增强现有画面 |
| 本地化与配音 (Localization & Dub) | 为现有视频添加字幕、配音并翻译 | 多语言分发 |
| 播客重制 (Podcast Repurpose) | 将播客精彩片段转化为视频 | 播客营销、音频可视化视频 |
| 屏幕演示 (Screen Demo) | 精美打磨的软件屏幕录制和演示 | 产品演示、教程、文档 |
| 口播 (Talking Head) | 以真人出镜为主的演讲视频 | 演示文稿、vlog、访谈 |
每个流水线都遵循相同的结构化流程:
研究 -> 提案 -> 脚本 -> 场景规划 -> 资产生成 -> 剪辑 -> 合成
每个阶段都有专门的 导演技能 (director skill) — 一个 Markdown 指令文件,指导智能体如何精确执行该阶段。智能体阅读技能、使用工具、自我审查、为状态做检查点,并在创意决定点请求人类批准。
网络研究是一等公民(first-class stage)。 在写下一句脚本之前,智能体会搜索 YouTube、Reddit、Hacker News、新闻网站和学术资源。它会收集数据点、受众问题、热门角度和视觉参考,然后将所有内容记录在结构化的研究简报中。您的视频将立足于真实、当前的信息,而不是幻觉产生的虚假事实。
大多数 AI 视频工具仅根据提示词提供单一的剪辑片段。OpenMontage 为您提供了一个 端到端的制作流水线 — 就像真实制作团队所遵循的结构化流程一样,由您的 AI 智能体自动完成。
大多数“免费 AI 视频”技术栈往往暗指“让静态图像动起来”。OpenMontage 固然也能做到这一点,但它还能利用从免费/开源获取的真实素材制作完整的视频:在语义上对其进行排名,有目的地进行剪辑,并作为正确的时间线渲染输出。
剪辑您自己的口播素材。从零开始生成一个完全动画化的解说。将长达 2 小时的播客剪辑成十几个社交短片。将您的内容翻译并配音成 10 种语言。用库存影像和 AI 生成的场景构建电影级品牌预告片。只要制作团队能做出来的东西,OpenMontage 就能编排它。
OpenMontage 采用 智能体优先 (agent-first) 的架构。这里没有代码编排器。您的 AI 编程助手本身就是编排器。
``` 您:"制作一个关于黑洞是如何形成的解说视频" | v 智能体读取流水线清单 (YAML) -- 阶段、工具、审查标准、成功关卡 | v 智能体读取阶段导演技能 (Markdown) -- 如何 (HOW) 执行每个阶段 | v 智能体调用 Python 工具 -- 评分选择器在 7 个维度上对每个工具进行排名
$ claude mcp add OpenMontage \
-- python -m otcore.mcp_server <graph>