hub / github.com/RLinf/RLinf

github.com/RLinf/RLinf @v0.2 sqlite

repository ↗ · DeepWiki ↗ · release v0.2 ↗

4,971 symbols 18,162 edges 474 files 1,807 documented · 36%

README

RLinf-logo

_{RLinf: 为具身智能和智能体而生的强化学习框架}

RLinf 是一个灵活且可扩展的开源框架，专为具身智能和智能体而设计。名称中的 “inf” 既代表 Infrastructure，强调其作为新一代训练坚实基础的作用；也代表 Infinite，寓意其支持开放式学习、持续泛化以及智能发展的无限可能。

RLinf-overview

最新动态

[2026/03] 🔥 RLinf 支持 FUSCO 来加速 Megatron 中 MoE 模型的 All-to-All 通信。文档：FUSCO，论文：FUSCO: High-Performance Distributed Data Shuffling via Transformation-Communication Fusion。
[2026/03] 🔥 RLinf 支持多智能体强化学习。网站： WideSeek-R1，快速启动：快速启动，论文: WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning。
[2026/03] 🔥 RLinf支持了XSquare Turtle2双臂机器人真机强化学习。文档：XSquare Turtle2 真机强化学习。
[2026/02] 🔥 RLinf 支持对视觉语言模型的监督微调。文档: VLM SFT。
[2026/02] 🔥 RLinf 支持 DSRL（基于扩散模型的 SAC 强化学习），通过在潜在噪声空间训练轻量级 SAC 智能体来引导预训练的 Pi0 扩散策略。文档：DSRL for Pi0。
[2026/02] 🔥 RLinf支持rStar2的强化学习微调。文档: rStar2。
[2026/02] 🔥 RLinf 支持 π₀ 和 π₀.₅ 的仿真-真实协同训练。文档：仿真-真实协同训练。
[2026/02] 🔥 RLinf 正式支持基于世界模型对 VLA 进行强化学习微调，文档：WoVR，论文：WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL。
[2026/02] 🔥 RLinf 支持基于 Wan World Model 对 VLA 进行强化学习微调，文档：RL on Wan World Model。
[2026/02] 🔥 RLinf 现已上线 PyPI ，可以通过pip作为库安装。文档：作为库安装。
[2026/02] 🔥 RLinf真机在线学习系统的论文 RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI 发布了！文档：RLinf-USER。
[2026/02] 🔥 RLinf 支持 Dexbotic 强化学习微调。文档：RL on Dexbotic Model。
[2026/02] 🔥 RLinf 支持基于 GSEnv 的 Real2Sim2Real 强化学习。文档：RL with GSEnv。
[2026/01] 🔥 基于OpenSora World Model的强化学习微调已经上线！文档：RL on OpenSora World Model。
[2026/01] 🔥 基于RoboTwin的强化学习微调已经上线！文档：RL on RoboTwin。
[2026/01] 🔥 RLinf 支持流匹配策略的 SAC 训练，包含仿真和Franka真机环境。文档：SAC-Flow，论文：SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling。
[2025/12] 🔥 RLinf支持Search-R1的强化学习微调，相比原版实现加速 55%！文档: Search-R1。
[2025/12] 🔥 RLinf v0.2-pre 发布！真机Franka的强化学习已经上线。文档：RL on Franka in the Real World。
[2025/12] 🔥 基于RoboCasa的强化学习微调已经上线! 文档：RL on RoboCasa。
[2025/12] 🎉 RLinf正式发布v0.1版本。
[2025/11] 🔥 基于CALVIN的强化学习微调已经上线! 文档：RL on CALVIN。
[2025/11] 🔥 基于IsaacLab的强化学习微调已经上线! 文档：RL on IsaacLab。
[2025/11] 🔥 RLinf现在已经支持强化学习微调GR00T-N1.5！文档：RL on GR00T-N1.5。
[2025/11] 🔥 基于Metaworld的强化学习微调已经上线! 文档：RL on Metaworld。
[2025/11] 🔥 基于Behavior 1k的强化学习微调已经上线! 文档：RL on Behavior 1k 。
[2025/11] lora微调支持π₀和π₀.₅模型。
[2025/10] 🔥 π₀和π₀.₅模型的强化学习微调已经上线! 文档：π₀和π₀.₅模型强化学习训练，论文：π₀ 与 π₀.₅ 模型强化学习微调技术报告，机器之心与具身智能之心报道：《RLinf上新πRL：在线强化学习微调π₀ 和 π₀.₅》, 《清华大学最新！πRL：用在线强化学习让机器人 “边学边做” 的通用方案》。
[2025/10] 🔥 RLinf 正式支持在线强化学习！文档：coding_online_rl，相关推送：《首个开源的Agent在线强化学习框架RLinf-Online！让你的Agent今天比昨天更聪明》。
[2025/10] 🔥 RLinf算法技术报告已正式发布，文档：RLinf-VLA，论文：《RLinf-VLA：一个统一且高效的VLA+RL训练框架》。
[2025/09] 🔥 我们的论文《RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation》已正式发布，文档：RLinf，机器之心关于 RLinf 的报道：《首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源》。
[2025/08] RLinf 已经开源，正式的 v0.1 版本即将发布。

核心特性

RLinf具有高度灵活性，可支持多种强化学习训练工作流（PPO、GRPO、SAC等），同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点，满足强化学习训练日益增长的计算需求。

这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中，混合执行模式的吞吐量可达现有框架的 2.434 倍。

多后端集成支持

FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法，非常适合初学者和快速原型验证。
Megatron + SGLang/vLLM: 针对大规模训练进行了优化，为专家用户提供最大化效率。

具身智能

模拟器	真机	模型	算法
ManiSkill ✅ LIBERO ✅ RoboTwin ✅ RoboVerse BEHAVIOR ✅ MetaWorld ✅ IsaacLab ✅ CALVIN ✅ RoboCasa ✅ Franka-Sim ✅ More...	Franka Arm ✅ XSquare Turtle2 ✅ More...	VLA 模型 π₀ ✅ π₀.₅ ✅ OpenVLA ✅ OpenVLA-OFT ✅ GR00T ✅ Dexbotic ✅ VLM 模型 Qwen2.5-VL ✅ Qwen3-VL ✅ 世界模型 OpenSora ✅ Wan ✅ 自定义模型 MLP-Policy ✅ CNN-Policy ✅	RL 算法 GRPO ✅ PPO ✅ DAPO ✅ Reinforce++ ✅ SAC ✅ CrossQ ✅ RLPD ✅ SAC-Flow ✅ DSRL ✅ SFT 全量微调 ✅ LoRA微调 ✅ VLM 模型微调 ✅

智能体强化学习

Core symbols most depended-on inside this repo

get

called by 811

rlinf/utils/timers.py

apply

called by 219

rlinf/utils/patcher.py

update

called by 200

rlinf/runners/agent_eval_runner.py

keys

called by 191

rlinf/data/datasets/world_model.py

get

called by 169

rlinf/agents/wideseek_r1/utils/webpage.py

wait

called by 167

rlinf/scheduler/collective/async_work.py

stop

called by 162

rlinf/utils/timers.py

log

called by 121

rlinf/utils/metric_logger.py

Shape

Method 3,308

Function 1,068

Class 580

Route 15

Languages

Python89%

TypeScript11%

Modules by API surface

docs/source-zh/_static/typesense.min.js144 symbols

docs/source-en/_static/typesense.min.js144 symbols

tests/unit_tests/test_comm.py140 symbols

tests/unit_tests/test_channel.py72 symbols

tests/unit_tests/test_placement.py57 symbols

rlinf/scheduler/worker/worker.py57 symbols

rlinf/scheduler/collective/collective_group.py57 symbols

rlinf/scheduler/dynamic_scheduler/manager.py55 symbols

tests/unit_tests/bench_channel.py52 symbols

rlinf/data/io_struct.py52 symbols

rlinf/utils/placement.py51 symbols

rlinf/data/replay_buffer.py48 symbols

Dependencies from manifests, versioned

Jinja23.1.6 · 1×

Markdown3.8.2 · 1×

MarkupSafe3.0.2 · 1×

PyYAML6.0.2 · 1×

Pygments2.19.2 · 1×

Sphinx8.1.3 · 1×

accessible-pygments0.0.5 · 1×

alabaster1.0.0 · 1×

anyio4.9.0 · 1×

babel2.17.0 · 1×

beautifulsoup44.13.4 · 1×

certifi2025.6.15 · 1×

For agents

$ claude mcp add RLinf \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact