File grpo_live.py

tests/grpo_live.py:None–None · view source on GitHub ↗

Source from the content-addressed store, hash-verified

1	"""Live-progress GRPO-ascends-reward proof (prints every few iters). See verify_rl_optimizes.py."""
2	import torch
3	from src.models.transformer import Transformer
4	from src.post_training.grpo import group_advantages, grpo_loss

nothing calls this directly

set_seedFunction · 0.90

TransformerClass · 0.90

make_frozen_copyFunction · 0.90

generate_with_logprobsFunction · 0.90

group_advantagesFunction · 0.90

compute_logprobsFunction · 0.90

grpo_lossFunction · 0.90

no test coverage detected