Function offload_fsdp_optimizer

training/verl/utils/fsdp_utils.py:105–112 · view source on GitHub ↗

(optimizer)

Source from the content-addressed store, hash-verified

103
104
105	def offload_fsdp_optimizer(optimizer):
106	for param_group in optimizer.param_groups:
107	for param in param_group['params']:
108	state = optimizer.state[param]
109	for key, value in state.items():
110	if isinstance(value, torch.Tensor):
111	state[key] = value.to("cpu", non_blocking=True)
112	torch.cuda.empty_cache()
113
114
115	def load_fsdp_optimizer(optimizer, device_id):

init_modelMethod · 0.90

update_actorMethod · 0.90

init_modelMethod · 0.90

update_criticMethod · 0.90

_build_model_optimizerMethod · 0.90

compute_rm_scoreMethod · 0.90

toMethod · 0.80

no test coverage detected