hub / github.com/deepspeedai/DeepSpeed / _get_sequence_data_parallel_group

Function _get_sequence_data_parallel_group

deepspeed/utils/groups.py:758–764 · view source on GitHub ↗

()

Source from the content-addressed store, hash-verified

756
757
758	def _get_sequence_data_parallel_group():
759	global mpu
760	# When sequence parallelism is enabled, the process group for zero sharding and
761	# gradient allreduce must be across both dimensions of data and sequence parallelism.
762	if mpu is not None and hasattr(mpu, 'get_sequence_data_parallel_group'):
763	return mpu.get_sequence_data_parallel_group()
764	return _get_data_parallel_group()
765
766
767	def _get_expert_model_parallel_world_size():

_get_broadcast_src_rankFunction · 0.85

_get_data_parallel_groupFunction · 0.85

no test coverage detected

searching dependent graphs…