pymllm.orchestrator.group_coordinator¶

GroupCoordinator for distributed communication.

Classes¶

Manages a group of processes for distributed communication.

`divide`(numerator, denominator)	Divide and ensure divisibility.
`split_tensor_along_dim`(tensor, dim, world_size, rank)	Split tensor along a dimension for tensor parallelism.

class pymllm.orchestrator.group_coordinator.GroupCoordinator(ranks, local_rank, backend='nccl')¶

Manages a group of processes for distributed communication.

Lightweight wrapper around torch.distributed.ProcessGroup.

Parameters:

all_reduce(tensor)¶

All-reduce across the group.

all_gather(tensor, dim=0)¶

All-gather across the group.

Parameters:

Return type:

torch.Tensor

broadcast(tensor, src=0)¶

Broadcast from source rank to all.

Parameters:

Return type:

torch.Tensor

pymllm.orchestrator.group_coordinator.divide(numerator, denominator)¶

Divide and ensure divisibility.

Parameters:

Return type:

int

pymllm.orchestrator.group_coordinator.split_tensor_along_dim(tensor, dim, world_size, rank)¶

Split tensor along a dimension for tensor parallelism.

Parameters:

Return type:

torch.Tensor