←返回项目列表

Project Beta

AI Infrastructure · Python

面向大模型训练与推理的统一资源调度层，实现 GPU 资源的细粒度分配与任务优先级管理。

背景

随着团队内部大模型训练需求的增长，GPU 资源的管理成为一个瓶颈。我们需要一个统一的资源调度层来管理跨多个集群的 GPU 资源。

核心能力

GPU 资源池化

class GPUResourcePool:
    def __init__(self, clusters: list[Cluster]):
        self.clusters = clusters

    def allocate(
        self, gpu_type: str, count: int, priority: Priority
    ) -> Allocation:
        # 跨集群细粒度 GPU 分配
        ...

任务优先级管理

Critical：训练中的大模型作业，必须保证资源
High：推理服务，需要低延迟
Normal：实验性训练，可被抢占
Low：离线评估任务，利用空闲资源

技术实现

基于 Kubernetes 的调度器扩展，自定义调度策略
GPU 拓扑感知调度，优先分配同一 NVLink 域内的 GPU
支持 Fractional GPU 分配，提高小任务的资源利用率

效果

GPU 整体利用率从 35% 提升至 72%，训练作业平均排队时间减少 60%。

←返回项目列表