我们的环境:
-
计算节点:20+台配备 3090/4090/A800 的服务器,10Gbps 交换机互联
-
共享存储:双副本 PB 级 GPFS 存储池(非官方对接维护),目前问题是运维成本过高,包括运维人员水平和价格方面。正评估 Minio+JuiceFS 替代方案。
-
任务调度:Slurm 系统,现存问题:
-
GPU 共享困难,Debug 状态下显存利用率不足
-
任务申请卡数碎片化影响调度效率
-
-
账号管理:基于 /etc/passwd 文件同步,正在探索迁移至 OpenLDAP ,并与飞书账号集成
重点问题求教:
-
存储方案选择: 当前 GPFS 在加载 conda 环境时出现显著延迟(从共享存储加载 conda 环境经常会导致 VSCode Timeout ),可能原因是否是元数据操作瓶颈?考虑到我们缺乏官方支持且运维成本高,是否有必要迁移到 Ceph/JuiceFS 等开源方案?特别希望了解实际性能对比数据。
-
Slurm 与容器化整合: 有些开源仓库提供了模型代码运行环境的 docker 镜像,但是当通过 Slurm 分配 GPU 进入计算节点 bash ,再进去运行 Docker 后台任务时,常出现任务结束后容器残留导致 GPU 占用冲突。是否有成熟的 Slurm 插件或脚本方案能实现提交时自带容器信息,并且实现生命周期绑定?
-
调度系统演进方向:
我们观察到许多算力租赁平台采用 K8s 管理算力,实现:
- 一个相对友好的 UI
- 交互式开发机( JupyterLab/VSCode Server )
- 后台任务(训练、推理)环境的镜像化打包和统一资源分配
- 队列调度
相较 Slurm ,这种架构在 GPU 利用率方面是否具有显著优势?迁移成本与收益如何权衡?
参考( 3 年前): https://v2ex.com/t/823176
希望各位能不吝赐教,期待大家的实战经验分享!(文本由 DeepSeek 润色过)