老哥们,如何监控智算中心的显卡使用情况呀,想搞个平台监控智算中心的各种数据。
1
wxd21020 OP 没人么
|
2
ellipsecheung Jul 27, 2024
多大规模的,什么显卡,要监控哪些数据
|
3
gesse Jul 27, 2024
nvidia-smi
|
4
wxd21020 OP @ellipsecheung 千卡级 A100 起步
|
5
mgrddsj Jul 27, 2024 via Android
用过某高校的 HPC ,也是好多的 GPU 服务器,是用 Grafana 搭的资源占用监控。
|
8
ellipsecheung Jul 29, 2024
@wxd21020 加个 wx 聊一下?
|
9
Mi1kTea Jul 30, 2024
https://github.com/utkuozdemir/nvidia_gpu_exporter?tab=readme-ov-file
nvidia exporter 获取数据+Prometheus 整合数据+grafana 展示 |