大模型私有化是怎么集群部署的？

This topic created in 448 days ago, the information mentioned may be changed or developed.

基于大模型要比较多的显卡资源，但一台服务器 pcie 插槽有限。

那大模型是怎么集群化的，比如部署 deepseek R1 671B，应该需要很多资源吧。我不知道多少，假设 10 台服务器，每台 3 块 RTX 4090 。

那它是怎么组成集群呢

6 replies • 2025-03-04 15:32:58 +08:00

Tinet

Mar 3, 2025

tensorflow 这些架构自带的吧

erquren

Mar 3, 2025

vllm 节点组网

marcong95

Mar 3, 2025

有为这个需求特化的服务器主板不是都有 8 卡以上的 PCIe 插槽么，例如当年的矿机主板还有用 USB 3.0 物理接口走 PCIe x1 的骚操作，理论上你要能插 H100*8+也不是不行。

mingtdlb

Mar 3, 2025

@marcong95 举例，，并不是要去部署，只是好奇。像大厂他们部署，用户量那么多，一个集群总不能就整个三五台插满显卡的主机啊

zhazi

Mar 3, 2025

NCCL ，英伟达提供了通讯库

简单理解成 mapreduce

volvo007

Mar 4, 2025

@mingtdlb 硬件上要购买专门的连接器，所以 nv 才会按节点来卖，一个节点 8 张卡，节点之间通过光纤连接。基本上也都推测因为这个分布式计算的需求，nv 才收购了专做网络的 mellanox