mingtdlb
V2EX  ›  Local LLM

大模型私有化是怎么集群部署的?

  •  
  •   mingtdlb · Mar 3, 2025 · 1517 views
    This topic created in 448 days ago, the information mentioned may be changed or developed.

    基于大模型要比较多的显卡资源,但一台服务器 pcie 插槽有限。

    那大模型是怎么集群化的,比如部署 deepseek R1 671B,应该需要很多资源吧。我不知道多少,假设 10 台服务器,每台 3 块 RTX 4090 。

    那它是怎么组成集群呢

    6 replies    2025-03-04 15:32:58 +08:00
    Tinet
        1
    Tinet  
       Mar 3, 2025
    tensorflow 这些架构自带的吧
    erquren
        2
    erquren  
       Mar 3, 2025
    vllm 节点 组网
    marcong95
        3
    marcong95  
       Mar 3, 2025
    有为这个需求特化的服务器主板不是都有 8 卡以上的 PCIe 插槽么,例如当年的矿机主板还有用 USB 3.0 物理接口走 PCIe x1 的骚操作,理论上你要能插 H100*8+也不是不行。
    mingtdlb
        4
    mingtdlb  
    OP
       Mar 3, 2025
    @marcong95 举例,,并不是要去部署,只是好奇。像大厂他们部署,用户量那么多,一个集群总不能就整个三五台插满显卡的主机啊
    zhazi
        5
    zhazi  
       Mar 3, 2025
    NCCL ,英伟达提供了通讯库

    简单理解成 mapreduce
    volvo007
        6
    volvo007  
       Mar 4, 2025
    @mingtdlb 硬件上要购买专门的连接器,所以 nv 才会按节点来卖,一个节点 8 张卡,节点之间通过光纤连接。基本上也都推测因为这个分布式计算的需求,nv 才收购了专做网络的 mellanox
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4340 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 790ms · UTC 04:10 · PVG 12:10 · LAX 21:10 · JFK 00:10
    ♥ Do have faith in what you're doing.