beginor
V2EX  ›  Local LLM

本地部署 GLM-5.2 的门槛太高了,根本玩不起!

  •  
  •   beginor · 1 day ago · 6433 views
    智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!

    前后尝试了两个版本,分别是:

    1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
    2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

    先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;

    然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:

    1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
    2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
    3. 输出大概有 50tokens/秒,吐字速度算还可以;
    4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;

    从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!

    以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂
    44 replies    2026-06-29 18:53:18 +08:00
    flypei
        1
    flypei  
    PRO
       1 day ago
    网上还有说用 mac studio 部署的,4 张 H20 都玩不转,mac studio 真的行么
    Hconk
        2
    Hconk  
       1 day ago via iPhone   ❤️ 1
    @flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题,token 速度看上下文有多大了,小的话 20 多 TPS 应该能跑,大了估计就几 TPS ,闲鱼有些人卖的自部署接口就是用这个整的
    shmilypeter
        3
    shmilypeter  
       1 day ago
    @Hconk 咸鱼还有人卖自部署?牛逼,小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

    我算过了,自部署这一块靠卖 token 是不可能回本的,自部署扛不住几个并发的。
    Hconk
        4
    Hconk  
       1 day ago via iPhone
    @shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多,1.5T 显存 nv 卡少说两三百万能下来,用 mac 统一显存 512g 十来万一台
    shmilypeter
        5
    shmilypeter  
       1 day ago
    @Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了,要是按照以前的价格,搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ,供一个十人团队没啥问题的,律所这样的地方是有本地化需求的。
    uselesswater
        6
    uselesswater  
       1 day ago via Android
    要是干个满血的下来,那得 200 多万吧!
    KumaAPI
        7
    KumaAPI  
    PRO
       1 day ago
    事实证明不是工作刚需的情况没什么必要本地部署模型使用 就算是租服务器开销也不小
    2658601135zzh
        8
    2658601135zzh  
       23h 55m ago
    自部署太费钱费时间了,有那钱都可以正价充值 api 爽蹬了
    YaakovZiv
        9
    YaakovZiv  
       23h 46m ago
    以前还能白嫖云主机平台的 GPU 服务器,现在 GPU 服务器热销,已经基本没法白嫖,必须是先有商务合同,才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。
    damontian
        10
    damontian  
       23h 46m ago via Android
    现在这个阶段,自己部署是真不划算
    root71370
        11
    root71370  
       23h 28m ago via Android
    所以是不是证明官方部署的 api 也是亏本的
    bwnjnOEI
        12
    bwnjnOEI  
       23h 15m ago via iPhone
    没试试 sglang 吗?话说你要想部署生产级响应的需要把所有参数都要搞明白,玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s
    slowgen
        13
    slowgen  
    PRO
       22h 22m ago
    本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ,直接上 NVFP4 量化,真的就一代架构一代神
    pikay
        14
    pikay  
       22h 10m ago
    话说上午的 GLM Plan 有人抢得到吗?
    beginor
        15
    beginor  
    OP
       21h 54m ago via Android
    @uselesswater 按现在的价格趋势,200 万估计不够了
    beginor
        16
    beginor  
    OP
       21h 53m ago via Android
    @slowgen RTX 6000 Pro 刚出来时 6 万,现在翻倍都不止了
    beginor
        17
    beginor  
    OP
       21h 51m ago via Android
    @bwnjnOEI sgl 更复杂,虽然有官方的指南,时间有限,只测试了 llama.cpp 和 vllm ,这两个都好熟悉
    yatseni
        18
    yatseni  
       21h 29m ago
    起步上最新模型,可不是投入大吗
    raycool
        19
    raycool  
       21h 27m ago
    现在 H200 贵的离谱
    emric
        20
    emric  
       21h 11m ago
    我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。
    coefu
        21
    coefu  
       20h 31m ago
    牛逼,有钱
    garyalen
        22
    garyalen  
       18h 37m ago via iPhone
    910C 还需要双机 32 卡呢 配套得去到 600w
    MaiGe
        23
    MaiGe  
       17h 51m ago
    我女朋友公司本地部署了 GLM5.2 不知道是不是满血
    felixcode
        24
    felixcode  
    PRO
       17h 23m ago
    都是买了大内存 mac 后发现没啥用处
    于是发帖安慰自己,本地大模型虽然没用,但能保护隐私。
    germain
        25
    germain  
       15h 56m ago
    目前用的 Ollama 的 plan ,GLM5.2 也有,效果不错
    shakaraka
        26
    shakaraka  
       14h 53m ago
    我先不吐槽其他的,我想问一下,你出于本地部署的需求是什么?
    yuedashi
        27
    yuedashi  
       11h 42m ago via Android
    @shakaraka 很多单位没法连外网。我就是。。就是内网部署着用
    yifangtongxing28
        28
    yifangtongxing28  
       11h 24m ago
    @felixcode 32g 以上到 64 还是比较刚需的 64 以上家用不太合适
    sparkssssssss
        29
    sparkssssssss  
       11h 22m ago
    @Hconk #4 能部署和能正常用还是有区别的吧,我们单位去年 ds3 出圈的时候就买了一台 mac studio 256G 的,5w 多,结果跑 ds 70b 速度都很很勉强,
    damichifan
        30
    damichifan  
       11h 20m ago
    @shakaraka 写代码可能无所谓,但有些技术文件,其实不算高精尖,但不适合对外公开。工程类的很多,也有一些确实是新工艺之类的,不能公开
    Mandelo
        31
    Mandelo  
       11h 9m ago
    @shakaraka 涉密项目就要求
    sn0wdr1am
        32
    sn0wdr1am  
       11h 3m ago
    其实很简单:

    你要内网部署大模型,本地部署大模型,你就砸钱,砸很多很多钱去部署。

    那不是一般的多。

    小打小闹还是算了。
    neoblackcap
        33
    neoblackcap  
       10h 49m ago
    LLM 推理引擎各家都有魔改的,不是直接拿 vllm 搞的。赚钱的点就在于缓存命中,缓存命中率约高,就越赚钱
    nasmatic
        34
    nasmatic  
       10h 41m ago
    H20 和 H200 显存一样的吧,20 开不了 1m 上下文 200 估计也不行
    shakaraka
        35
    shakaraka  
       10h 23m ago
    @yuedashi #27
    @damichifan #30
    @Mandelo #31

    这种场景我理解。那么既然这样公司就应该不计成本给你们部署才对。要么就是和阿里、华为签订合作等途径。

    让你们考察如何自行部署,完全不现实。

    如果如果都不行,那么你们就肯定只能古法编程了撒。本来完全体智商都不在线,更别说量化版了
    duanxianze
        36
    duanxianze  
       10h 22m ago
    AI 写代码目前比人力还贵啊
    Chihaya0824
        37
    Chihaya0824  
       8h 3m ago
    gguf 是这样的,有几点 op 可以试一下,算是在小显存里挣扎的一些经验
    1.用 fp8 的 kv cache
    2.尝试用 speculative decoding ,就是说你把 MTP 给打开,应该能够让 tps 变高挺多的,后续如果有 dflash 还可能可以提高更多
    3.接受质量损失去用 awq 版,但是肯定不会比 fp8 好
    都可以试一下,8 个 h20 肯定可以跑的,而且 kvcache 还可以做 tiering ,可以用内存 swap ,变相支持更多用户(一定程度上)
    beginor
        38
    beginor  
    OP
       7h 48m ago
    @nasmatic H200 的算力是 H20 的十几倍,效果肯定比 H20 好很多
    beginor
        39
    beginor  
    OP
       7h 46m ago
    @Chihaya0824 我也是一直在小显存里面折腾,Mac ,魔改 4090 ,5090 都测试过不少,这次只是有机会用一下 H20 而已
    beginor
        40
    beginor  
    OP
       7h 44m ago
    @shakaraka 私有部署应对的是涉密项目,不能联网的单位的需求
    jimrok
        41
    jimrok  
       7h 21m ago
    只能找云厂上,托管到云端,涉密的只能这样了。后续模型更大,私有部署只能是云托管模式。
    diudiuu
        42
    diudiuu  
       6h 29m ago
    已经超过这个网站 99%的人了,真有钱
    beginor
        43
    beginor  
    OP
       4h 59m ago
    @diudiuu 没钱,只是提供思路和方法,恰饭而已
    xiawudexue123
        44
    xiawudexue123  
       1h 11m ago
    能否考虑 cerebras 的方案?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3248 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 140ms · UTC 12:04 · PVG 20:04 · LAX 05:04 · JFK 08:04
    ♥ Do have faith in what you're doing.