jiezou
V2EX  ›  Local LLM

大模型小白推荐一下本地模型

  •  
  •   jiezou · 6h 45m ago · 1802 views

    有台闲置的小主机,换个 2080ti 魔改显卡,可能偏向于知识库的用途,能跑哪些本地模型呢?
    22 replies    2026-06-22 16:53:16 +08:00
    aptupdate
        1
    aptupdate  
       6h 41m ago via iPhone
    这个性能和显存的卡好像也跑不了什么模型……
    试试 Gemma4 吧,4B 应该能跑得起来。
    jiezou
        2
    jiezou  
    OP
       6h 33m ago
    @aptupdate 入门学习为主,跑业务肯定差得远
    tool2dx
        3
    tool2dx  
       6h 11m ago   ❤️ 1
    22G 显存基本上大部分本地模型都能跑了.
    TwilightCool
        4
    TwilightCool  
       6h 8m ago   ❤️ 2
    NUT00
        5
    NUT00  
       5h 34m ago
    qwen3.6 27B 吧,上下文拉低一点,Q4 应该能跑
    Ryanzlab
        6
    Ryanzlab  
       5h 21m ago
    一点用都没有,8G 显存,打游戏都够呛,跑 AI 别想了
    magic1187
        7
    magic1187  
       5h 17m ago
    至少 16G 显存吧,不然部署起来也没用。
    unusualcat
        8
    unusualcat  
       5h 11m ago   ❤️ 1
    你直接问 gpt 就行,让它给你推荐,你拉下来试用,看哪个满足你的需求。
    我局域网里有一个 gtx1060 6gb 显卡的笔记本,装了 ollama ,合盖运行,映射端口给局域网另一台 Mac 电脑用。拿来翻译字幕,给视频做总结都可以的。写代码不行。
    MacBook-Pro ~ % ollama list
    NAME ID SIZE MODIFIED
    demonbyron/HY-MT1.5-1.8B:latest f2ab05e35468 1.1 GB 15 hours ago
    qwen3:4b 359d7dd4bcda 2.5 GB 17 hours ago
    deepseek-r1:8b 6995872bfe4c 5.2 GB 20 hours ago
    qwen3.5:2b-q4_K_M 124a03c34777 1.9 GB 20 hours ago
    qwen3:4b-instruct-2507-q4_K_M 0edcdef34593 2.5 GB 20 hours ago
    qwen2.5-coder:3b f72c60cabf62 1.9 GB 20 hours ago

    8b 模型会溢出,变成内存➕显存混合跑,速度低很多。
    ovtfkw
        9
    ovtfkw  
       5h 6m ago
    可以 @站长
    rimworld
        10
    rimworld  
       5h 6m ago   ❤️ 1
    让 gpt 帮你配置内存推理的方案就行了,可以跑 26b 量化版本的模型。内存就是速度慢一点。只用显卡的话,那就是 4b ,6b 。
    unknow1
        11
    unknow1  
       5h 2m ago   ❤️ 1
    重排模型:接入 bge-rerank 重排模型(ollama 不支持重排模型,需 docker 运行)或 qwen 重排模型
    向量模型:modelscope.cn/Qwen/Qwen3-Embedding-4B-GGUF:latest
    文本模型:modelscope.cn/Qwen/Qwen3-8B-GGUF:latest
    unknow1
        12
    unknow1  
       5h 1m ago
    这三个测试用,要想好用,你这个配置不够
    grimbedroom
        13
    grimbedroom  
       4h 44m ago   ❤️ 1
    https://www.canirun.ai/ 或许可以试试这个
    jiezou
        14
    jiezou  
    OP
       4h 21m ago
    感谢 v 友帮助,已购等到货上机测试。
    Lin137
        15
    Lin137  
       3h 40m ago
    https://github.com/pewdiepie-archdaemon/odysseus
    可以看下这个项目,里面有个 cookbook 的小功能,可以自动推荐自己机器最适合运行的本地大模型
    opeth
        16
    opeth  
       3h 26m ago
    2080ti 22G 可以跑 qwen3.6-35B-A3B ,也可以试一下 Gemma4 系列的模型
    h4ckm310n
        17
    h4ckm310n  
       2h 55m ago
    22G 显存,qwen3.6 35b 或者 gemma4 26b 吧
    abel533
        18
    abel533  
       1h 58m ago
    使用 llama-server ,可以试试 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF

    我在 sd-webui 刚出的时候买了个 2080ti 11G ,用了几年后换了 22G ,现在跑这种小模型都没问题。你这主机配置太高了,我还用的 2015 年的至强+16G 内存,现在的 CPU 和内存成了瓶颈。
    abel533
        19
    abel533  
       1h 53m ago
    @abel533 还可以学学 comfyui ,试试 zimageturbo 生图(和 gptimage2 一样的效果(除去文字布局外)) 1K 的图基本上 10 秒左右出图。还可以试试 FLUX.2-klein-9B 的 image edit ,速度也很快。
    Shielber
        20
    Shielber  
       1h 29m ago
    玩本地 AI 起步是 16G 显存,大部分人卡在这
    jhytxy
        21
    jhytxy  
       1h 4m ago via iPhone
    gemma4 31b qat
    训练就针对 q4 量化
    coefu
        22
    coefu  
       23 mins ago
    @Shielber 起步是 96G ,你打错数字了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5494 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 91ms · UTC 09:16 · PVG 17:16 · LAX 02:16 · JFK 05:16
    ♥ Do have faith in what you're doing.