Vcide
V2EX  ›  问与答

如何理解 HuggingFace 相关模型的加载过程

  •  
  •   Vcide · May 2, 2024 · 1385 views
    This topic created in 746 days ago, the information mentioned may be changed or developed.

    想请教一下各位大牛, 现在楼主开发的项目涉及到使用 HuggingFace 和 Django 来进行多用户推理,但是 Python 代码经常发生内存泄露,同时也很难排查原因.请问各位大牛有没有相关的读物,调试工具来进行问题的溯源?

    同时还想问一下比如说在 GPU 推理的时候,加载模型是不是只用加载一次到 GPU 显存,之后每个用户都可以用了,如果同时进行推理呢?如果使用 CPU 推理的话,又是什么情况呢?有没有专门的文档说对应的过程呢?

    先谢过大家!

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1049 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:40 · PVG 06:40 · LAX 15:40 · JFK 18:40
    ♥ Do have faith in what you're doing.