coderwei
V2EX  ›  问与答

基于一段音频识别有多少个人在说话

  •  
  •   coderwei · Oct 14, 2025 · 1627 views
    This topic created in 243 days ago, the information mentioned may be changed or developed.
    前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
    目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因,有没有大佬能够解答一下。
    4 replies    2025-10-14 10:36:37 +08:00
    supuwoerc
        1
    supuwoerc  
       Oct 14, 2025
    whisper 好像可以做到
    Seanfuck
        2
    Seanfuck  
       Oct 14, 2025
    识别的人数永远都是 2 人,大概是模型就只支持区分 2 人。
    ttgo
        3
    ttgo  
       Oct 14, 2025
    简单说这是一个分类问题。我记得哪个大佬在他的 ai 课里炫技,用一行 matlab 代码就实现了用 svm 来区分多人语音。
    barantt01
        4
    barantt01  
       Oct 14, 2025
    语音分割+向量
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   916 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 18:58 · PVG 02:58 · LAX 11:58 · JFK 14:58
    ♥ Do have faith in what you're doing.