有清晰的发音音频 + 对应的文本
用 fastwhisper 。他是自动生成文本的,有些许错误。
用了个 gentle ,但是他是以单词为基准对齐的。
有没有什么库可以自动切分句子,然后对齐?类似歌词那种。
用 fastwhisper 。他是自动生成文本的,有些许错误。
用了个 gentle ,但是他是以单词为基准对齐的。
有没有什么库可以自动切分句子,然后对齐?类似歌词那种。
1
halliday May 4, 2025 via Android
Google speech to text api 可以
|
2
NoOneNoBody May 4, 2025
github 有语音 to 字幕生成的,你搜字幕相关
|
3
panhongx May 4, 2025
试过 whisper.cpp 的 large-v3-turbo 模型,自动按句切分效果很好。
|
4
bigtear May 4, 2025
whisperx 甚至能按单词对齐,你可以试试,它用的也是一个专门的模型
|
5
afkool OP @panhongx 这个能用我提供的文本吗?我看了下文档并问了下 ai,他好像是自己生成文本的。我担心生成的某些单词不太对。(毕竟我已经有文本了,就不需要机器自动识别了)
|
6
barnetime May 7, 2025 我也有这个需求, 自己写了个页面 https://repeat-reading-explorer.pages.dev/
|
8
barnetime May 8, 2025
文本是识别的, 音频是出版社网站下载的
|