ChatGPT 语音对话技术

推荐关注

› Meteor

› JSLint - a JavaScript code quality tool

› D3.js

推荐书目

› JavaScript 权威指南第 5 版

› Closure: The Definitive Guide

This topic created in 466 days ago, the information mentioned may be changed or developed.

请教下大家 ChatGPT 里高级语音模式是怎么实现的有 js 库可以使用吗

之前很早有做过跟 gpt 对话的插件也加了语音识别但是做不到戴上耳机后的自由对话经常会自动中断

Supplement 1 · Feb 3, 2025

有没有开源的方案可以实现呢 OpenAI 的 realtime api 太贵了如果有个 demo 可以自己接入语音识别和文本转语音就好了中间可能还有个需要对话的 api 场景是锻炼一下口语（小语种）

8 replies • 2025-02-03 19:37:50 +08:00

love060701

Feb 3, 2025 via iPhone

原生语音多模态模型，使用 OpenAI 的 Realtime API 可以实现，或者用开源的 TEN Agent 方案

XTTX

Feb 3, 2025

subtleworks

Feb 3, 2025

@love060701 谢谢回复我主要是对它怎么实现在浏览器里一边听一边说感兴趣看到 TEN Agent 里好像用的是 agora? 我以为就是简单的 web speech api 来实现

flyqie

Feb 3, 2025 via Android

没记错的话方案基本上都是 webrtc 吧？

用户这边语音发出去之后服务端 stt 然后 ai 模型识别最后用 tts 转完发给用户。

flyqie

Feb 3, 2025 via Android

@flyqie #4

ai 模型识别 -> ai 模型处理用户的问题

TimePPT

PRO

Feb 3, 2025 via Android

OpenAI 自家 API ，支持 WebRTC 的

flyqie

Feb 3, 2025

@flyqie #4

另外 webrtc 可能是双向的也可能是单向的。

比如 tts 可能是在客户端做的，也可能是在服务端做的。

但是 stt 一般不会在客户端做。

easychen

Feb 3, 2025

我想你可能找 VAD 。它可以检测用户说话，从而实现打断。
OpenAI 的 Realtime 有 sdk 和 demo ，我记得是用 Websocket 实现的，里边也有可以开启的 vad 功能。