请问现在国内外有哪些支持实时视频视觉的大模型 API ,大家有推荐的吗?(优先国内模型 海外也行)
就像之前 Openai 发布会那种,可以视频通话,实时对话那种的。
或者 Copilot Pro 那种,实时捕获电脑桌面,指导用户玩游戏的。
想用他们分析视频流,分析结果输出 json 等格式存储,不知思路是否可行。谢谢。
就像之前 Openai 发布会那种,可以视频通话,实时对话那种的。
或者 Copilot Pro 那种,实时捕获电脑桌面,指导用户玩游戏的。
想用他们分析视频流,分析结果输出 json 等格式存储,不知思路是否可行。谢谢。