AudioGPT,一种多模态AI系统,将ChatGPT与音频基础模型相结合,以处理复杂的音频信息和支持口头对话,在多轮对话中展现出强大的音频理解和生成能力,使用户可以轻松地创建丰富多样的音频内容。
此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。 它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。
音频转换
任务支持的基础模型地位文字转语音FastSpeech、SyntaSpeech、VITS是 (WIP)风格转换通用语音是的语音识别耳语,塑形者是的语音增强ConvTasNet(转化塔斯网)是 (WIP)语音分离TF-网格网是 (WIP)语音翻译多解码器在制品单声道到双耳神经翘曲是的
音乐生成
任务支持的基础模型地位Text-to-Sing(文本到唱歌)DiffSinger,VISinger是 (WIP)
音频处理
任务支持的基础模型地位文本到音频Make-An-Audio(音频制作)是的音频修复Make-An-Audio(音频制作)是的图像到音频Make-An-Audio(音频制作)是的声音检测音频变压器是的目标声音检测TSDNet的是的声音提取LASSNet(拉斯网络)是的
相关地址
项目:https://github.com/AIGC-Audio/AudioGPT
演示:https://huggingface.co/spaces/AIGC-Audio/AudioGPT
论文:https://arxiv.org/abs/2304.12995