AudioGPT:理解和生成语音、音乐、声音和说话

AudioGPT,一种多模态AI系统,将ChatGPT与音频基础模型相结合,以处理复杂的音频信息和支持口头对话,在多轮对话中展现出强大的音频理解和生成能力,使用户可以轻松地创建丰富多样的音频内容。

此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。 它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。

音频转换

任务支持的基础模型地位文字转语音FastSpeech、SyntaSpeech、VITS是 (WIP)风格转换通用语音是的语音识别耳语,塑形者是的语音增强ConvTasNet(转化塔斯网)是 (WIP)语音分离TF-网格网是 (WIP)语音翻译多解码器在制品单声道到双耳神经翘曲是的

音乐生成

任务支持的基础模型地位Text-to-Sing(文本到唱歌)DiffSinger,VISinger是 (WIP)

音频处理

任务支持的基础模型地位文本到音频Make-An-Audio(音频制作)是的音频修复Make-An-Audio(音频制作)是的图像到音频Make-An-Audio(音频制作)是的声音检测音频变压器是的目标声音检测TSDNet的是的声音提取LASSNet(拉斯网络)是的

相关地址

项目:https://github.com/AIGC-Audio/AudioGPT

演示:https://huggingface.co/spaces/AIGC-Audio/AudioGPT

论文:https://arxiv.org/abs/2304.12995

发表回复