AudioGPT：理解和生成语音、音乐、声音和说话

AudioGPT，一种多模态AI系统，将ChatGPT与音频基础模型相结合，以处理复杂的音频信息和支持口头对话，在多轮对话中展现出强大的音频理解和生成能力，使用户可以轻松地创建丰富多样的音频内容。

此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。

任务支持的基础模型地位文字转语音FastSpeech、SyntaSpeech、VITS是（WIP）风格转换通用语音是的语音识别耳语，塑形者是的语音增强ConvTasNet（转化塔斯网）是（WIP）语音分离TF-网格网是（WIP）语音翻译多解码器在制品单声道到双耳神经翘曲是的

任务支持的基础模型地位Text-to-Sing（文本到唱歌）DiffSinger，VISinger是（WIP）

任务支持的基础模型地位文本到音频Make-An-Audio（音频制作）是的音频修复Make-An-Audio（音频制作）是的图像到音频Make-An-Audio（音频制作）是的声音检测音频变压器是的目标声音检测TSDNet的是的声音提取LASSNet（拉斯网络）是的

近期文章