SAM Audio 还可以通过文本提示来分离音频,例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外,跨度提示功能可以帮助人们一次性解决音频问题,例如在整个播客录音中过滤掉狗叫声的噪音。
随着音频大语言模型的快速发展,当前主流的音频编码器几乎都基于OpenAI的Whisper Encoder,这种单一技术的依赖限制了模型架构的多样性和整体能力的提升。AECC挑战赛将着重评估音频编码器在复杂真实场景下的理解与特征表示能力,进一步满足日益增长的音频理解需求。