阿里旗下通义百聆团队近日在语音技术领域取得重要进展,正式开源两款轻量化语音模型。其中Fun-CosyVoice(0.5B版本)凭借其突破性的音色克隆能力引发关注,该模型仅需用户提供3秒语音样本,即可实现跨语言、跨方言的语音合成,同时支持情绪风格的动态 ...
凤凰网科技讯 12月15日,阿里通义宣布开源Fun-CosyVoice3-0.5B,该版本提供了zero-shot(注:零样本)音色克隆能力,只需要你提供一段3秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。
Fun-ASR模型能力同样得到了增强。作为通义百聆推出的端到端语音识别大模型,Fun-ASR 基于数千万小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。本次,通义对 Fun-ASR ...
IT之家 12 月 15 日消息,今天下午,通义大模型通过官方公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。根据介绍, 其只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言,通通搞定。
2阿里巴巴通义实验室今日正式开源 Z-Image-Turbo-Fun-Controlnet-Union,这款全新 ControlNet 模型标志着其 Z-Image 系列图像生成生态的重大扩展。作为 AIbase 独家 追踪的开源 AI 动态,此次发布进一步强化了 Z-Image-Turbo 在精确控制与创意生成方面的领先优势,迅速引发全球开发者与创作者的热议。
在十五运会启幕前,广州日报精心策划推出了“我为大湾区加FUN ...
九江新闻网讯(周英) 初冬暖阳洒满绿茵场,欢声笑语激荡校园间。近日,浔阳区湖滨小学以“燃动冬日 快乐开Fun”为主题的冬季趣味运动会火热上演,一至四年级学子们齐聚赛场,在充满童趣与挑战的项目中释放活力,用协作与欢笑温暖了整个寒冬。
据通义大模型官微消息,阿里通义宣布开源Fun-CosyVoice3-0.5B,该版本提供了zero-shot音色克隆能力,只需提供一段3秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。此外,通义推出轻量化版本Fun-ASR-Nano模型,总参数量压缩到0.8B,推理成本更低,现已开源,支持本地部署与定制化微调。