Sonic是什么?一文让你看懂Sonic的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Sonic概述简介

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。Sonic用时间感知位置偏移融合机制,将局部音频感知扩展到全局,解决长视频生成中的抖动和突变问题。Sonic在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法,显著提升肖像动画的自然性和连贯性,支持用户对动画的精细调整。

Sonic的功能特色

逼真的唇部同步:精确地将音频与唇部动作对齐,确保说话内容与嘴型高度一致。

丰富的表情和头部动作:生成多样化且自然的面部表情和头部运动,让动画更具生动性和表现力。

长时间稳定生成:在处理长视频时,能保持稳定的输出,避免抖动和突变,确保整体连贯性。

用户可调节性:支持用户基于参数调整控制头部运动、表情强度和唇部同步效果,提供高度的可定制性。

Sonic的技术原理

上下文增强音频学习:提取音频片段内的长期时间音频知识,将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Whisper-Tiny模型提取音频特征,基于多尺度理解将特征与空间交叉注意力层结合,指导空间帧的生成。

运动解耦控制器:将头部运动和表情运动解耦,分别用独立的参数控制,增强动画的多样性和自然性。支持用户自定义夸张运动,基于调整运动桶参数(motion-bucket parameters)控制头部和表情运动的幅度。

时间感知位置偏移融合:基于时间感知的滑动窗口策略,将音频片段的局部感知扩展到全局感知,解决长视频生成中的抖动和突变问题。在每个时间步中,模型从新的位置开始处理音频片段,逐步融合全局音频信息,确保长视频的连贯性。

全局音频驱动:Sonic完全依赖音频信号驱动动画生成,避免传统方法中对视觉信号(如运动帧)的依赖,提高生成的自然性和时间一致性。音频信号作为全局信号,为面部表情和头部运动提供隐式的先验信息,让生成的动画更加符合音频内容。

Sonic的实验结果

定量比较:

在 HDTF 和 CelebV-HQ 数据集上,Sonic 在多个评估指标上优于现有的 SOTA 方法,包括 FID(Fréchet Inception Distance)、FVD(Fréchet Video Distance)、唇部同步精度(Sync-C、Sync-D)和视频流畅度(Smoothness)。

Sonic 的 FID 和 FVD 分数显著低于其他方法,表明其生成的视频质量更高,与真实数据的一致性更好。

定性比较:Sonic 能生成更自然、更多样的面部表情和头部动作,尤其是在处理复杂背景和不同风格的肖像时,表现出更强的鲁棒性。

Sonic的生成效果

与开源方法对比:Sonic能生成更符合音频的丰富表情,促进更自然的头部运动。

与闭源方法对比:

与EMO对比

Sonic在面部表情的自然度和眼镜反射的真实感方面表现更好。

在歌唱场景中,Sonic展现出更精确的发音和更多样的动作。 与即梦对比:

在动漫案例中,Sonic的嘴唇动作和外观更贴近原始输入,并伴有眨眼动作。

在长视频生成中,Sonic不受运动帧的限制,避免视频末尾出现伪影。

Sonic项目介绍

项目官网:https://jixiaozhong.github.io/Sonic/

GitHub仓库:https://github.com/jixiaozhong/Sonic

arXiv技术论文:https://arxiv.org/pdf/2411.16331

在线体验Demo:http://demo.sonic.jixiaozhong.online/

Sonic能做什么?

虚拟现实(VR):为虚拟角色生成逼真的表情和口型,增强沉浸感。

影视制作:快速生成角色的口型和表情动画,提高制作效率。

在线教育:将教师语音转化为生动的动画,提升学习趣味性。

游戏开发:生成游戏角色的自然表情和动作,增强真实感。

社交媒体:用户可将语音与照片结合,生成个性化动画视频分享。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • storymania ai story generator
    storymania ai story generator 与AI -Power的平台与Storymania进行工艺吸引人的故事,旨在协助各个级别的作家。在干净,无广告的环境中享受无缝的编辑和类型定制。在创纪录...
  • aibooktools
    aibooktools 使用Aibooktools,您可以将书籍快速转化为可行的见解 - 所有这些都没有长时间的阅读或手动数据输入。凭借AI的力量,您可以充分利用自己喜欢的书...
  • nureply
    nureply Nureply的AI动力冷电子邮件自动化软件提供了全面,可靠的电子邮件自动化功能。有了它,您可以在几分钟内使用高可交付性,无限的潜在客户,热身,冷电子...
  • Exponent
    Exponent Exponent 是一款协作式 AI 编程代理,旨在提升软件开发的效率与体验。它能够在多种环境中工作,从代码的探索到部署,能够帮助开发者自动化复杂的编...
  • Notion Sites
    Notion Sites Notion Sites 是一个简单易用的网站搭建工具,用户可以通过拖放式构建块快速创建个性化网站,无需编写复杂的HTML或代码。它提供了超过10,0...
  • RolePlai - Ai Chatbots
    RolePlai - Ai Chatbots RolePlai是一款革命性的AI聊天机器人应用程序,具有世界上最先进的AI技术,让您感觉像在与真人交谈。这款前沿的应用程序允许您立即创建任何名人、公...
  • Quillminds
    Quillminds Quillminds是一个AI驱动的学习平台,旨在通过人工智能工具革新学习、教学和成长的方式,提升学生和教育工作者的创造力、生产力和成就。平台提供个性...
  • Upheal
    Upheal Upheal 是一款为心理健康专业人士提供 AI 辅助的平台,具备自动化笔记和分析功能。通过 Upheal,您可以更加专注于会话,获得更多的时间和能量...