VLOGGER是什么?一文让你看懂VLOGGER的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

VLOGGER概述简介

VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型,专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型,将一张静态图片转换成一个动态的视频角色,同时保持照片中人物的逼真外观。此外,VLOGGER还能够根据音频来控制人物动作,不仅仅是面部动作和嘴唇同步,还包括头部运动、目光、眨眼以及上身和手部手势,从而将音频驱动的视频合成推向了一个新的高度。

VLOGGER的官网入口

官方项目主页:https://enriccorona.github.io/vlogger/

arXiv研究论文:https://arxiv.org/abs/2403.08764v1

VLOGGER的功能特性

    图像和音频驱动的视频生成: VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频,VLOGGER将生成一个视频中的人物,其面部表情、嘴唇动作和身体语言与音频同步。

    多样性和真实性: VLOGGER生成的视频具有高度的多样性,能够展示原始主体的不同动作和表情,同时保持背景的一致性和视频的真实性。

    视频编辑: VLOGGER可以用于编辑现有视频,例如改变视频中人物的表情,使其与原始视频的未改变像素保持一致。

    生成移动和说话的人物: VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频,即使没有视频中人物的原始视频资料。

    视频翻译: VLOGGER能够将一种语言的视频转换为另一种语言的视频,通过编辑唇部和面部区域以匹配新的音频,实现跨语言的视频内容适配。

    VLOGGER的工作原理

    VLOGGER的工作原理主要基于一个两阶段的流程,结合了音频驱动的运动生成和时间连贯的视频生成。

    第一阶段:音频驱动的运动生成

    音频处理:VLOGGER首先接收一段音频输入,这可以是语音或音乐。如果输入是文本,它也会通过文本到语音(TTS)模型转换为音频波形。

    3D运动预测:接着,系统使用一个基于变换器(Transformer)架构的网络来处理音频输入。这个网络被训练来预测与音频同步的3D面部表情和身体姿势。网络使用多步注意力层来捕捉音频的时间特征,并生成一系列的3D姿势参数。

    生成控制表示:网络输出的是一系列预测的面部表情(θe i)和身体姿势的残差(∆θb i)。这些参数随后用于生成控制视频生成过程的2D表示。

    第二阶段:时间连贯的视频生成

    视频生成模型:VLOGGER的第二个阶段是一个时间扩散模型,它接收第一阶段生成的3D运动控制和一张参考图像(即输入的单一人物图像)。

    条件化视频生成:视频生成模型是一个基于扩散的图像到图像翻译模型,它利用预测的2D控制来生成一系列帧,这些帧按照输入的音频和3D运动参数进行动画处理。

    超分辨率:为了提高视频质量,VLOGGER还包括一个超分辨率扩散模型,它将基础视频的分辨率从128×128提升到更高的分辨率,如256×256或512×512。

    时间外延:VLOGGER使用时间外延(temporal outpainting)的技术来生成任意长度的视频。它首先生成一定数量的帧,然后基于前一帧的信息迭代地生成新的帧,从而扩展视频的长度。

    数据集和训练

    VLOGGER在名为MENTOR的大规模数据集(2200个小时和800000个身份)上进行训练,这是一个包含大量身份和动态手势的大规模数据集。训练过程中,模型学习如何根据3D姿势参数和输入图像生成连贯的、高质量的视频序列。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Factory
    Factory Factory 是一个面向软件开发的自主性平台,旨在通过连接工程系统中的上下文和工具,提升团队协作效率和开发体验。它支持从代码生成、代码审查到文档生成...
  • Think in Italian AI Tutor
    Think in Italian AI Tutor Think in Italian是一款专为意大利语设计的在线音频课程,通过这个课程,您可以在几天内用意大利语思考。它提供了一系列的音频课程,帮助您提高...
  • Android XR
    Android XR Android XR是谷歌为开发者提供的一个平台,旨在帮助开发者创建和优化扩展现实(XR)应用。它包括一系列的工具、API和框架,使得开发者能够为An...
  • ai meme maker
    ai meme maker 在几秒钟内创建引人入胜的自定义模因!我们的人工智能驱动的模因制造商从您的手机或相机拍摄照片,并通过简单单击自动生成完美的模因。现在可以在iOS和And...
  • Venixs
    Venixs Venixs是一款商业导向的AI客户成功系统,通过无缝集成AI实现卓越的效率和以客户为中心的成功。它重新定义了成功作为持续发展的演变。Venixs提供...
  • ReaderLM v2
    ReaderLM v2 ReaderLM v2是由Jina AI推出的参数量为1.5B的小型语言模型,专门用于HTML转Markdown转换和HTML转JSON提取,具有卓越...
  • How to Build Your Career in AI
    How to Build Your Career in AI 《How to Build Your Career in AI》是由AI先驱Andrew Ng所著的电子书,提供了关于学习基础技能、开展项目、寻找工作...
  • Sensi Bot
    Sensi Bot SensiBot是一款AI聊天机器人,通过自动化技术帮助您优化对话体验。它可以24/7提供客户支持,并具有智能回复、自动化提问、自动化线索生成等功能。...