GAS是什么?一文让你看懂GAS的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

GAS概述简介

GAS(Generative Avatar Synthesis from a Single Image)是卡内基梅隆大学、上海人工智能实验室和斯坦福大学的开发人员提出的从单张图像生成高质量、视角一致且时间连贯虚拟形象的框架。GAS的核心在于结合了回归型3D人体重建模型和扩散模型的优势。基于3D人体重建模型从单张图像生成中间视角或姿态,将其作为条件输入视频扩散模型,实现高质量的视角一致性和时间连贯性。框架引入了“模式切换器”,用于区分视角合成和姿态合成任务,进一步提升生成效果。

GAS的功能特色

视角一致的多视角合成:从单张图像生成高质量的多视角渲染,确保不同视角下的外观和结构一致性。

时间连贯的动态姿态动画:通过给定的姿态序列,生成流畅且真实的非刚性形变动画,实现动态姿态的连贯性。

统一框架与泛化能力:将视角合成和姿态合成任务统一,通过共享模型参数和利用大规模真实数据(如网络视频)进行训练,提升模型对真实场景的泛化能力。

密集外观提示:基于3D重建模型生成的密集信息作为条件输入,确保生成结果在外观和结构上的高保真度。

GAS的技术原理

3D人体重建与密集条件信号:GAS首先基于回归型3D人体重建模型(如单视角通用人类NeRF)从输入图像生成中间的视角或姿态。通过将输入图像映射到规范空间并重新定位,生成密集的外观提示。这些密集信息作为条件输入,为后续的扩散模型提供了丰富的细节和结构信息,确保生成结果的高质量和一致性。

视频扩散模型与统一框架:生成的中间视角或姿态被用作视频扩散模型的条件输入,通过扩散模型生成高质量的视角一致性和时间连贯性动画。GAS提出了统一框架,将视角合成和姿态合成任务合并,共享模型参数,实现从姿态合成到视角合成的自然泛化。

模式切换器:为了区分视角合成和姿态合成任务,GAS引入了模式切换器模块。模块支持网络在生成视角时专注于一致性,在生成姿态时专注于真实感变形。

真实世界数据的泛化能力:GAS通过结合大规模真实世界视频(如网络视频)进行训练,显著提升了对真实场景的泛化能力。数据来源的多样性使得模型能够适应各种光照、服装和动作条件。

训练与推理:GAS的训练分为两个阶段:首先训练3D人体重建模型,然后冻结该模型并训练视频扩散模型。推理时,根据任务性质(视角合成或姿态合成)采用不同的分类器自由引导(CFG)策略。

GAS项目介绍

项目官网:https://humansensinglab.github.io/GAS/

arXiv技术论文:https://arxiv.org/pdf/2502.06957

GAS能做什么?

游戏和虚拟现实(VR):GAS可以从单张图像生成高质量的虚拟形象,支持多视角和动态姿态的连贯合成。

影视制作:在影视特效和动画制作中,GAS能快速生成逼真的虚拟角色,减少传统建模和动画制作的时间和成本。

体育和健身:通过从单张图像生成动态虚拟形象,GAS可用于创建个性化的运动动画,帮助运动员分析动作或用于健身应用中。

时尚和服装设计:GAS能生成不同姿态和视角的虚拟形象,帮助设计师快速预览服装效果,提升设计效率。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • 灵构AI笔记
    灵构AI笔记 灵构笔记融合AI创作和知识管理的团队协作平台,以云端笔记为载体, 为个人和团队提供在线协作文档、多维表、流程图、网盘等多形态功能。...
  • audio writer
    audio writer 使用音频作者 - AI转录工具来转换您的成绩单。消除填充单词,改善语法和标点符号,并从多种样式中选择以完美匹配您的音调。每次获得准确,抛光的转录。...
  • Greta
    Greta Greta是一个创新的全栈增长组件平台,旨在帮助用户快速将想法转化为现实。它提供了从应用开发到数据分析、电子邮件营销等多种功能,支持Web和移动平台。...
  • wevideo
    wevideo Wevideo是用于学校,企业和企业家的领先的在线视频编辑平台。易于使用的工具可让您创建具有专业结果的惊人多媒体项目。立即开始免费使用#1视频编辑器!...
  • Zed
    Zed Zed是由Atom和Tree-sitter的创造者开发的高性能、多人协作代码编辑器,开源且集成了AI代码生成功能。它利用多核心CPU和GPU,实现即时...
  • Scam AI
    Scam AI Scam AI 是一款专注于检测 AI 欺诈行为的平台。它通过先进的技术手段,能够快速分析和识别深度W造的视频、语音克隆以及其他潜在的欺诈信息。在 A...
  • Beauty photo, Sharpen the image
    Beauty photo, Sharpen the image FilterX - 照片编辑器是一款拥有大量独特、现代和时尚滤镜的应用程序,可将您的照片提升到一个全新的水平。除了滤镜之外,它还提供了全面的编辑工具套...
  • Canonical AI
    Canonical AI Canonical AI提供的声音AI分析工具,专注于分析和优化语音助手的通话性能。该工具通过可视化通话流程、识别关键性能指标(KPIs)和自定义度量...