Perception-as-Control是什么?一文让你看懂Perception-as-Control的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Perception-as-Control概述简介

Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相机和物体运动转化为直观、一致的视觉变化,用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。Perception-as-Control框架基于U-Net架构的扩散模型,结合参考图像的外观信息和运动控制信号的运动信息,生成可控的图像动画。Perception-as-Control推出三阶段训练策略,平衡相机和物体运动控制,促进细粒度运动控制,在多种应用场景中展现出优越的性能。

Perception-as-Control的功能特色

细粒度协同运动控制:实现相机和物体运动的协同控制,支持用户用细粒度的方式控制动画中的各个元素。让用户精确地调整场景中物体的运动及相机的视角变化。

多种运动相关视频合成任务:支持多种与运动相关的视频合成任务,包括基于图像的运动生成、基于视频的运动克隆、运动转移和运动编辑。

运动生成:根据用户输入的参考图像和2D轨迹生成动画。

运动克隆:模仿源视频中的相机和物体运动。

运动转移:将源视频中的局部运动转移到参考图像中的不同位置和尺度的对象上。

运动编辑:用户提供分割掩码,编辑分割掩码内的运动。

3D感知运动表示:基于构建3D感知运动表示,将复杂的3D场景简化为关键对象部分(用单位球表示)和世界包络,实现直观且一致的视觉变化。

Perception-as-Control的技术原理

3D感知运动表示:将3D场景简化为关键对象部分(用单位球表示)和世界包络,基于3D点跟踪和视觉里程计技术捕捉局部物体运动和全局相机运动。

网络架构:基于去噪U-Net架构,用两个轻量级编码器分别编码相机和物体控制信号,避免RGB级别的干扰,融合模块合并编码信号。

参考图像注入:ReferenceNet将参考图像的外观信息注入到生成过程中,确保生成的视频保持参考图像的特定外观。

三阶段训练策略:

第一阶段:仅训练相机编码器,处理仅含相机运动的视频剪辑。

第二阶段:加入物体编码器和融合模块,处理包含相机和物体运动的视频剪辑。

第三阶段:基于稀疏单位球实现细粒度物体运动控制,自适应确定每个渲染点的控制范围。

扩散模型:用图像扩散概率模型的基本原理,使用去噪U-Net架构生成视频,优化目标是最小化预测噪声与实际噪声之间的差异,条件输入包括参考图像和运动控制信号。

Perception-as-Control项目介绍

项目官网:https://chen-yingjie.github.io/projects/Perception-as-Control/

GitHub仓库:https://github.com/chen-yingjie/Perception-as-Control

arXiv技术论文:https://arxiv.org/pdf/2501.05020

Perception-as-Control能做什么?

电影和视频特效:生成具有特定运动的动画场景,模仿现有视频中的复杂运动,或将一个角色的运动转移到另一个角色上。

游戏开发:为游戏角色和物体生成自然且可控的动画,提升游戏的沉浸感和动态效果。

虚拟现实(VR)和增强现实(AR):在VR环境中生成实时动画反馈,增强用户互动体验;在AR应用中将虚拟物体动画与现实场景融合。

广告和营销:生成吸引人的动态广告和品牌推广动画,提升品牌形象和记忆点。

教育和培训:生成科学实验动画和技能培训模拟动画,帮助学生和学员更好地理解和掌握知识和技能。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Melior Contract Intelligence AI
    Melior Contract Intelligence AI Melior AI是一款智能合同管理平台,可自动分类、审核和查找法律文件,帮助您做出更好的商业决策并轻松自动化工作流程。它可以快速分析合同、识别关键条...
  • 呱呱有声
    呱呱有声 呱呱有声有声制作AI+是一款全流程一体化的声音制作工具,结合人机合作、语音合成、虚拟录音棚和全链条数据,旨在提高制作效率、降低成本。用户可以利用AI辅...
  • Blaze SQL
    Blaze SQL BlazeSQL是一个利用人工智能技术,通过自然语言处理和机器学习算法,将用户的问题转化为SQL查询的数据分析平台。它允许非技术用户通过与AI聊天机器...
  • Diffus
    Diffus GRAVITI Diffus是一个AI艺术品展示平台,帮助用户轻松探索和展示AI生成的艺术品。平台提供稳定的Web界面托管,用户可以展示自己惊人的数字...
  • Aptitude AI
    Aptitude AI Aptitude AI是一个利用人工智能技术进行客户对话分析的平台,它能够大规模地进行和分析与客户的对话,提供深度访谈的洞察力。该产品通过AI进行访谈...
  • Text to Santa Videos by Gan.AI
    Text to Santa Videos by Gan.AI Text to Santa Videos by Gan.AI是一个在线平台,允许用户创建个性化的圣诞老人视频,为亲人和朋友带去节日的问候。该平台通过节...
  • Windsor
    Windsor Windsor.io是一款个性化视频营销工具,通过AI技术,帮助电子商务品牌自动化和扩大个性化视频的使用,以获取、留住和发展客户。它可以记录一段视频,...
  • TravelTrail
    TravelTrail TravelTrail是一款旅行规划应用,通过人工智能技术帮助用户创建和组织旅行计划。它允许用户保存梦想目的地的列表,探索每个城市的详细信息,并根据个...