新ObjectMover是什么?一文让你看懂新ObjectMover的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

ObjectMover概述简介

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型的跨帧一致性学习能力,通过微调模型将其迁移到图像编辑任务。模型采用序列到序列建模,输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像。

ObjectMover的功能特色

物体移动:可将图像中的物体移动到指定位置,自动调整相关的物理效果,如光照、阴影、反射等,同时保持物体的身份特征。

物体删除:能真实地填充被移除物体的背景,非生成不相干的新物体,准确地移除与物体相关的光影。

物体插入:能精准保持被插入物体的身份特征,自动生成与环境一致的光影效果。

ObjectMover的技术原理

视频先验迁移:ObjectMover将物体移动任务视为两帧视频的特殊案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力。通过微调模型,将其从视频生成任务迁移到图像编辑任务。能充分利用视频模型预训练时习得的物理规律及物体对应关系,在图像编辑任务中实现精确的光影同步与身份特征保持。

序列到序列建模:模型将物体移动任务重构为序列预测问题。输入包括原始图像、目标物体图像、指令图(标注移动位置与方向),输出为物体移动后的合成图像。使模型能更好地理解和处理物体在不同位置下的光影变化和遮挡关系。

合成数据集构建:由于缺乏大规模物体移动的真实数据,研究团队使用现代游戏引擎(如虚幻引擎)生成高质量合成数据对。数据涵盖了复杂光照、材质和遮挡场景,增强了模型训练的多样性和泛化能力。

多任务学习策略:ObjectMover结合了物体移动、移除、插入及视频数据插入四个子任务,通过统一框架在合成数据与真实视频数据上进行训练。提升了模型对真实场景的泛化能力,使模型在处理不同图像编辑任务时表现出更高的适应性和鲁棒性。

ObjectMover项目介绍

项目官网:https://xinyu-andy.github.io/ObjMover/

arXiv技术论文:https://arxiv.org/pdf/2503.08037

ObjectMover能做什么?

特效制作:对于一些复杂的特效场景,如物体的消失或出现,ObjectMover可以实现物体的删除和插入,保持场景的真实感。

虚拟场景编辑:在虚拟现实和游戏开发中,需要对虚拟场景中的物体进行灵活的调整。ObjectMover可以用来移动场景中的物体,如将一个道具从一个位置移动到另一个位置,同时保持物体的光照和阴影与环境一致。

游戏关卡设计:开发者可以用ObjectMover快速调整关卡中的物体布局,提高关卡设计的效率。

产品展示:对于产品广告,可以用ObjectMover将产品放置在不同的场景中,展示产品的不同使用场景。

空间规划:在建筑和室内设计中,可以用ObjectMover将家具或装饰品移动到不同的位置,评估不同的设计方案。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Better Call Santa
    Better Call Santa Better Call Santa是一款在节日期间为家庭带来欢乐的应用程序。通过这个应用,孩子们可以与圣诞老人进行个性化通话,分享他们的圣诞愿望。家长...
  • Qwen2.5-Coder-1.5B-Instruct-GPTQ-Int4
    Qwen2.5-Coder-1.5B-Instruct-GPTQ-Int4 Qwen2.5-Coder是Qwen大型语言模型的最新系列,专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5,该模型在训练中包含了5.5万...
  • MathGPT Pro
    MathGPT Pro MathGPT Pro 是一款先进的 AI 数学解题器,旨在为全球数百万学生提供快速准确的数学问题解决方案。该产品能够处理各种数学领域的问题,如代数、...
  • 迅捷PPT
    迅捷PPT 迅捷PPT是一款利用人工智能技术一键生成PPT的工具,它通过用户提供的主题自动生成PPT大纲和内容,支持导出PPT文档。该产品以其高效、便捷的特点,帮...
  • undress ai
    undress ai 用undressai体验闪电般的图像生成,这是AI驱动的工具,用于创建文本图像。自定义您对年龄和身体类型的偏好,并观察您的文本变成令人惊叹的视觉效果。...
  • Julep AI
    Julep AI Julep AI是一个平台,用于创建能够记住过去互动并执行复杂任务的AI代理。它提供了LLMs和您的软件之间的完整基础设施层,内置支持长期记忆和多步骤...
  • Noloco
    Noloco Noloco 是一款面向企业的无代码平台,旨在通过灵活的工具和强大的集成能力,帮助企业简化业务流程、提升运营效率。它支持多种数据源的连接,包括 Air...
  • AI Job Interview Trainer
    AI Job Interview Trainer AI Job Interview Trainer是您个人AI强化准备合作伙伴,定制练习、详细反馈和动态对话等着您,将令人生畏的面试过程变成下一个胜利。...