AnyStory是什么?一文让你看懂AnyStory的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

AnyStory概述简介

AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段,AnyStory结合强大的ReferenceNet和CLIP视觉编码器,对主体特征进行高保真度的编码,捕捉丰富的细节和语义信息。ReferenceNet支持高分辨率输入,与去噪U-Net的特征空间对齐,为生成图像提供坚实的细节基础;CLIP视觉编码器则负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。在路由阶段,解耦的实例感知主体路由器能准确感知并预测主体在潜在空间中的位置,引导主体条件的注入,有效避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。

AnyStory的功能特色

高保真度单主体个性化:AnyStory能生成具有特定主体的高保真度图像,捕捉到丰富的细节和语义信息,使生成的图像与文本描述紧密对齐。

多主体个性化:在涉及多个主体的场景中,AnyStory能准确地感知和预测每个主体在潜在空间中的位置,引导主体条件的注入,避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。

文本描述对齐:AnyStory确保生成的图像与文本描述紧密对齐,通过CLIP视觉编码器提取主体的粗略概念,确保生成的图像与文本描述的一致性。

细节保留:基于ReferenceNet,AnyStory能保留主体的精细细节,提供高质量的图像生成支持。

灵活的主体条件注入:通过解耦的实例感知主体路由器,AnyStory能灵活地将主体条件注入到潜在空间中,实现对生成图像的精确控制。

AnyStory的技术原理

编码阶段

ReferenceNet:是通用且强大的图像编码器,支持高分辨率输入,能提取主体的精细细节。ReferenceNet的特征空间与去噪U-Net对齐,便于U-Net直接提取不同深度和尺度的主体特征。ReferenceNet通过变分自动编码器(VAE)对参考图像进行编码,然后通过一个与U-Net相同架构的网络提取其特征。

CLIP视觉编码器:CLIP视觉编码器负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。CLIP的特征主要是语义的,虽然分辨率较低,能提供与文本嵌入良好对齐的特征,触发主体生成。

路由阶段

解耦路由机制:通过独立分支预测主体在潜在空间中的位置。给定一系列分割后的主体图像,分别通过CLIP图像编码器和一个额外的单查询QFormer获取路由特征。这些特征通过图像分割解码器建模路由器,生成粗略的路由图,再通过掩码交叉注意力模块细化路由图,最终用于指导主体信息的注入。

实例感知路由正则化损失:为了促进路由器学习并区分不同主体实例,引入了实例感知路由正则化损失。这一损失函数确保路由器能准确地将主体特征路由到相应区域,减少对无关区域的影响。

路由引导的主体信息注入:对于CLIP编码的主体表示,使用解耦交叉注意力将它们整合到U-Net中,增加路由引导的定位约束。对于ReferenceNet编码的主体特征,采用原始的参考注意力,增加由路由图引起的注意力掩码,确保主体特征准确注入到目标区域。

训练阶段

主体编码器训练:训练主体QFormer、ReferenceNet以及注意力块中相应的键、值矩阵。使用预训练的U-Net权重初始化ReferenceNet,收集大量保持主体身份一致但在背景、姿势和视角上显示变化的配对数据进行训练,防止主体过拟合。

路由器训练:固定主体编码器,训练路由器。主要训练数据包括额外的未配对多人图像,路由器能够有效地泛化到一般主体,归因于CLIP模型的强大泛化能力和高度压缩的单令牌路由特征。

AnyStory项目介绍

项目官网:https://aigcdesigngroup.github.io/AnyStory

arXiv技术论文:https://arxiv.org/pdf/2501.09503v1

AnyStory能做什么?

创意绘画:艺术家可以用AnyStory将脑海中的创意转化为视觉作品。为特定的客户定制个性化的肖像,AnyStory能提供高质量的图像生成支持,缩短创作周期。

概念设计:在设计初期,AnyStory可以帮助艺术家和设计师快速生成概念图,为后续的详细设计提供参考。

角色概念图:游戏设计师可以用AnyStory根据游戏背景故事和角色设定,快速生成多个角色的概念图。

漫画创作:为漫画创作者提供快速生成角色和场景的工具,加速创作过程,提高作品的视觉效果。

个性化广告:根据不同的目标受众和营销主题,快速生成包含特定产品或品牌元素的图像,提高广告的吸引力和效果。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • knowlee
    knowlee Knowlee是财务见解和新鲜内容的最终AI助手。访问广泛的数据源,例如文档,视频,社交帖子和财务统计数据,以实现强大的分析。获取实时AI见解,以革新...
  • Studio Global
    Studio Global Studio Global 是一款专注于内容创作和工作流自动化的AI工具。它通过无代码的AI工作流,帮助用户高效完成内容创作、客户沟通和市场推广等任务...
  • Sparsh
    Sparsh Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight M...
  • Pico Library
    Pico Library Pico Library是一款利用先进的人工智能技术,为孩子编写和阅读有趣的故事的APP。它由苹果的神经引擎驱动,所有故事的创作和阅读都在你的设备上进...
  • Snon Lyric
    Snon Lyric Snon Lyric是一个AI歌词生成器,它利用人工智能技术帮助用户轻松创作个性化歌词。用户可以根据自己的喜好选择不同的主题、语言、风格和情绪,生成器...
  • Aixploria
    Aixploria Aixploria是一个专注于人工智能的网站,提供在线AI工具目录,帮助用户发现和选择满足其需求的最佳AI工具。该平台以简化的设计和直观的搜索引擎,让...
  • Reporfy
    Reporfy Reporfy是一个一站式平台,使用户能够轻松创建、共享和围绕报告进行互动。它提供了一个用户友好的拖放平台,用于组织、共享和跟踪数据,并通过预构建的模...
  • Stable Audio Open 1.0
    Stable Audio Open 1.0 Stable Audio Open 1.0是一个利用自编码器、基于T5的文本嵌入和基于变压器的扩散模型来生成长达47秒的立体声音频的AI模型。它通过文...