AnyStory是什么?一文让你看懂AnyStory的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

AnyStory概述简介

AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段,AnyStory结合强大的ReferenceNet和CLIP视觉编码器,对主体特征进行高保真度的编码,捕捉丰富的细节和语义信息。ReferenceNet支持高分辨率输入,与去噪U-Net的特征空间对齐,为生成图像提供坚实的细节基础;CLIP视觉编码器则负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。在路由阶段,解耦的实例感知主体路由器能准确感知并预测主体在潜在空间中的位置,引导主体条件的注入,有效避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。

AnyStory的功能特色

高保真度单主体个性化:AnyStory能生成具有特定主体的高保真度图像,捕捉到丰富的细节和语义信息,使生成的图像与文本描述紧密对齐。

多主体个性化:在涉及多个主体的场景中,AnyStory能准确地感知和预测每个主体在潜在空间中的位置,引导主体条件的注入,避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。

文本描述对齐:AnyStory确保生成的图像与文本描述紧密对齐,通过CLIP视觉编码器提取主体的粗略概念,确保生成的图像与文本描述的一致性。

细节保留:基于ReferenceNet,AnyStory能保留主体的精细细节,提供高质量的图像生成支持。

灵活的主体条件注入:通过解耦的实例感知主体路由器,AnyStory能灵活地将主体条件注入到潜在空间中,实现对生成图像的精确控制。

AnyStory的技术原理

编码阶段

ReferenceNet:是通用且强大的图像编码器,支持高分辨率输入,能提取主体的精细细节。ReferenceNet的特征空间与去噪U-Net对齐,便于U-Net直接提取不同深度和尺度的主体特征。ReferenceNet通过变分自动编码器(VAE)对参考图像进行编码,然后通过一个与U-Net相同架构的网络提取其特征。

CLIP视觉编码器:CLIP视觉编码器负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。CLIP的特征主要是语义的,虽然分辨率较低,能提供与文本嵌入良好对齐的特征,触发主体生成。

路由阶段

解耦路由机制:通过独立分支预测主体在潜在空间中的位置。给定一系列分割后的主体图像,分别通过CLIP图像编码器和一个额外的单查询QFormer获取路由特征。这些特征通过图像分割解码器建模路由器,生成粗略的路由图,再通过掩码交叉注意力模块细化路由图,最终用于指导主体信息的注入。

实例感知路由正则化损失:为了促进路由器学习并区分不同主体实例,引入了实例感知路由正则化损失。这一损失函数确保路由器能准确地将主体特征路由到相应区域,减少对无关区域的影响。

路由引导的主体信息注入:对于CLIP编码的主体表示,使用解耦交叉注意力将它们整合到U-Net中,增加路由引导的定位约束。对于ReferenceNet编码的主体特征,采用原始的参考注意力,增加由路由图引起的注意力掩码,确保主体特征准确注入到目标区域。

训练阶段

主体编码器训练:训练主体QFormer、ReferenceNet以及注意力块中相应的键、值矩阵。使用预训练的U-Net权重初始化ReferenceNet,收集大量保持主体身份一致但在背景、姿势和视角上显示变化的配对数据进行训练,防止主体过拟合。

路由器训练:固定主体编码器,训练路由器。主要训练数据包括额外的未配对多人图像,路由器能够有效地泛化到一般主体,归因于CLIP模型的强大泛化能力和高度压缩的单令牌路由特征。

AnyStory项目介绍

项目官网:https://aigcdesigngroup.github.io/AnyStory

arXiv技术论文:https://arxiv.org/pdf/2501.09503v1

AnyStory能做什么?

创意绘画:艺术家可以用AnyStory将脑海中的创意转化为视觉作品。为特定的客户定制个性化的肖像,AnyStory能提供高质量的图像生成支持,缩短创作周期。

概念设计:在设计初期,AnyStory可以帮助艺术家和设计师快速生成概念图,为后续的详细设计提供参考。

角色概念图:游戏设计师可以用AnyStory根据游戏背景故事和角色设定,快速生成多个角色的概念图。

漫画创作:为漫画创作者提供快速生成角色和场景的工具,加速创作过程,提高作品的视觉效果。

个性化广告:根据不同的目标受众和营销主题,快速生成包含特定产品或品牌元素的图像,提高广告的吸引力和效果。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • 通义法睿
    通义法睿 通义法睿是一款大模型时代的AI法律顾问产品。它提供法律智能对话,通过问题理解,正确引用法规和案例进行问题回答。同时,它还能一键生成专属法律文书,根据案...
  • Connexun
    Connexun Connexun是一款利用人工智能将非结构化新闻内容转化为可行动的数据的产品。它采用了先进的自然语言处理(NLP)技术,通过训练超过一百万篇不同语言的...
  • AMchat
    AMchat AMchat是一个集成了数学知识和高等数学习题及其解答的大语言模型。它基于InternLM2-Math-7B模型,通过xtuner微调,专门设计用于解...
  • Deep Review by SciSpace
    Deep Review by SciSpace Deep Review by SciSpace 是一款面向科研人员和学者的深度文献综述工具。它利用人工智能技术,帮助用户快速完成系统性文献综述,确保不...
  • Browser AI Kit
    Browser AI Kit Browser AI Kit是一个集成了多种AI工具的平台,用户可以在浏览器中直接使用这些工具,无需安装或设置。它提供了音频转文本、去除背景、文本转语...
  • Ultimate Vocal Remover GUI
    Ultimate Vocal Remover GUI 终极人声去除GUI是一款使用深度神经网络技术的人声去除工具。其核心开发者训练了所有提供的模型,除了Demucs v3和v4 4声道模型。该应用使用先进...
  • vidnota
    vidnota 有效地使用Vidnota创建引人入胜的简短形式内容。该AI工具会自动策划播客和访谈等较长视频中的有趣片段,从而节省了宝贵的时间和精力。作为创作者,您可...
  • gamma
    gamma Gamma是一种AI驱动的媒介,可创建现代,引人入胜的内容,没有格式或设计工作。它的智能AI技术可帮助您单击一个按钮快速生成演示,网页和文档。...