xAR是什么?一文让你看懂xAR的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

xAR概述简介

xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Learning)技术,解决了传统自回归模型在视觉生成中的信息密度不足和累积误差问题。

xAR的功能特色

下一个X预测(Next-X Prediction):扩展了传统的“下一个标记预测”,支持模型预测更复杂的实体(如图像块、单元、子采样、整个图像等),捕捉更丰富的语义信息。

噪声上下文学习(Noisy Context Learning):通过在训练中引入噪声,提高模型对误差的鲁棒性,缓解累积误差问题。

高性能生成:在 ImageNet 数据集上,xAR 模型在推理速度和生成质量上均优于现有技术,如 DiT 和其他扩散模型。

灵活的预测单元:支持多种预测单元设计(如单元、子采样、多尺度预测等),适用于不同的视觉生成任务。

xAR的技术原理

流匹配(Flow Matching):xAR基于流匹配方法将离散的标记分类问题转化为连续的实体回归问题。具体来说:

模型通过插值和噪声注入的方式生成带噪声的输入。

在每个自回归步骤中,模型预测从噪声分布到目标分布的方向流(Velocity),从而逐步优化生成结果。

 推理策略:在推理阶段,xAR采用自回归的方式逐步生成图像:

首先从高斯噪声中预测初始单元(如8×8的图像块)。

基于已生成的单元,模型逐步生成下一个单元,直到完成整个图像的生成。

实验结果:xAR在ImageNet-256和ImageNet-512基准测试中取得了显著的性能提升:

xAR-B(1.72亿参数)模型在推理速度上比DiT-XL(6.75亿参数)快20倍,同时在弗雷歇 inception 距离(FID)上达到1.72,优于现有的扩散模型和自回归模型。

xAR-H(11亿参数)模型在ImageNet-256上达到了1.24的FID,创造了新的最优水平,且不依赖于视觉基础模型(如DINOv2)或高级引导区间采样。

xAR项目介绍

项目官网:https://oliverrensu.github.io/project/xAR/

arXiv技术论文:https://arxiv.org/pdf/2502.20388

xAR能做什么?

艺术创作:艺术家可以用xAR生成创意图像,作为艺术作品的灵感来源或直接用于创作。xAR能生成具有丰富细节和多样风格的图像,支持不同分辨率和风格的创作需求。

虚拟场景生成:在游戏开发和虚拟现实(VR)中,xAR可以快速生成逼真的虚拟场景,包括自然景观、城市环境和虚拟角色等,提升用户体验。

老照片修复:通过生成高质量的图像内容,xAR可以修复老照片中的损坏部分,恢复其原始细节和色彩。

视频内容生成:xAR可以生成视频中的特定场景或对象,用于视频特效制作、动画生成和视频编辑。

数据增强:通过生成多样化的图像,xAR可以扩充训练数据集,提升模型的泛化能力和鲁棒性。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Fill Genius
    Fill Genius Fill Genius是一款AI驱动的自动表单填充工具,旨在自动检测表单字段并用您选择的数据源填充它们。它是一个快速高效的解决方案,用于跨多个平台填写...
  • DemandsAI
    DemandsAI Filevine是一款法律案件和合同管理软件,包括案件、调查和项目管理等功能。它被广泛信赖,拥有超过65,000个用户。获取演示版本并了解更多信息!...
  • Upheal
    Upheal Upheal 是一款为心理健康专业人士提供 AI 辅助的平台,具备自动化笔记和分析功能。通过 Upheal,您可以更加专注于会话,获得更多的时间和能量...
  • remove bg
    remove bg remove.bg是一种由AI驱动的工具,可以通过毫不费力地从图像中删除背景来辜负其名称。无论是人,产品,动物,汽车还是图形,该工具都可以处理所有问题...
  • gpt directory
    gpt directory 发现GPT目录,这是自定义GPT的终极在线数据库。它旨在使探索,查找和管理GPT比以往任何时候都更快,更高效。 GPT目录拥有超过28,000个GPT...
  • ChatGPT Desktop Hub
    ChatGPT Desktop Hub ChatGPT桌面版是一款简单而时尚的应用,直接将ChatGPT带到您的桌面,让您轻松高效地进行沟通。具备快速访问和高效沟通的特点,让您的工作更加专注...
  • TripAdvisor Summary
    TripAdvisor Summary Where To AI是一款旅行规划工具,通过人工智能的力量帮助您发现新的目的地、创建难忘的回忆并找到最佳住宿地点。我们的AI会为您完成所有艰难的工作...
  • literature latte
    literature latte 文学和拿铁是行业领先的AI写作软件。它是作者更有效地增强其创造性流程和制作故事的理想工具。功能包括Scrivener(以其全面的故事组织系统而闻名的S...