Follow-Your-Canvas是什么?一文让你看懂Follow-Your-Canvas的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Follow-Your-Canvas概述简介

Follow-Your-Canvas 是由腾讯混元团队与清华大学等机构合作推出的一种高分辨率视频扩展技术。通过分布式处理和布局对齐两个核心设计,将视频内容扩展到任意分辨率,保持与原视频的无缝衔接和高质量内容生成。适用于高分辨率视频的扩展,能克服 GPU 内存限制,处理大规模视频外绘任务,在各种分辨率和宽高比配置中实现最佳效果。

Follow-Your-Canvas的功能特色

高分辨率输出:将视频内容扩展到任意分辨率,例如从4K扩展到8K或更高。

不受显存大小限制:处理大规模视频外延任务,不会受到显存大小的限制。

时空一致性:在扩展过程中,保持视频的空间和时间一致性,确保最终输出的视频质量与原视频风格一致。

生成丰富新内容:在指定的扩展区域生成与原视频风格一致的新内容,提升整体视觉效果。

大规模视频外延:在大规模视频外延方面表现出色,例如将512×512分辨率的视频扩展到1152×2048(约9倍)分辨率。

Follow-Your-Canvas的技术原理

空间窗口分割:视频被分割成多个空间窗口,每个窗口独立进行内容生成,然后无缝合并,能处理任意大小和分辨率的视频而不受 GPU 内存限制。

布局编码器(Layout Encoder):通过布局编码器提取源视频的全局布局信息,注入到每个窗口的生成过程中,确保新生成的内容与原视频布局协调一致。

相对区域嵌入(Relative Region Embedding, RRE):提供源视频与目标窗口之间的相对位置关系,进一步指导每个窗口的生成过程,生成与原视频布局相协调的扩展内容,提高空间和时间一致性。

分布式生成:在多个 GPU 上并行处理各个窗口的内容生成,最后将生成的窗口无缝合并成最终的视频。

Follow-Your-Canvas项目介绍

项目官网:follow-your-canvas.github.io

GitHub仓库:https://github.com/mayuelala/FollowYourCanvas

arXiv技术论文:https://arxiv.org/pdf/2409.01055

Follow-Your-Canvas能做什么?

视频尺寸调整:将手机拍摄的竖屏视频扩展为横屏,适应不同的播放需求,例如在社交媒体上的展示或在宽屏电视上的观看。

超宽屏视频生成:将普通视频扩展为超宽屏视频,提供更广阔的视野,适用于电影院或超宽屏显示器的播放。

全景视频制作:基于视频扩展技术,将普通视频转换为全景视频,增强观看体验,适用于虚拟现实(VR)和360度视频制作。

高分辨率视频输出:能处理高达16K分辨率的视频输出,适用于需要高清晰度视频的场合,如电影制作或高质量广告片

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Goptimise Beta
    Goptimise Beta Goptimise 是一款无代码 AI 助力可扩展后端构建工具。它允许用户轻松创建稳健可扩展的 API,无需编程经验。支持 CRUD 操作,简化开发流...
  • Klu.ai
    Klu.ai Klu是一款全能的LLM应用平台,可以在Klu上快速构建、评估和优化基于LLM技术的应用。它提供了多种最先进的LLM模型选择,让用户可以根据自己的需求...
  • Gotalk.ai
    Gotalk.ai Gotalk.ai 是一个强大的 AI 语音生成器,能够在几分钟内创建逼真的语音。完美适用于 YouTube、播客和电话系统问候语。通过先进的 AI ...
  • BookLed
    BookLed BookLed是一款结合了AI技术与纸质书的产品,它通过内置的电子硬件和页面识别传感器,能够识别用户正在阅读的页面,并在用户翻页时将页码信息发送至电脑...
  • Gooey.AI
    Gooey.AI Gooey.AI是一个简单、可组合的无代码人工智能平台,帮助用户轻松运行最好的生成式人工智能模型。它提供一个统一的计费账户和可发现的工作流程。用户可以...
  • Spirit LM
    Spirit LM Spirit LM是一个基础多模态语言模型,能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型,通过持续在文本和语音单元上训练来扩展到语音...
  • 胃之书
    胃之书 胃之书 AI是一款利用大语言模型驱动的饮食记录应用,通过先进的计算机视觉技术实现食物图像识别、营养分析和个性化推荐。用户可探索食物文化故事,增加饮食趣...
  • eskilled ai course creator
    eskilled ai course creator Eskill AI课程创建者赋予教育工作者和内容创建者的能力,并具有用户友好的设计和高级AI功能。通过简化内容开发,可以节省时间和精力,从而使您专注于...