SUPIR是什么?一文让你看懂SUPIR的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

SUPIR概述简介

SUPIR(Scaling-UP Image Restoration)是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制,能够根据用户的输入调整恢复的各个方面,如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的开发人员一起推出。

SUPIR的官网入口

官方项目主页:https://supir.xpixel.group/

GitHub源码库:https://github.com/Fanghua-Yu/SUPIR

arXiv研究论文:https://arxiv.org/abs/2401.13627

SUPIR的功能特色

    高质量图像修复:SUPIR能够将低质量的图像恢复到接近原始状态的高质量版本,可以处理由于各种原因(如压缩、噪点、模糊等)导致的图像退化。

    修复多种类型的图像:SUPIR能够有效修复多种类型的退化图像,包括风景、人脸、动物、游戏画面、老电影和老照片,可增强图像细节,恢复清晰度和真实感,让图像焕发新生。

    文本提示引导修复:SUPIR允许用户通过文本提示来指导图像恢复的过程,可以指定恢复的特定方面,例如修复图像中的某个模糊物体、改变物体的材质纹理,或者根据高级语义调整图像的恢复效果。

    负质量提示:SUPIR使用负质量提示来提高图像的感知质量,通过告诉模型哪些图像特征是不期望的(例如“油画效果、卡通化、模糊、脏乱、低质量”等),模型可以在恢复过程中避免这些特征,从而提升图像的整体质量。

    SUPIR的工作原理

    生成性先验:SUPIR使用StableDiffusion-XL(SDXL)作为其生成性先验(Generative Prior),一个包含26亿参数大型的预训练图像生成模型。生成性先验是模型学习到的图像数据分布的知识,用于指导图像的生成和恢复过程。

    数据集和文本注释:为了训练SUPIR,研究者收集了一个包含2000万张高分辨率、高质量的图像的数据集,每张图像都有详细的描述性文本注释。这些注释提供了图像内容的额外信息,使得模型能够更好地理解和恢复图像。

    适配器:为了有效地应用SDXL模型,研究者设计并训练了一个适配器,该适配器具有超过6亿参数。适配器的作用是识别低质量图像中的内容,并在像素级别上精细控制生成过程。

    文本提示控制:SUPIR能够根据用户提供的文本提示来指导图像的恢复,提示词可以是关于图像内容的具体描述,也可以是关于期望图像质量的高级语义描述。

    负质量提示和训练样本:为了提高图像的感知质量,SUPIR引入了负质量提示,帮助模型理解不希望出现的图像特征。研究者通过使用SDXL生成对应于负质量提示的图像,并将这些图像纳入训练数据中,以确保模型能够学习到这些负质量概念。

    恢复引导采样:为了防止生成过程中的图像失真,SUPIR采用了一种新颖的恢复引导采样方法,在扩散过程中有选择性地引导预测结果接近低质量图像,以保持恢复的一致性。

    模型训练和采样设置:SUPIR在训练过程中使用了合成退化模型,并在64个Nvidia A6000 GPU上进行了为期10天的训练。测试时,模型能够处理1024×1024像素大小的图像。

    SUPIR能做什么?

      老照片修复:SUPIR可以用于修复老化、损坏或褪色的老照片,恢复其原始的色彩和细节,使珍贵的记忆得以保存和传承。

      模糊图像增强:对于因手抖、对焦错误或运动模糊导致的照片,SUPIR能够通过先进的算法提高图像的清晰度,使得原本模糊的图像变得更加锐利。

      噪点去除:在高ISO或低光照条件下拍摄的照片往往会有噪点。SUPIR能够有效地识别并去除这些噪点,同时保留图像的重要细节。

      色彩校正和增强:SUPIR能够识别和修正色彩失真问题,如过度饱和或色彩偏差,使图像的色彩更加真实和生动。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • deepmode
    deepmode 唯一的NSFW照片生成:平台生成的每张照片都是独特的,为创造力提供了无尽的可能性。 Lifelike AI克隆:得益于用户友好的平台,将个人照片轻松地...
  • edCode
    edCode edCode是一个面向所有人,从初学者到专家的编程学习平台。它提供AI面试准备功能,帮助用户学习编程或为梦想工作做准备。平台强调学习的乐趣,提供自定进...
  • Wrapped.dev
    Wrapped.dev Wrapped.dev是一个为开发者提供的服务,它通过分析GitHub上的公共仓库,生成每个仓库的年度故事报告。这个工具可以帮助开发者回顾和总结过去一...
  • Background Removal | ai-art-generator.net
    Background Removal | ai-art-generator.net ai-art-generator.net提供的背景去除工具能够在5秒内自动移除图像的背景。无论是想要透明背景(PNG)、给照片添加白色背景、提取或隔离...
  • Claude for Enterprise
    Claude for Enterprise Claude for Enterprise 是一款面向企业级用户的AI助手产品,旨在帮助组织安全地利用内部知识进行协作。该产品提供扩展的500K上下文...
  • Sonix
    Sonix Sonix是一款在线音频和视频转录软件,采用行业领先的语音识别算法,能在几分钟内将音频和视频文件转换为文本。Sonix适用于转录播客、采访、演讲等各种...
  • Interview Prep AI
    Interview Prep AI 智能面试助手是你的个人AI面试教练,通过模拟面试、提供面试题库、给出答案解析等功能,帮助你在面试中取得优势。该产品的定价根据不同的使用套餐而定,旨在帮...
  • Phi-4-multimodal-instruct
    Phi-4-multimodal-instruct Phi-4-multimodal-instruct 是微软开发的多模态基础模型,支持文本、图像和音频输入,生成文本输出。该模型基于Phi-3.5和Ph...