SUPIR是什么?一文让你看懂SUPIR的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

SUPIR概述简介

SUPIR(Scaling-UP Image Restoration)是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制,能够根据用户的输入调整恢复的各个方面,如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的开发人员一起推出。

SUPIR的官网入口

官方项目主页:https://supir.xpixel.group/

GitHub源码库:https://github.com/Fanghua-Yu/SUPIR

arXiv研究论文:https://arxiv.org/abs/2401.13627

SUPIR的功能特色

    高质量图像修复:SUPIR能够将低质量的图像恢复到接近原始状态的高质量版本,可以处理由于各种原因(如压缩、噪点、模糊等)导致的图像退化。

    修复多种类型的图像:SUPIR能够有效修复多种类型的退化图像,包括风景、人脸、动物、游戏画面、老电影和老照片,可增强图像细节,恢复清晰度和真实感,让图像焕发新生。

    文本提示引导修复:SUPIR允许用户通过文本提示来指导图像恢复的过程,可以指定恢复的特定方面,例如修复图像中的某个模糊物体、改变物体的材质纹理,或者根据高级语义调整图像的恢复效果。

    负质量提示:SUPIR使用负质量提示来提高图像的感知质量,通过告诉模型哪些图像特征是不期望的(例如“油画效果、卡通化、模糊、脏乱、低质量”等),模型可以在恢复过程中避免这些特征,从而提升图像的整体质量。

    SUPIR的工作原理

    生成性先验:SUPIR使用StableDiffusion-XL(SDXL)作为其生成性先验(Generative Prior),一个包含26亿参数大型的预训练图像生成模型。生成性先验是模型学习到的图像数据分布的知识,用于指导图像的生成和恢复过程。

    数据集和文本注释:为了训练SUPIR,研究者收集了一个包含2000万张高分辨率、高质量的图像的数据集,每张图像都有详细的描述性文本注释。这些注释提供了图像内容的额外信息,使得模型能够更好地理解和恢复图像。

    适配器:为了有效地应用SDXL模型,研究者设计并训练了一个适配器,该适配器具有超过6亿参数。适配器的作用是识别低质量图像中的内容,并在像素级别上精细控制生成过程。

    文本提示控制:SUPIR能够根据用户提供的文本提示来指导图像的恢复,提示词可以是关于图像内容的具体描述,也可以是关于期望图像质量的高级语义描述。

    负质量提示和训练样本:为了提高图像的感知质量,SUPIR引入了负质量提示,帮助模型理解不希望出现的图像特征。研究者通过使用SDXL生成对应于负质量提示的图像,并将这些图像纳入训练数据中,以确保模型能够学习到这些负质量概念。

    恢复引导采样:为了防止生成过程中的图像失真,SUPIR采用了一种新颖的恢复引导采样方法,在扩散过程中有选择性地引导预测结果接近低质量图像,以保持恢复的一致性。

    模型训练和采样设置:SUPIR在训练过程中使用了合成退化模型,并在64个Nvidia A6000 GPU上进行了为期10天的训练。测试时,模型能够处理1024×1024像素大小的图像。

    SUPIR能做什么?

      老照片修复:SUPIR可以用于修复老化、损坏或褪色的老照片,恢复其原始的色彩和细节,使珍贵的记忆得以保存和传承。

      模糊图像增强:对于因手抖、对焦错误或运动模糊导致的照片,SUPIR能够通过先进的算法提高图像的清晰度,使得原本模糊的图像变得更加锐利。

      噪点去除:在高ISO或低光照条件下拍摄的照片往往会有噪点。SUPIR能够有效地识别并去除这些噪点,同时保留图像的重要细节。

      色彩校正和增强:SUPIR能够识别和修正色彩失真问题,如过度饱和或色彩偏差,使图像的色彩更加真实和生动。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • 职徒简历
    职徒简历 职徒简历 52cv 是一款智能简历制作工具,主打于提供大量的中英文简历模板和案例,支持多个行业的简历制作。其主要优点在于智能排版、全面的简历评测、导师...
  • Minimap
    Minimap Minimap是一款游戏社交应用,提供个性化游戏推荐、多平台游戏账号同步、游戏社区等功能。用户可以在Minimap上找到自己喜欢的游戏,与其他玩家交流...
  • NovaMSS
    NovaMSS NovaMSS是一款基于最顶级的AI模型调优后的新一代音乐源分离工具,可以一键提取伴奏、人声、贝斯、鼓点、分离音轨等。它的强大算法基于MSS领域最顶级...
  • Calculus AI
    Calculus AI Vtiger CRM是一款全功能的一体化CRM软件,提供销售自动化、客户支持、市场营销自动化、项目管理等多个功能模块。它帮助企业管理和跟踪销售流程、维...
  • BetterBugs
    BetterBugs BetterBugs是一个旨在重新定义bug报告流程的插件工具,它通过提供屏幕录制、标记创建、开发者日志获取、AI调试等功能,帮助团队提高bug报告的...
  • videogen
    videogen Videogen提供了一种AI驱动的解决方案,可快速创建高质量的视频。通过用AI的力量使视频创建民主化,Videogen可以节省企业的时间和资源,从而...
  • CodeViz
    CodeViz CodeViz是一个旨在帮助开发者更高效地阅读和理解代码的工具。它通过可视化的方式展示代码结构,使得开发者能够快速把握代码的架构和功能模块,从而提高代...
  • portraitphoto ai
    portraitphoto ai PortraitPhoto.ai是一种由AI驱动的头像发电机,可以快速,轻松地创建专业质量的爆头。只需几次自拍照,您就可以在短短几个小时内就可以收到1...