See3D是什么?一文让你看懂See3D的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

See3D概述简介

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大规模无标注的互联网视频进行学习,实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同,See3D采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。避免了昂贵的3D或相机标注的需求,能高效地从互联网视频中学习3D先验。See3D支持从文本、单视图和稀疏视图到3D的生成,能进行3D编辑与高斯渲染。

See3D的功能特色

从文本、单视图和稀疏视图到3D的生成:See3D能根据文本描述、单个视角的图片或少量图片生成3D内容。

3D编辑与高斯渲染:模型支持对生成的3D内容进行编辑,使用高斯渲染技术来提高渲染效果。

解锁3D互动世界:输入图片后,可以生成沉浸式可交互的3D场景,支持用户实时探索真实空间结构。

基于稀疏图片的3D重建:输入少量图片(3-6张),模型能生成精细化的3D场景。

开放世界3D生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的3D场景。

基于单视图的3D生成:输入一张真实场景的图片,模型能生成逼真的3D场景。

See3D的技术原理

视觉条件技术:See3D不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

大规模无标注视频学习:See3D能从互联网视频中高效学习3D先验,不依赖于昂贵的3D或相机标注。

数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D,涵盖来自1600万个视频片段的3.2亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。

多视图扩散模型训练:See3D引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的2D归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得3D”的目标。

3D生成框架:See3D学到的3D先验能使一系列3D创作应用成为可能,包括基于单视图的3D生成、稀疏视图重建以及开放世界场景中的3D编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

See3D项目介绍

项目官网:https://vision.baai.ac.cn/see3d

Github仓库:https://github.com/baaivision/See3D

arXiv技术论文:https://arxiv.org/pdf/2412.06699

See3D能做什么?

游戏开发:AI生成的3D模型可以用于创建游戏中的角色、环境和对象,提高开发效率并降低成本。

建筑设计:在建筑设计中,AI可以生成建筑模型,帮助设计师快速构思和修改设计方案。

电商:在线零售可以利用AI生成的3D模型进行产品展示,提高用户的购物体验。

AR/VR:在AR/VR领域,AI生成的3D模型可以用于创建逼真的虚拟环境和角色,增强用户的沉浸感。

电影和娱乐:AI可以帮助电影制作人通过替换真人角色来创建CG角色,简化特效制作流程。

工业设计:AI生成的3D模型可以用于模拟工业产品的设计,加速产品开发过程。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Stable Code Instruct 3B
    Stable Code Instruct 3B Stability AI宣布推出Stable Code Instruct 3B,这是一个大型的语言模型,专门设计用于理解和执行代码相关的指令。该模型的...
  • StreamVoice
    StreamVoice StreamVoice是一种基于语言模型的零唇语音转换模型,可实现实时转换,无需完整的源语音。它采用全因果上下文感知语言模型,结合时间独立的声学预测器...
  • FLUX.1-dev-LoRA-Dark-Fantasy
    FLUX.1-dev-LoRA-Dark-Fantasy FLUX.1-dev-LoRA-Dark-Fantasy是由Shakker AI的GUIZANG(歸藏)训练的LoRA模型,专注于生成幻想生物和角色。...
  • Astraios
    Astraios Astraios是一个提供大型语言模型Fine-tuning的平台,提供了多种参数高效Fine-tuning方法,以及多种规模的模型选择。用户可以在该...
  • aTrain
    aTrain aTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发,并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型,无需...
  • PriceSnap
    PriceSnap PriceSnap是一款利用图像搜索技术,帮助用户快速获取物品价值的工具。用户只需拍照,即可获得实时市场数据,做出明智的购买决策。该产品提供多种定价方...
  • SRE.ai
    SRE.ai SRE.ai AI DevOps Agents是一个由顶尖AI机构工程师打造,并得到顶级投资者支持的先进自然语言DevOps平台。该平台通过AI代理增...
  • How to Build Your Career in AI
    How to Build Your Career in AI 《How to Build Your Career in AI》是由AI先驱Andrew Ng所著的电子书,提供了关于学习基础技能、开展项目、寻找工作...