Find3D是什么?一文让你看懂Find3D的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Find3D概述简介

Find3D是加州理工学院推出的3D部件分割模型,能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并用对比训练方法训练一个可扩展的3D模型。Find3D在包括Objaverse-General、ShapeNet-Part和PartNet-E在内的多个数据集上展现出色性能,实现高达3倍于次佳方法的平均交并比(mIoU)提升,能处理来自iPhone照片和AI生成图像的野外3D构建。

Find3D的功能特色

开放世界3D部分分割:识别和分割任何物体的任何部分,只需用文本查询即可,不受预定义部分集的限制。

无需人工注释:用数据引擎自动从互联网上的3D资产生成训练数据,无需人工注释。

高性能与泛化能力:在多个数据集上表现出色,与次佳方法相比,平均交并比(mIoU)提高3倍。

快速推理:比现有基线快6到300倍,显著提高推理速度。

鲁棒性:在不同的物体姿态和查询条件下保持稳定的分割效果。

查询灵活性:支持不同类型的文本查询,包括不同粒度和描述风格的部分查询。

Find3D的技术原理

数据引擎:

用2D基础模型(如SAM和Gemini)自动注释3D对象。

将3D资产渲染成多个视图,每个视图传递给SAM进行分割。

对于SAM返回的每个掩码,查询Gemini以获取相应的部分名称,形成(掩码,文本)对。

将部分名称嵌入到视觉和语言基础模型(如SigLIP)的潜在嵌入空间中。

基于投影几何将掩码反投影到3D点云中,形成(点,文本嵌入)对。

模型训练:

基于Transformer的点云模型,该模型将点云视为序列,并执行块注意力。

模型返回的点特征与文本嵌入的余弦相似度进行任何自由形式文本的查询。

用对比学习目标处理标签的多义性和部分可见性问题,支持在数据引擎生成的数据上进行可扩展训练。

对比学习目标:

解决每个点具有多个标签的问题,及由于每个掩码只覆盖部分视图而导致的未标记点问题。

基于对比学习目标,让模型能学习到鲁棒的特征表示,在开放世界中实现准确的部分分割。

Find3D项目介绍

项目官网:ziqi-ma.github.io/find3dsite

GitHub仓库:https://github.com/ziqi-ma/Find3D

arXiv技术论文:https://arxiv.org/pdf/2411.13550v1

在线体验Demo:https://huggingface.co/spaces/ziqima/Find3D

Find3D能做什么?

机器人视觉与操作:在机器人领域,帮助机器人识别和定位物体的特定部分,进行精确的抓取、操作或交互。

虚拟现实(VR)和增强现实(AR):在VR/AR应用中,提供对虚拟物体的更深层次理解,增强用户与虚拟环境的交互体验。

计算机辅助设计(CAD):在CAD软件中,帮助设计师快速识别和编辑3D模型的特定部分,提高设计效率。

游戏开发:在游戏开发中,创建更复杂的3D物体交互,如角色装备的更换或物体的破坏效果。

建筑和工程:在建筑和工程领域,帮助分析和理解复杂的3D结构,如建筑模型或机械部件。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Comfy Deploy
    Comfy Deploy Comfy Deploy是一个面向产品团队的开源平台,专注于将ComfyUI工作流程快速转化为生产就绪的API。它提供了一键部署API、强大的管理GP...
  • Artful
    Artful Artful是一个利用人工智能的力量将用户的想法转化为令人惊叹的视觉艺术的应用程序。轻松创作、个人风格适应、无尽的灵感、微调至完美、高分辨率导出、社区...
  • aiconvert
    aiconvert 解锁Aiconvert的功能,即不需要注册的免费高级AI工具。通过此AI文本将图像轻松生成令人惊叹的图像。通过AI技术的精确和效率来增强您的作品。...
  • Hutmaster AI
    Hutmaster AI Hutmaster是一个免费的人工智能工具,帮助服务提供商在网络上建立有影响力的品牌,提升服务质量。它提供客户导向的服务提供构建器和法律文件生成器,旨...
  • MetaLaw
    MetaLaw MetaLaw 是一个提供类案检索和分析的法律研究工具。它利用人工智能技术,快速精准地找到相关案例,并提供分析助理,提高法律研究效率。MetaLaw ...
  • 讯飞A.I.智能客服解决方案
    讯飞A.I.智能客服解决方案 A.I.智能客服解决方案是科大讯飞基于其先进的语音技术,为企业提供的一套完整的375系统。该系统通过电话、Web、APP、小程序、自助终端等多种渠道,...
  • HueMan
    HueMan HueMankey 是一个为开发者提供的用户人像 API。它能够为每个用户分配一个独特的人像头像,支持批量请求和直接存储在平台上。它提供轻量级的图像数...
  • MGX
    MGX MGX是一个创新的人工智能平台,旨在为用户提供全天候的人工智能团队支持。它通过智能技术帮助用户实现各种创意和任务,无论是开发游戏、分析更新还是设计个人...