VSI-Bench是什么?一文让你看懂VSI-Bench的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

VSI-Bench概述简介

VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言大模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench的功能特色

评估视觉空间智能:量化评估多模态大型语言大模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。

基准测试:提供标准化的测试集,包含5000多个问答对,用在基准测试和比较不同MLLMs在视觉空间任务上的性能。

任务多样性:包括配置型任务(物体计数、相对距离、相对方向、路线规划)、测量估计(物体尺寸、房间大小、绝对距离)和时空任务(物体出现顺序),全面覆盖视觉空间智能的多个方面。

视频理解:基于视频输入,VSI-Bench测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。

数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。。

VSI-Bench的技术原理

数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),数据集提供高保真度的视频扫描和对象级别的3D注释。

问题-答案对生成:基于数据集中的元信息(如对象类别、边界框)和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。

质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。

模型评估:在零样本设置下评估多种视频支持的MLLMs,用默认提示进行测试,采用精确匹配和模糊匹配作为主要评价指标。

性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。

认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。

VSI-Bench项目介绍

项目官网:vision-x-nyu.github.io/thinking-in-space

GitHub仓库:https://github.com/vision-x-nyu/thinking-in-space

HuggingFace模型库:https://huggingface.co/datasets/nyu-visionx/VSI-Bench

arXiv技术论文:https://arxiv.org/pdf/2412.14171

VSI-Bench能做什么?

机器人导航与交互:在机器人技术领域,评估和训练MLLMs,更好地理解空间布局,提高机器人在未知环境中的导航和避障能力。

增强现实(AR)/虚拟现实(VR):在AR/VR应用中,帮助MLLMs更好地理解用户的物理空间环境,提供更自然的交互体验。

自动驾驶汽车:自动驾驶系统需要精确的空间理解能力处理复杂的交通场景,用在开发和测试支持自动驾驶的视觉空间智能系统。

智能家居系统:智能家居系统需要理解居住空间的布局和物体的位置,VSI-Bench帮助训练MLLMs,使其更好地服务于智能家居控制和自动化。

室内设计和建筑规划:评估MLLMs在空间规划和设计中的应用,帮助系统提供更合理的布局建议。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Vapi
    Vapi Vapi 是一个为开发者设计的语音 AI 代理平台,支持企业从初创公司到财富 500 强的各种需求。其灵活的 API 设计和多种语言支持使得它在电话运...
  • b12 ai website builder
    b12 ai website builder B12 AI网站构建器可帮助专业服务提供商迅速创建和管理美丽的网站以推销和发展业务。凭借其AI驱动的构建器,可以在短短60秒内创建网站,并配备一套强大...
  • Undermind.ai
    Undermind.ai Undermind是一个由人工智能驱动的科研助手,旨在通过先进的语言模型,帮助研究人员快速准确地找到所需的学术论文。它由两位来自MIT的量子物理博士创...
  • 漫话开发者UWL.ME
    漫话开发者UWL.ME 漫话开发者 - UWL.ME 是一个专注于人工智能前沿科技和开源产品的平台,提供最新的AI技术动态、开源产品介绍、以及相关领域的深度分析。它不仅为开发...
  • notion
    notion 概念是一个由AI驱动的工作空间,旨在帮助您更快地实现项目目标。它连接Wiki,文档和项目,使您能够轻松跟踪和完成任务。借助Intion的AI技术,您可...
  • cogent
    cogent Cogent是各级学习者的最终学习工具。 Cogent AI驱动的个人导师提供了各种工具,从高效的抽认卡创建到实时文件帮助。有了Cogent,学习成为...
  • locationCheck
    locationCheck locationCheck是一款AI城市安全评估工具,用户可以通过该应用搜索并扫描城市特定区域,并通过情感分析评估该地点的总体安全性。它为用户提供实时...
  • AvanazAI
    AvanazAI Avanzai是一个能够加速366数据分析的AI工具。它通过自然语言输入,输出生产就绪的Python代码,帮助用户快速分析和处理366数据。Avanz...