首页 > AI教程评测 > AI工具评测

VSI-Bench是什么？一文让你看懂VSI-Bench的技术原理、主要功能、应用场景

发布时间：2025-04-05

关键字：

VSI-Bench VSI-Bench主要功能 VSI-Bench技术原理

VSI-Bench概述简介

VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集，研究者构建用在评估多模态大型语言大模型（MLLMs）在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及住宅、办公室和工厂等多种环境。VSI-Bench任务分为配置型任务（如物体计数、相对距离等）、测量估计（如物体尺寸、房间大小等）和时空任务（如物体出现顺序），能系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench的功能特色

评估视觉空间智能：量化评估多模态大型语言大模型（MLLMs）的视觉空间智能，包括对空间关系的感知、理解和记忆能力。

基准测试：提供标准化的测试集，包含5000多个问答对，用在基准测试和比较不同MLLMs在视觉空间任务上的性能。

任务多样性：包括配置型任务（物体计数、相对距离、相对方向、路线规划）、测量估计（物体尺寸、房间大小、绝对距离）和时空任务（物体出现顺序），全面覆盖视觉空间智能的多个方面。

视频理解：基于视频输入，VSI-Bench测试MLLMs对连续、时间性输入的理解，比静态图像更接近人类观察世界的方式。

数据质量和控制：基于人工审核确保数据质量，消除歧义和错误标注，提高测试结果的可靠性。。

VSI-Bench的技术原理

数据集构建：基于多个公共室内3D场景重建数据集（如ScanNet、ScanNet++和ARKitScenes），数据集提供高保真度的视频扫描和对象级别的3D注释。

问题-答案对生成：基于数据集中的元信息（如对象类别、边界框）和问题模板自动生成问题-答案对，同时对路线规划任务进行人工标注。

质量控制：实施人工审核流程，确保问题清晰无歧义，对错误或模糊的问题进行溯源和修正。

模型评估：在零样本设置下评估多种视频支持的MLLMs，用默认提示进行测试，采用精确匹配和模糊匹配作为主要评价指标。

性能指标：对于多项选择题（MCA）任务使用准确度（ACC），对于数值答案（NA）任务引入新的度量标准——平均相对准确度（MRA）。

认知图生成：提示MLLMs预测视频中对象的中心位置，生成认知图，评估模型的内部空间表示和记忆能力。

VSI-Bench项目介绍

项目官网：vision-x-nyu.github.io/thinking-in-space

GitHub仓库：https://github.com/vision-x-nyu/thinking-in-space

HuggingFace模型库：https://huggingface.co/datasets/nyu-visionx/VSI-Bench

arXiv技术论文：https://arxiv.org/pdf/2412.14171

VSI-Bench能做什么？

机器人导航与交互：在机器人技术领域，评估和训练MLLMs，更好地理解空间布局，提高机器人在未知环境中的导航和避障能力。

增强现实（AR）/虚拟现实（VR）：在AR/VR应用中，帮助MLLMs更好地理解用户的物理空间环境，提供更自然的交互体验。

自动驾驶汽车：自动驾驶系统需要精确的空间理解能力处理复杂的交通场景，用在开发和测试支持自动驾驶的视觉空间智能系统。

智能家居系统：智能家居系统需要理解居住空间的布局和物体的位置，VSI-Bench帮助训练MLLMs，使其更好地服务于智能家居控制和自动化。

室内设计和建筑规划：评估MLLMs在空间规划和设计中的应用，帮助系统提供更合理的布局建议。

Baichuan4-Finance是什么？一文让你看懂Baichuan4-Finance的技术原理、主要功能、应用场景

Bamba-9B是什么？一文让你看懂Bamba-9B的技术原理、主要功能、应用场景

更多+

卓商AI

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

猜你喜欢

更多+

storymania ai story generator 与AI -Power的平台与Storymania进行工艺吸引人的故事，旨在协助各个级别的作家。在干净，无广告的环境中享受无缝的编辑和类型定制。在创纪录...

aibooktools 使用Aibooktools，您可以将书籍快速转化为可行的见解 - 所有这些都没有长时间的阅读或手动数据输入。凭借AI的力量，您可以充分利用自己喜欢的书...

Exponent Exponent 是一款协作式 AI 编程代理，旨在提升软件开发的效率与体验。它能够在多种环境中工作，从代码的探索到部署，能够帮助开发者自动化复杂的编...

Notion Sites Notion Sites 是一个简单易用的网站搭建工具，用户可以通过拖放式构建块快速创建个性化网站，无需编写复杂的HTML或代码。它提供了超过10,0...

Vacation & Travel Chat (GPT) Vacay Chatbot是一款基于人工智能的聊天机器人，为用户提供个性化的旅行推荐和规划服务。它可以提供航班信息、酒店推荐、当地活动建议，甚至可以创...

Quillminds Quillminds是一个AI驱动的学习平台，旨在通过人工智能工具革新学习、教学和成长的方式，提升学生和教育工作者的创造力、生产力和成就。平台提供个性...

BlozumAI Blozum是一款面向企业的对话式AI助手，通过帮助客户在产品销售的各个阶段（预购买、购买和售后）提供支持。它具有智能问答、推荐产品、下单跟踪等功能，...

AI Cover Letter Creator AI求职助手是一款使用人工智能技术生成个性化求职信的工具。用户只需提供自己的简历和职位描述，AI求职助手将自动生成定制的求职信。该工具提供方便快捷的方...

热门标签

AI人工智能人工智能应用人工智能 AI热门事件 AI名人 AI专业术语 AI知识百科 AI知识大全 AI知识 AI应用评测网 AI应用评测 AI软件哪个好用 AI工具哪个好用 AI软件哪个好 AI软件评测-AI工具哪个好 AI工具评测 AI完整版教程 AI新手教程 AI工具完整教程 AI工具新手入门教程 AI工具使用教程 AI入门教程 AI工具教程国内AI模型国内大模型国产AI模型国产AI大模型国产大模型国外AI工具大全国内AI工具大全

隐私策略免责条款服务协议关于我们