MSQA是什么?一文让你看懂MSQA的技术原理、主要功能、应用场景
MSQA概述简介
MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖9个问题类别,基于3D场景图和视觉-语言大模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入,减少单模态输入的歧义。引入MSNN(Multi-modal Next-step Navigation)基准测试,评估模型在情境...
AI工具评测
2025-04-05