首页 > AI教程评测 > AI工具评测

EMMA是什么？一文让你看懂EMMA的技术原理、主要功能、应用场景

发布时间：2025-04-05

关键字：

EMMA EMMA主要功能 EMMA技术原理

EMMA概述简介

EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型，能将原始相机传感器数据直接映射到驾驶特定输出，如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本，用预训练大型语言大模型的世界知识，在统一的语言空间中联合处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上展现了先进性能，但存在局限性，如处理图像帧数量有限、缺少精确3D传感方式集成和高计算成本。模型能推动自动驾驶模型架构的发展，提高自动驾驶系统在复杂场景中的泛化和推理能力。

EMMA的功能特色

端到端运动规划：

直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹。

将轨迹转化为车辆特定的控制动作，如加速和转向。

3D对象检测：用摄像头为主要传感器，检测和识别周围的物体，如车辆、行人和骑行者。

道路图元素识别：识别和构建道路图，包括车道线、交通标志等关键道路元素。

场景理解：理解整个场景的上下文，包括临时道路阻塞和其他影响驾驶的情况。

多任务处理：在统一的语言空间中联合处理多种驾驶任务，用任务特定的提示生成输出。

链式思维推理：基于链式思维推理提升模型的决策能力和可解释性，让模型在预测未来轨迹时能阐述其决策理由。

EMMA的技术原理

多模态大型语言大模型（MLLMs）：基于预训练的MLLMs，如Gemini，模型在广泛的互联网规模数据上训练，拥有丰富的“世界知识”。

自然语言表示：所有非传感器输入和输出（如导航指令、车辆状态、轨迹和3D位置）表示为自然语言文本。

视觉问题回答（VQA）：将驾驶任务重新构想为VQA问题，基于Gemini的预训练能力，保留广泛的世界知识。

自回归模型：用自回归Gemini模型处理交错的文本和视觉输入，生成文本输出。

端到端训练：基于端到端训练，直接从传感器数据生成驾驶动作，消除模块间符号化接口的需求。

EMMA项目介绍

arXiv技术论文：https://arxiv.org/pdf/2410.23262

EMMA能做什么？

城市和郊区驾驶：EMMA能处理复杂的城市交通环境及郊区道路条件，提供实时的驾驶决策和轨迹规划。

交通拥堵和复杂路口：在交通拥堵或多路口场景中，EMMA能进行有效的路径规划和决策，确保安全高效的导航。

特殊天气和光照条件：EMMA能适应不同的天气和光照条件，如雨、雾或夜间驾驶，保持稳定的驾驶性能。

施工区域和临时道路封闭：基于场景理解能力，EMMA能识别施工区域和临时道路封闭情况，做出相应的驾驶调整。

紧急情况响应：在遇到紧急情况，如突然出现的障碍物或动物时，EMMA能迅速做出反应，采取避让或减速等措施。

TimeSuite是什么？一文让你看懂TimeSuite的技术原理、主要功能、应用场景

DreamVideo-2是什么？一文让你看懂DreamVideo-2的技术原理、主要功能、应用场景

更多+

卓商AI

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

猜你喜欢

更多+

storymania ai story generator 与AI -Power的平台与Storymania进行工艺吸引人的故事，旨在协助各个级别的作家。在干净，无广告的环境中享受无缝的编辑和类型定制。在创纪录...

Exponent Exponent 是一款协作式 AI 编程代理，旨在提升软件开发的效率与体验。它能够在多种环境中工作，从代码的探索到部署，能够帮助开发者自动化复杂的编...

Baklib Baklib 是一款 All in Content 的企业级云平台，帮助企业一站式管理数字内容，实现多场景的数字体验。它采用独特的三层架构，将资源库、...

Grimo Grimo 是一个高效的 AI 文本编辑器，结合最新的 AI 模型，如 DeepSeek R1 和 OpenAI GPT-4，致力于提升用户的写作体验...

Voz AI Note Taker Voz AI Note Taker是一个利用人工智能技术自动记录、转录和总结讲座、通话和视频内容的生产力工具。它通过自动化的方式生成结构化笔记，帮助用...

Clearmind Clearmind是一款AI心理疗法产品，通过个性化指导和情感支持，帮助用户追踪和改善心理健康。Clearmind提供定制化的心理疗法方案，并结合智能...

Chatgpt.js chatgpt.js是一个强大的客户端JavaScript库，用于ChatGPT。它提供了一个简单的界面，让用户可以轻松地与ChatGPT进行对话。该...

可灵 AI 可灵 AI 是一款集成了 AI 图像和视频创作功能的创意生产力平台。其主要优点在于快速生成多样风格的图片和高清视频，助力用户提升创作效率。产品定位于为...

热门标签

AI人工智能人工智能应用人工智能 AI热门事件 AI名人 AI专业术语 AI知识百科 AI知识大全 AI知识 AI应用评测网 AI应用评测 AI软件哪个好用 AI工具哪个好用 AI软件哪个好 AI软件评测-AI工具哪个好 AI工具评测 AI完整版教程 AI新手教程 AI工具完整教程 AI工具新手入门教程 AI工具使用教程 AI入门教程 AI工具教程国内AI模型国内大模型国产AI模型国产AI大模型国产大模型国外AI工具大全国内AI工具大全

隐私策略免责条款服务协议关于我们