EMMA是什么?一文让你看懂EMMA的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

EMMA概述简介

EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本,用预训练大型语言大模型的世界知识,在统一的语言空间中联合处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上展现了先进性能,但存在局限性,如处理图像帧数量有限、缺少精确3D传感方式集成和高计算成本。模型能推动自动驾驶模型架构的发展,提高自动驾驶系统在复杂场景中的泛化和推理能力。

EMMA的功能特色

端到端运动规划:

直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹。

将轨迹转化为车辆特定的控制动作,如加速和转向。

3D对象检测:用摄像头为主要传感器,检测和识别周围的物体,如车辆、行人和骑行者。

道路图元素识别:识别和构建道路图,包括车道线、交通标志等关键道路元素。

场景理解:理解整个场景的上下文,包括临时道路阻塞和其他影响驾驶的情况。

多任务处理:在统一的语言空间中联合处理多种驾驶任务,用任务特定的提示生成输出。

链式思维推理:基于链式思维推理提升模型的决策能力和可解释性,让模型在预测未来轨迹时能阐述其决策理由。

EMMA的技术原理

多模态大型语言大模型(MLLMs):基于预训练的MLLMs,如Gemini,模型在广泛的互联网规模数据上训练,拥有丰富的“世界知识”。

自然语言表示:所有非传感器输入和输出(如导航指令、车辆状态、轨迹和3D位置)表示为自然语言文本。

视觉问题回答(VQA):将驾驶任务重新构想为VQA问题,基于Gemini的预训练能力,保留广泛的世界知识。

自回归模型:用自回归Gemini模型处理交错的文本和视觉输入,生成文本输出。

端到端训练:基于端到端训练,直接从传感器数据生成驾驶动作,消除模块间符号化接口的需求。

EMMA项目介绍

arXiv技术论文:https://arxiv.org/pdf/2410.23262

EMMA能做什么?

城市和郊区驾驶:EMMA能处理复杂的城市交通环境及郊区道路条件,提供实时的驾驶决策和轨迹规划。

交通拥堵和复杂路口:在交通拥堵或多路口场景中,EMMA能进行有效的路径规划和决策,确保安全高效的导航。

特殊天气和光照条件:EMMA能适应不同的天气和光照条件,如雨、雾或夜间驾驶,保持稳定的驾驶性能。

施工区域和临时道路封闭:基于场景理解能力,EMMA能识别施工区域和临时道路封闭情况,做出相应的驾驶调整。

紧急情况响应:在遇到紧急情况,如突然出现的障碍物或动物时,EMMA能迅速做出反应,采取避让或减速等措施。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Memo.ac
    Memo.ac Memo是一个桌面应用程序,可以方便地将YouTube视频、播客和本地媒体文件转录为文本。它支持多种语言的转录和翻译,可以在转录的同时实时生成字幕和浮...
  • omnisend
    omnisend Omnisend提供了电子邮件和SMS营销的强大组合,以最大程度地发挥您的电子商务成功。轻松捕获和吸引客户,增加收入,并使客户持续更长的时间。通过Om...
  • Maroofy
    Maroofy Maroofy是一个音乐搜索引擎,可以搜索歌曲并获取类似音乐的推荐。用户可以连接Apple Music获取个性化推荐、保存播放列表等功能。该产品旨在帮...
  • AI coustics
    AI coustics 欢迎来到语音技术的未来!通过生成式语音AI,以前所未有的高质量音频体验,提升您的声音至专业级质量。无论您是在录制播客、使用低质量耳机还是处理讨厌的背景...
  • 即梦
    即梦 即梦Dreamina是一款结合了AI技术的在线创作平台,它通过图片生成、智能画布和视频生成等功能,帮助用户将创意转化为视觉作品。该产品的主要优点在于简...
  • MindwellAI
    MindwellAI MindwellAI是一款创新的心理健康应用程序,结合了科学支持的工具和基于人工智能的咨询,帮助您克服焦虑问题。它提供了一个AI助手Joy,您可以随时...
  • ChatDocuments
    ChatDocuments ChatDocuments是一款由人工智能驱动的应用,可以轻松与PDF、PPTX、XLSX和DOCX文件进行聊天互动。支持所有语言。定价:免费试用,免...
  • Platus
    Platus Platus 是一个专为法律团队打造的 AI 工作空间,通过自动化工具简化法律文档的起草、签署、公证和处理流程。它利用先进的 AI 技术,帮助法律团队...