Genie 2是什么?一文让你看懂Genie 2的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Genie 2概述简介

Genie 2是DeepMind推出的新一代大规模基础世界模型,仅凭一张图片生成长达1分钟的可交互3D游戏世界。Genie 2能模拟出物体交互、角色动画、物理效果等复杂动态,支持用键盘和鼠标进行操作。Genie 2具备长时间记忆功能,能记住且精确还原暂时离开视野的场景。Genie 2能实时创造符合逻辑的新场景内容,在长达一分钟的时间内保持整个世界的一致性。

Genie 2的功能特色

基于图像生成3D世界:Genie 2能根据单张图片生成可交互的3D游戏世界,最长可玩1分钟。

动作控制:模型能响应键盘和鼠标输入的动作,识别且正确移动角色。

生成反事实场景:基于同一个开始画面,创造出多个不同的发展路径。

长时间记忆:能记住暂时离开画面的场景,在画面重新进入视野时精确还原。

持续生成新场景:在过程中实时创造出符合逻辑的新场景内容,且保持世界一致性。

多样化环境生成:能生成多种不同的观察视角,如第一人称视角、等距视角或第三人称驾驶视角。

3D结构创建:创建复杂的3D视觉场景。

物体属性与交互:建模各种物体交互,例如气球爆裂、开门和射击炸药桶。

Genie 2的技术原理

自回归潜变量扩散模型:基于大规模视频数据集训练的自回归潜变量扩散模型。

视频帧处理:视频的潜变量帧首先基于自动编码器处理,再传递给一个大规模Transformer动态模型。

因果掩码训练:Transformer模型基于因果掩码进行训练,类似于大型语言大模型所使用的掩码方式。

自回归采样:在推理阶段,Genie 2用自回归的方式进行采样,逐帧用单个动作和先前的潜变量帧。

无分类器指导:在动作控制中用无分类器指导(classifier-free guidance)提高动作的可控性。

Genie 2项目介绍

项目官网:deepmind.google/discover/blog/genie-2

Genie 2能做什么?

智能体训练与评估:创建复杂的虚拟环境,用在训练和测试AI智能体在模拟环境中的表现和决策能力。

游戏开发:用Genie 2生成的动态世界,游戏开发者能设计出更加丰富和互动的游戏内容,提升玩家的沉浸感。

模拟与训练:在军事训练中模拟战场环境,或在教育中模拟历史事件,提供逼真的模拟体验,用在训练和学习。

机器人学习:作为机器人训练的平台,模拟不同的环境和情况,帮助机器人学习如何在现实世界中导航和操作。

虚拟现实(VR)和增强现实(AR):结合VR和AR技术,创建虚拟环境,用在娱乐、教育或专业训练,提供沉浸式体验。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • PIKE-RAG
    PIKE-RAG PIKE-RAG 是微软开发的一种领域知识和推理增强生成模型,旨在通过知识提取、存储和推理逻辑增强大型语言模型(LLM)的能力。该模型通过多模块设计,...
  • Suno AI
    Suno AI Suno AI是一款通过人工智能创作音乐和语音的产品。它利用先进的算法和数据模型,能够生成高质量的音乐和语音作品。Suno AI具有以下功能和优势:1...
  • TransVIP
    TransVIP TransVIP是由微软研究院开发的一个创新的语音到语音翻译系统,它能够在翻译过程中保留说话者的声音特征和等时性(即说话的节奏和停顿),这对于视频配音...
  • writepanda
    writepanda WritePanda是AI播客生产自动化工具,可帮助您将受众培养10倍。借助AI生成的内容,您可以将内容重新用于博客文章,时事通讯,推文和字幕剪辑,因...
  • coverletter.app
    coverletter.app AI求职信助手利用最新的人工智能技术、真实案例和专业模板,为求职者提供个性化且有影响力的求职信,帮助他们在求职过程中脱颖而出,给雇主留下深刻印象。用户...
  • resume star
    resume star 简历生成器通过精准针对目标工作生成简历,处理繁琐的格式设置。用户填写信息后,即可立即获得适当格式的 PDF 简历,可打印、发送电子邮件或在线提交。简单...
  • gait
    gait gait是一个AI原生版本控制工具,它通过存储提示、上下文和代码的结合,帮助团队更容易理解和编辑AI生成的代码。gait自动保存AI代码生成对话,并通...
  • NotesGPT
    NotesGPT NotesGPT是一款利用人工智能技术将用户的语音笔记转换成有组织的摘要和清晰的行动项的在线服务。它通过先进的语音识别和自然语言处理技术,帮助用户更高...