LHM是什么?一文让你看懂LHM的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

LHM概述简介

LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。LHM用3D高斯点云(Gaussian Splatting)形式表示重建的3D模型,支持实时渲染和姿态控制动画。模型能在几秒内生成高质量的可动画化3D人体模型,适用于AR/VR等沉浸式应用。

LHM的功能特色

快速重建:在几秒钟内完成从单张图像到3D可动画化模型的转换,无需复杂的后处理。

高保真细节:精确保留服装纹理、面部细节等关键信息,生成高质量的3D模型。

实时动画:支持基于姿态控制的实时动画渲染,适用于沉浸式应用(如AR/VR)。

泛化能力强:在开放环境(in-the-wild images)上表现出色,适应多种场景和姿态。

LHM的技术原理

多模态Transformer架构:基于Transformer架构融合3D几何特征(从SMPL-X模板采样得到的表面点)和2D图像特征(从预训练的视觉Transformer提取),有效处理几何和视觉信息。针对头部区域设计的多尺度特征提取方案,聚合不同层次的特征增强面部细节的恢复能力。

3D高斯点云表示:基于3D高斯点云(Gaussian Splatting)表示3D模型,支持实时、高质量的渲染。网络直接预测高斯点云的参数(如位置、旋转、缩放、颜色等),实现从输入图像到3D模型的快速转换。

自监督学习:基于大规模视频数据进行训练,用渲染损失和正则化项优化模型,无需依赖稀缺的3D扫描数据。在训练过程中,引入“尽可能接近”(as close as possible)和“尽可能接近球形”(as spherical as possible)的正则化项,保持3D模型的几何合理性。

实时动画支持:基于SMPL-X骨架参数将重建的3D模型变形到目标姿态,支持实时姿态控制动画。整个重建和动画化过程在单次前向传播中完成,适合实时应用。

LHM项目介绍

项目官网:https://lingtengqiu.github.io/LHM/

GitHub仓库:https://github.com/aigc3d/LHM

arXiv技术论文:https://arxiv.org/pdf/2503.10625

在线体验Demo:https://huggingface.co/spaces/DyrusQZ/LHM

LHM能做什么?

虚拟现实(VR)和增强现实(AR):快速将照片转化为可动画化的3D虚拟角色,增强沉浸感和交互性。

游戏开发:快速生成高质量3D角色模型,支持实时动画,提升开发效率和游戏体验。

影视制作:用在特效制作和动画电影,快速生成角色模型,提升制作效率和质量。

社交媒体和内容创作:用户可生成3D虚拟形象用于社交媒体,创作者可快速生成3D角色用于短视频等。

教育和培训:创建虚拟教师或助教用于在线教育,生成3D模型用于医疗、军事等领域的模拟训练。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Live Transcribe: Voice to text
    Live Transcribe: Voice to text 实时转写是一款能够实时将语音转为文本的应用程序,通过 iPhone 即可轻松进行语音记录。...
  • gamma
    gamma Gamma是一种AI驱动的媒介,可创建现代,引人入胜的内容,没有格式或设计工作。它的智能AI技术可帮助您单击一个按钮快速生成演示,网页和文档。...
  • Anyo
    Anyo Anyo是一个旨在帮助用户实现身心健康的应用。它提供心理咨询、冥想、艺术、音乐等高质量音频、视频和互动内容。用户可以与Anyo的心理咨询师进行实时聊天...
  • InterviewJam
    InterviewJam InterviewJam是一款面试准备网站应用,可以帮助您生成高质量的面试答案,跟踪面试进展并建立个人品牌。通过创建结构良好的回答,您可以有效地展示自...
  • onerecovery video repair
    onerecovery video repair 视频维修利用先进的AI技术仅在3个简单的步骤中修复损坏或损坏的视频。只需上传您的模糊,断断续续或闪烁的视频和OneRecovery AI技术即可分析和...
  • Qwen2.5-Coder-32B-Instruct
    Qwen2.5-Coder-32B-Instruct Qwen2.5-Coder是一系列专为代码生成设计的Qwen大型语言模型,包含0.5、1.5、3、7、14、32亿参数的六种主流模型尺寸,以满足不同开...
  • Journable
    Journable Journable是一个饮食和健身日记应用,通过AI聊天界面记录餐食和锻炼。用户可以设定个人健康目标,获得实时的餐食和锻炼分析,并跟踪卡路里摄入和消耗...
  • Highperformr for Teams
    Highperformr for Teams Highperformr for Teams 是一款专为社交媒体管理设计的AI驱动工具,它帮助初创公司和小型企业轻松发布内容、增长员工倡导、触达正确受...