mPLUG-DocOwl 1.5是什么?一文让你看懂mPLUG-DocOwl 1.5的技术原理、主要功能、应用场景
mPLUG-DocOwl 1.5概述简介
mPLUG-DocOwl 1.5是由阿里集团推出的多模态大型语言大模型,专注于OCR-free(无需光学字符识别)的文档理解。模型基于统一结构学习,强化对文本丰富图像如文档、表格和图表的结构信息理解能力。mPLUG-DocOwl 1.5包含结构感知解析任务和多粒度文本定位任务,覆盖五个领域:文档、网页、表格、图表和自然图像。mPLUG-DocOwl 1.5的H-Reducer模块基于卷积层合并水平相邻图像块,减少...
AI工具评测
2025-04-05