OpenELM是什么?一文让你看懂OpenELM的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

OpenELM概述简介

OpenELM是Apple苹果公司最新推出的系列高效开源的语言大模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

OpenELM的基本信息

参数规模:OpenELM总共有八个模型,其中四个是预训练的,四个是指令微调的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数规模(270M、450M、1.1B和3B)。

技术架构:OpenELM采用了基于Transformer的架构,使用了层间缩放(layer-wise scaling)策略,通过调整注意力头数和前馈网络(FFN)的乘数来实现参数的非均匀分配。该模型采用了分组查询注意力(Grouped Query Attention, GQA)代替多头注意力(Multi-Head Attention, MHA),使用SwiGLU激活函数代替传统的ReLU,以及RMSNorm作为归一化层。

预训练数据:OpenELM使用了多个公共数据集进行预训练,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,总计约1.8万亿个token。

开源许可:OpenELM的代码、预训练模型权重和训练指南都是在开放源代码许可证下发布的。此外,苹果还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。

OpenELM的官网入口

arXiv研究论文:https://arxiv.org/abs/2404.14619

GitHub模型权重和训练配置:https://github.com/apple/corenet

指令微调版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca

预训练版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-pretrained-models-6619ac6ca12a10bd0d0df89e

OpenELM的技术架构

Transformer架构:OpenELM采用了仅解码器(decoder-only)的Transformer模型架构,这是一种在自然语言处理中广泛使用的架构,特别适用于处理序列数据。

层间缩放(Layer-wise Scaling):OpenELM通过层间缩放技术有效地在模型的每一层分配参数。这意味着模型的早期层(接近输入端)使用较小的注意力维度和前馈网络维度,而接近输出端的层则逐渐增加这些维度的大小。

分组查询注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替传统的多头注意力(Multi-Head Attention, MHA)。GQA是一种注意力机制的变体,旨在提高模型处理长距离依赖的能力。

RMSNorm归一化:OpenELM使用了RMSNorm作为其归一化层,一种有助于稳定训练过程的技术。

SwiGLU激活函数:在前馈网络(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函数,一种门控激活函数,有助于模型捕捉复杂的模式。

RoPE位置编码:为了编码位置信息,OpenELM使用了旋转位置编码(Rotary Positional Embedding, RoPE),一种可以处理序列中元素顺序的编码方式。

Flash注意力:在计算缩放点积注意力(scaled dot-product attention)时,OpenELM使用了Flash注意力,这是一种快速且内存高效的注意力计算方法。

OpenELM的性能表现

开发人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • adswithAI
    adswithAI adswithAI允许您创建广告可视化和标题,帮助您加速广告活动或电子商务产品的推出。上传产品的1个PNG照片,我们将批量生成20个高清广告图像,配有...
  • DeepZen
    DeepZen DeepZen将您的文字转化为具有自然语音的音频内容,富有情感、语调和韵律。不仅节省传统配音所需的时间,还无需昂贵的录音室。我们为有声书、广告营销、品...
  • Play It, Say It
    Play It, Say It Play It, Say It 是一款结合了尖端AI技术和用户友好设计的个人语言教练APP,为初学者和多语言者提供全面的学习体验。通过真实生活例句、母...
  • 海豚AI学
    海豚AI学 海豚AI学利用IV交互视频技术,打造沉浸式互动学习体验,通过个性化推荐和智能分析,为学生提供定制化学习路径,强化学习效果。产品背景信息显示,海豚AI学...
  • Google AI for Developers
    Google AI for Developers Gemini API是Google AI Studio提供的一个强大的人工智能模型,它允许开发者轻松地将Google最大的AI模型集成到他们的应用程序...
  • Cellm
    Cellm Cellm 是一款创新的 Excel 扩展工具,它将大型语言模型(LLMs)的强大功能引入 Excel,使用户能够在单元格公式中直接调用 AI 模型来...
  • Sound Effect Generator
    Sound Effect Generator Sound Effect Generator是一个利用AI技术为用户提供个性化音频创作的平台。它结合了专业的声音设计和前沿的AI技术,让用户能够快速将...
  • Fill A Form AI
    Fill A Form AI Fill A Form AI是一款旨在简化在线表单填写流程的智能AI代理工具。它通过自动识别网站表单字段并自动填充,显著提高了用户在线填写表单的效率。...