OpenELM是什么?一文让你看懂OpenELM的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

OpenELM概述简介

OpenELM是Apple苹果公司最新推出的系列高效开源的语言大模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

OpenELM的基本信息

参数规模:OpenELM总共有八个模型,其中四个是预训练的,四个是指令微调的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数规模(270M、450M、1.1B和3B)。

技术架构:OpenELM采用了基于Transformer的架构,使用了层间缩放(layer-wise scaling)策略,通过调整注意力头数和前馈网络(FFN)的乘数来实现参数的非均匀分配。该模型采用了分组查询注意力(Grouped Query Attention, GQA)代替多头注意力(Multi-Head Attention, MHA),使用SwiGLU激活函数代替传统的ReLU,以及RMSNorm作为归一化层。

预训练数据:OpenELM使用了多个公共数据集进行预训练,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,总计约1.8万亿个token。

开源许可:OpenELM的代码、预训练模型权重和训练指南都是在开放源代码许可证下发布的。此外,苹果还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。

OpenELM的官网入口

arXiv研究论文:https://arxiv.org/abs/2404.14619

GitHub模型权重和训练配置:https://github.com/apple/corenet

指令微调版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca

预训练版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-pretrained-models-6619ac6ca12a10bd0d0df89e

OpenELM的技术架构

Transformer架构:OpenELM采用了仅解码器(decoder-only)的Transformer模型架构,这是一种在自然语言处理中广泛使用的架构,特别适用于处理序列数据。

层间缩放(Layer-wise Scaling):OpenELM通过层间缩放技术有效地在模型的每一层分配参数。这意味着模型的早期层(接近输入端)使用较小的注意力维度和前馈网络维度,而接近输出端的层则逐渐增加这些维度的大小。

分组查询注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替传统的多头注意力(Multi-Head Attention, MHA)。GQA是一种注意力机制的变体,旨在提高模型处理长距离依赖的能力。

RMSNorm归一化:OpenELM使用了RMSNorm作为其归一化层,一种有助于稳定训练过程的技术。

SwiGLU激活函数:在前馈网络(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函数,一种门控激活函数,有助于模型捕捉复杂的模式。

RoPE位置编码:为了编码位置信息,OpenELM使用了旋转位置编码(Rotary Positional Embedding, RoPE),一种可以处理序列中元素顺序的编码方式。

Flash注意力:在计算缩放点积注意力(scaled dot-product attention)时,OpenELM使用了Flash注意力,这是一种快速且内存高效的注意力计算方法。

OpenELM的性能表现

开发人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • essayget
    essayget 使用Essayget体验无AI和100%无pla窃的学术内容。 Essayget AI助理生成了符合高标准的高质量论文,同时提供了Turnitin报告...
  • clickseo
    clickseo ClickSeo是一个由AI驱动的CTR机器人,可以增加您网站的有机点击,以提高SEO排名。使用4周后,通常可见结果。由于CTR在确定SEO排名时可能...
  • Exponent
    Exponent Exponent 是一款协作式 AI 编程代理,旨在提升软件开发的效率与体验。它能够在多种环境中工作,从代码的探索到部署,能够帮助开发者自动化复杂的编...
  • Notion Sites
    Notion Sites Notion Sites 是一个简单易用的网站搭建工具,用户可以通过拖放式构建块快速创建个性化网站,无需编写复杂的HTML或代码。它提供了超过10,0...
  • 京东智能编程助手JoyCoder
    京东智能编程助手JoyCoder JoyCoder 是京东自主研发的智能编程助手,基于大语言模型,适配多种 IDE,提供代码预测、智能问答等功能。它能够提升开发人员的编程效率和代码质量...
  • AI Music Generator.dev
    AI Music Generator.dev AI Music Generator 是一个创新的音乐创作平台,利用先进的人工智能技术,帮助任何人快速创作专业品质的音乐。该平台理解音乐理论、作曲和编...
  • Songmeaning.AI
    Songmeaning.AI Songmeaning.AI 是一款基于人工智能的产品,旨在深入解读歌曲背后的意义。它利用自然语言处理和机器学习技术,为用户提供有关歌曲的深层次解释和...
  • bulluga
    bulluga bulluga是一个智能会议记录软件,能够自动生成会议要点和记录提要,从而提高会议效率。它利用强大的AI工具和无缝的协作功能,让您和团队在每一次会议中...