OpenELM是什么?一文让你看懂OpenELM的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

OpenELM概述简介

OpenELM是Apple苹果公司最新推出的系列高效开源的语言大模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

OpenELM的基本信息

参数规模:OpenELM总共有八个模型,其中四个是预训练的,四个是指令微调的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数规模(270M、450M、1.1B和3B)。

技术架构:OpenELM采用了基于Transformer的架构,使用了层间缩放(layer-wise scaling)策略,通过调整注意力头数和前馈网络(FFN)的乘数来实现参数的非均匀分配。该模型采用了分组查询注意力(Grouped Query Attention, GQA)代替多头注意力(Multi-Head Attention, MHA),使用SwiGLU激活函数代替传统的ReLU,以及RMSNorm作为归一化层。

预训练数据:OpenELM使用了多个公共数据集进行预训练,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,总计约1.8万亿个token。

开源许可:OpenELM的代码、预训练模型权重和训练指南都是在开放源代码许可证下发布的。此外,苹果还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。

OpenELM的官网入口

arXiv研究论文:https://arxiv.org/abs/2404.14619

GitHub模型权重和训练配置:https://github.com/apple/corenet

指令微调版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca

预训练版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-pretrained-models-6619ac6ca12a10bd0d0df89e

OpenELM的技术架构

Transformer架构:OpenELM采用了仅解码器(decoder-only)的Transformer模型架构,这是一种在自然语言处理中广泛使用的架构,特别适用于处理序列数据。

层间缩放(Layer-wise Scaling):OpenELM通过层间缩放技术有效地在模型的每一层分配参数。这意味着模型的早期层(接近输入端)使用较小的注意力维度和前馈网络维度,而接近输出端的层则逐渐增加这些维度的大小。

分组查询注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替传统的多头注意力(Multi-Head Attention, MHA)。GQA是一种注意力机制的变体,旨在提高模型处理长距离依赖的能力。

RMSNorm归一化:OpenELM使用了RMSNorm作为其归一化层,一种有助于稳定训练过程的技术。

SwiGLU激活函数:在前馈网络(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函数,一种门控激活函数,有助于模型捕捉复杂的模式。

RoPE位置编码:为了编码位置信息,OpenELM使用了旋转位置编码(Rotary Positional Embedding, RoPE),一种可以处理序列中元素顺序的编码方式。

Flash注意力:在计算缩放点积注意力(scaled dot-product attention)时,OpenELM使用了Flash注意力,这是一种快速且内存高效的注意力计算方法。

OpenELM的性能表现

开发人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • ResumeReady
    ResumeReady ResumeReady是一项个性化高效的简历建立服务,使用微软Word和ChatGPT,帮助求职者创建符合职位要求的求职简历,从而在求职过程中脱颖而出...
  • Windows AI Studio
    Windows AI Studio Windows AI Studio通过汇集来自Azure AI Studio和其他目录(如Hugging Face)的尖端AI开发工具和模型,简化了生...
  • MomentsAI
    MomentsAI Moments是一款使用人工智能提供个性化和自然的冥想体验的冥想应用程序。根据您的感受,Moments会生成一次冥想会话,并由自然的AI语音引导您完成...
  • uinston
    uinston Uinston是一个强大的AI设计合作伙伴,可为您的设计提供专家反馈。借助其Web应用程序和Chrome扩展,它分析了无花果和实际站点的图像,每天为您...
  • deepswap
    deepswap DeepSwap是一种在线面部交换工具,用于创建具有性别和名人交换的现实视频。借助强大的AI技术,它为寿命式的体验产生了100%现实的结果。 Deep...
  • Portrait Studio
    Portrait Studio Portrait Studio Pro是一款AI生成的专业商务头像服务。用户只需上传几张照片,我们的AI引擎将生成完美的商务照片,适用于LinkedI...
  • Unfap AI
    Unfap AI Unfap AI戒断教练是一个基于人工智能的Instagram戒断挑战,通过随机任务和科学支持的方法帮助用户改变不良习惯,保持健康心态。一次性费用为1...
  • coloring maker
    coloring maker 通过着色制造商将您的着色页创意转变为现实。这种尖端的AI技术使您可以通过简单地描述您的概念来轻松创建自定义着色页。让您的想象力狂野,看着着色制造商工具...