SongGen是什么?一文让你看懂SongGen的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

SongGen概述简介

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

SongGen的功能特色

细粒度控制:用户基于歌词、描述性文本(如乐器、风格、情感等)对生成的歌曲进行控制。

声音克隆:支持基于三秒参考音频实现声音克隆,使生成的歌曲具有特定歌手的音色。

两种生成模式:提供“混合模式”(直接生成人声和伴奏的混合音频)和“双轨模式”(分别合成人声和伴奏,便于后期编辑)。

高质量音频输出:基于优化的音频标记化和训练策略,生成具有高自然度和清晰人声的歌曲。

SongGen的技术原理

自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,用交叉注意力机制引导音频标记的生成。

音频标记化:用X-Codec将音频信号编码为离散的音频标记,基于代码本延迟模式处理多代码序列,支持高效生成。

混合模式与双轨模式:

混合模式:直接生成混合音频标记,引入辅助人声音频标记预测目标(Mixed Pro),增强人声清晰度。

双轨模式:基于平行或交错模式分别生成人声和伴奏标记,确保两者在帧级别上的对齐,提升生成质量。

条件输入编码:

歌词编码:VoiceBPE分词器将歌词转换为音素级标记,基于小型Transformer编码器提取关键发音信息。

声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。

文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,提供音乐风格、情感等控制。

训练策略:

多阶段训练:包括模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。

课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习。

数据预处理:开发自动化数据预处理管道,从多个数据源收集音频,分离人声和伴奏,生成高质量的歌词和描述性文本数据集。

SongGen项目介绍

GitHub仓库:https://github.com/LiuZH-19/SongGen

arXiv技术论文:https://arxiv.org/pdf/2502.13128

SongGen能做什么?

音乐创作:快速生成歌曲雏形,探索不同风格,为歌词生成伴奏,加速创作流程。

视频配乐:为短视频、广告、电影生成背景音乐,根据内容调整风格,提升视觉效果。

教育辅助:帮助学生理解音乐创作,通过生成歌曲学习语言发音,激发创造力。

个性化体验:根据用户输入生成定制歌曲,用声音克隆实现“个人专属歌手”,增强娱乐性。

商业应用:为品牌生成专属音乐,替代版权受限的音乐素材,用于广告和推广。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • GPT Academic
    GPT Academic GPT Academic是一个针对GPT、GLM等大型语言模型(LLM)的实用化交互接口,特别优化了论文阅读、润色和写作体验。它采用模块化设计,支持自...
  • financial datasets
    financial datasets financial datasets是一个为开发者设计的股市API,提供超过15000家公司的基本数据。用户只需为实际使用的数据付费,无需订阅、签订合...
  • Career Check
    Career Check Career Check 是一个基于人工智能技术的职业分析平台,用户通过上传简历和输入目标职位描述,系统能够快速分析简历的优劣势,并提供个性化的职业发...
  • 海艺SeaArt
    海艺SeaArt SeaArt AI是一个领先的免费AI图像生成器,加入充满活力的AI内容社区,访问超过200,000种模型和风格,通过艺术、插画和绘画提升您的创造力。...
  • Copilot Lab
    Copilot Lab Copilot Lab是微软推出的一个在线平台,旨在展示和教育用户如何使用Microsoft Copilot的智能辅助功能。Copilot通过集成到常...
  • Recruitgenius
    Recruitgenius RecruitGenius.ai是一款基于人工智能的自动化招聘工具。它能够通过智能筛选和技能评估,帮助企业实现高效、准确的招聘流程。RecruitGe...
  • WhisperWizard
    WhisperWizard WhisperWizard是一款智能语音转文字的桌面客户端,通过ChatGPT的帮助,将您的口头语言转化为更加准确的书面文字,加快在macOS上的写作...
  • RAG Web UI
    RAG Web UI RAG Web UI 是一个基于 RAG 技术的智能对话系统,它结合了文档检索和大型语言模型,能够为企业和个人提供基于知识库的智能问答服务。该系统采用...