SongGen是什么?一文让你看懂SongGen的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

SongGen概述简介

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

SongGen的功能特色

细粒度控制:用户基于歌词、描述性文本(如乐器、风格、情感等)对生成的歌曲进行控制。

声音克隆:支持基于三秒参考音频实现声音克隆,使生成的歌曲具有特定歌手的音色。

两种生成模式:提供“混合模式”(直接生成人声和伴奏的混合音频)和“双轨模式”(分别合成人声和伴奏,便于后期编辑)。

高质量音频输出:基于优化的音频标记化和训练策略,生成具有高自然度和清晰人声的歌曲。

SongGen的技术原理

自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,用交叉注意力机制引导音频标记的生成。

音频标记化:用X-Codec将音频信号编码为离散的音频标记,基于代码本延迟模式处理多代码序列,支持高效生成。

混合模式与双轨模式:

混合模式:直接生成混合音频标记,引入辅助人声音频标记预测目标(Mixed Pro),增强人声清晰度。

双轨模式:基于平行或交错模式分别生成人声和伴奏标记,确保两者在帧级别上的对齐,提升生成质量。

条件输入编码:

歌词编码:VoiceBPE分词器将歌词转换为音素级标记,基于小型Transformer编码器提取关键发音信息。

声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。

文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,提供音乐风格、情感等控制。

训练策略:

多阶段训练:包括模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。

课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习。

数据预处理:开发自动化数据预处理管道,从多个数据源收集音频,分离人声和伴奏,生成高质量的歌词和描述性文本数据集。

SongGen项目介绍

GitHub仓库:https://github.com/LiuZH-19/SongGen

arXiv技术论文:https://arxiv.org/pdf/2502.13128

SongGen能做什么?

音乐创作:快速生成歌曲雏形,探索不同风格,为歌词生成伴奏,加速创作流程。

视频配乐:为短视频、广告、电影生成背景音乐,根据内容调整风格,提升视觉效果。

教育辅助:帮助学生理解音乐创作,通过生成歌曲学习语言发音,激发创造力。

个性化体验:根据用户输入生成定制歌曲,用声音克隆实现“个人专属歌手”,增强娱乐性。

商业应用:为品牌生成专属音乐,替代版权受限的音乐素材,用于广告和推广。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • Creately VIZ
    Creately VIZ Creately VIZ是一款AI视觉智能工具,能够快速生成可视化内容,自动化任务,并帮助用户发现新的视角。它提供多种功能,包括AI模板生成、自动化工...
  • Fresho
    Fresho Fresho是一款基于人工智能的平台,为每个客户动态生成超相关的电子商务内容。没有两个页面是相同的。通过适应每个用户,Fresho创造了一种高度个性化...
  • MoAIJobs
    MoAIJobs AI Jobs是一个网站,提供来自创新公司的3270多个人工智能工作岗位。用户可以在该网站浏览AI相关的工作机会,并且可以在该平台上发布招聘信息。...
  • JsRates
    JsRates JsRates是一款用于定制化运费计算的创新型Shopify应用,通过JavaScript提供了商家无与伦比的灵活性和控制力,为其独特的业务需求设计定...
  • AI Dezigner
    AI Dezigner AI Dezigner是一款利用人工智能生成梦幻房间的设计工具,用户只需上传自己房间的照片,即可在不同的主题下看到房间的不同效果。该产品保留了原始空间...
  • 1-Click Summarizer & Web Toolbar by Skim AI
    1-Click Summarizer & Web Toolbar by Skim AI 1-Click Summarizer & Web Toolbar by Skim AI是一款智能AI助手,通过处理和摘要新闻、研究和PDF文档,帮助用...
  • Tilores Identity RAG
    Tilores Identity RAG Tilores Identity RAG 是一个为大型语言模型(LLMs)提供客户数据搜索、统一和检索服务的平台。它通过实时模糊搜索技术,处理拼写错误...
  • verk
    verk Verk是您对更高效和高效的团队的最终解决方案。有了可自定义的AI员工,您可以在24/7的销售,个人任务和图形设计方面享受24/7的帮助。通过Verk...