语言模型

收集全球10,000⁺个好用的AI软件

首页 > 语言模型

SALMONN

SALMONN是由清华大学电子工程系和字节跳动开发的大型语言模型（LLM），支持语音、音频事件和音乐输入。与仅支持语音或音频事件输入的模型不同，SAL...
ragobble

ragobble是一个利用人工智能将音频文件转换为文档的平台。通过将在线视频和音频信息转换为可向量化的RAG文档，用户可以将生成的文档应用于其LLM实...
Make-An-Audio 2

Make-An-Audio 2是一种基于扩散模型的文本到音频生成技术，由浙江大学、字节跳动和香港中文大学的研究人员共同开发。该技术通过使用预训练的大型...
VideoLLaMA 2

VideoLLaMA 2 是一个针对视频理解任务优化的大规模语言模型，它通过先进的空间-时间建模和音频理解能力，提升了对视频内容的解析和理解。该模型在...
Qwen2-Audio

Qwen2-Audio是由阿里云提出的大型音频语言模型，能够接受各种音频信号输入，并根据语音指令进行音频分析或直接文本回复。该模型支持两种不同的音频交...
Stability AI

Stability AI是一个专注于生成式人工智能技术的公司，提供多种AI模型，包括文本到图像、视频、音频、3D和语言模型。这些模型能够处理复杂提示，...
AudioLM

AudioLM是由Google Research开发的一个框架，用于高质量音频生成，具有长期一致性。它将输入音频映射到离散标记序列，并将音频生成视为这...
OuteTTS-0.1-350M

OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术，它不需要外部适配器或复杂架构，通过精心设计的提示和音频标记实现高质量的语音合...
podscript

Podscript 是一个强大的音频转录工具，它利用语言模型和语音到文本（STT）API，为播客和其他音频内容生成高质量的转录文本。该工具支持多种流行...
StyleTTS 2

StyleTTS 2 是一款文本转语音（TTS）模型，使用大型语音语言模型（SLMs）进行风格扩散和对抗训练，实现了人级别的 TTS 合成。它通过扩散...
Earkind

Earkind是一个通过结合语言模型和神经表达文本转语音技术，生成播客节目描述的平台。它使用新闻和研究论文列表来自动生成完整的播客剧集描述，同时提供有...
SpeechGPT

SpeechGPT是一种多模态语言模型，具有内在的跨模态对话能力。它能够感知并生成多模态内容，遵循多模态人类指令。SpeechGPT-Gen是一种扩展...
WhisperFusion

WhisperFusion是一款基于WhisperLive和WhisperSpeech功能的产品，通过在实时语音转文字流程中集成Mistral大型语言...
VSP-LLM

VSP-LLM是一个结合视觉语音处理（Visual Speech Processing）与大型语言模型（LLMs）的框架，旨在通过LLMs的强大能力最...
Polaris

Polaris是由Hippocratic AI 开发的一款高度专注于安全、用于医疗保健的大语言模型（LLM）系统，通过星座架构和专业支持代理组合，能够...
Seed-ASR

Seed-ASR是由字节跳动公司开发的基于大型语言模型(Large Language Model, LLM)的语音识别模型。它通过将连续的语音表示和上...
Spirit LM

Spirit LM是一个基础多模态语言模型，能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型，通过持续在文本和语音单元上训练来扩展到语音...
OuteTTS-0.1-350M

OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术，它不需要外部适配器或复杂架构，通过精心设计的提示和音频标记实现高质量的语音合...
卡卡字幕助手

卡卡字幕助手（VideoCaptioner）是一款功能强大的视频字幕配制软件，利用大语言模型进行字幕智能断句、校正、优化、翻译，实现字幕视频全流程一键...
ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-...

«
1
2
3
4
5
6
7
8
9
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们