学习

收集全球10,000⁺个好用的AI软件

首页 > 学习

BASE TTS

BASE TTS是亚马逊开发的大规模文本到语音合成模型,运用了10亿参数的自动回归转换器,可将文本转换成语音代码,再通过卷积解码器生成语音波形。该模型...
VSP-LLM

VSP-LLM是一个结合视觉语音处理（Visual Speech Processing）与大型语言模型（LLMs）的框架，旨在通过LLMs的强大能力最...
AV-HuBERT

AV-HuBERT是一个自监督表示学习框架，专门用于音视觉语音处理。它在LRS3音视觉语音基准测试中实现了最先进的唇读、自动语音识别（ASR）和音视觉...
Gemini 1.5 Flash

Gemini 1.5 Flash是Google DeepMind团队推出的最新AI模型，它通过蒸馏过程从更大的1.5 Pro模型中提炼出核心知识和技能...
bilibot

bilibot是一个基于哔哩哔哩用户评论训练的本地聊天机器人，支持文字聊天和语音对话。它使用Qwen1.5-32B-Chat作为基础模型，并结合苹果的...
AudiowaveAI

AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同，提供了更加自然、富有情感的语音输出，让听众...
ChatTTS

ChatTTS是一个开源的文本到语音转换(TTS)模型，它允许用户将文本转换为语音。该模型主要面向学术研究和教育目的，不适用于商业或法律用途。它使用深...
Outtloud

Outtloud是一款AI语音助手，可以将用户文档或文本转换成自然流畅的高保真AI语音。它支持超过10种语言和口音，提供100多种AI高级人声。用户可...
StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质...
sherpa-onnx

sherpa-onnx 是一个基于下一代 Kaldi 的语音识别和语音合成项目，使用onnxruntime进行推理，支持多种语音相关功能，包括语音转文...
CosyVoice

CosyVoice 是一个多语言的大型语音生成模型，它不仅支持多种语言的语音生成，还提供了从推理到训练再到部署的全栈能力。该模型在语音合成领域具有重要...
aTrain

aTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发，并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型，无需...
LlamaVoice

LlamaVoice是一个基于羊驼模型的大型语音生成模型，它通过直接预测连续特征，提供了一种与传统依赖于离散语音码预测的向量量化模型相比更为流畅和高效...
WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和...
Bailing-TTS

Bailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列，专注于生成高质量的中文方言语音。该模型采用持...
Llama3-s v0.2

Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点，专注于提升语音理解能力。该模型通过早期融合语义...
Aixploria

Aixploria是一个专注于人工智能的网站，提供在线AI工具目录，帮助用户发现和选择满足其需求的最佳AI工具。该平台以简化的设计和直观的搜索引擎，让...
OptiSpeech

OptiSpeech是一个高效、轻量级且快速的文本到语音模型，专为设备端文本到语音转换设计。它利用了先进的深度学习技术，能够将文本转换为自然听起来的语...
Llama 3.2 3b Voice

Llama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型，能够将文本转换为自然流畅的语音。该模型采用了先进的深度学习...
Whisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训...

«
1
2
...
18
19
20
21
22
23
24
...
28
29
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们