收集全球10,000⁺个好用的AI软件
-
Deepgram Voice Agent APIDeepgram Voice Agent API 是一个统一的语音到语音API,它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别...
-
VALL-E 2VALL-E 2 是微软亚洲研究院推出的一款语音合成模型,它通过重复感知采样和分组编码建模技术,大幅提升了语音合成的稳健性与自然度。该模型能够将书面文...
-
Llama 3.2 3b VoiceLlama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型,能够将文本转换为自然流畅的语音。该模型采用了先进的深度学习...
-
F5-TTSF5-TTS是由SWivid团队开发的一个文本到语音合成(TTS)模型,它利用深度学习技术将文本转换为自然流畅、忠实于原文的语音输出。该模型在生成语音...
-
MaskGCTMaskGCT是一个创新的零样本文本到语音转换(TTS)模型,它通过消除显式对齐信息和音素级持续时间预测的需求,解决了自回归和非自回归系统中存在的问题...
-
GLM-4-VoiceGLM-4-Voice是由清华大学团队开发的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话。它通过先进的语音识别和合成技术,实现了语音...
-
MaskGCT TTS DemoMaskGCT TTS Demo 是一个基于MaskGCT模型的文本到语音(TTS)演示,由Hugging Face平台上的amphion提供。该模型...
-
SoundStormSoundStorm是由Google Research开发的一种音频生成技术,它通过并行生成音频令牌来大幅减少音频合成的时间。这项技术能够生成高质量、...
-
MiniMatesMiniMates是一款轻量级的图片数字人驱动算法,能够在普通电脑上实时运行,支持语音驱动和表情驱动两种模式。它比市面上的liveportrait、E...
-
Fish SpeechFish Speech是一款专注于语音合成的产品,它通过使用先进的深度学习技术,能够将文本转换为自然流畅的语音。该产品支持多种语言,包括中文、英文等,...
-
OuteTTS-0.1-350MOuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术,它不需要外部适配器或复杂架构,通过精心设计的提示和音频标记实现高质量的语音合...
-
OuteTTSOuteTTS是一个使用纯语言建模方法生成语音的实验性文本到语音模型。它的重要性在于能够通过先进的语言模型技术,将文本转换为自然听起来的语音,这对于语...
-
PlayDialogPlayDialog是Play.ai推出的一款端到端AI语音模型,它利用对话的历史背景来控制韵律、语调、情感和节奏,以提供更自然的声音,为匹配人类在现...
-
OuteTTS-0.2-500MOuteTTS-0.2-500M是基于Qwen-2.5-0.5B构建的文本到语音合成模型,它在更大的数据集上进行了训练,实现了在准确性、自然度、词汇量...
-
CosyVoice语音生成大模型2.0-0.5BCosyVoice语音生成大模型2.0-0.5B是一个高性能的语音合成模型,支持零样本、跨语言的语音合成,能够根据文本内容直接生成相应的语音输出。该模...
-
CosyVoice 2CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语...
-
Gemini 2.0 Flash ExperimentalGemini 2.0 Flash Experimental是Google DeepMind开发的最新AI模型,旨在提供低延迟和增强性能的智能代理体验。...
-
ElevenLabs FlashFlash是ElevenLabs最新推出的文本转语音(Text-to-Speech, TTS)模型,它以75毫秒加上应用和网络延迟的速度生成语音,是低...
-
VoxdazzVoxdazz是一个利用人工智能技术模仿名人声音的在线平台。用户可以选择名人的声音模板,输入想要说的话,Voxdazz将生成相应的视频。这项技术基于复...
-
SynthesysSynthesys是一个AI内容生成平台,提供AI视频、AI语音和AI图像生成服务。它通过使用先进的人工智能技术,帮助用户以更低的成本和更简单的操作生...