语音识别

收集全球10,000⁺个好用的AI软件

首页 > 语音识别

speech-to-speech

speech-to-speech 是一个开源的模块化GPT4-o项目，通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换...
Seed-ASR

Seed-ASR是由字节跳动公司开发的基于大型语言模型(Large Language Model, LLM)的语音识别模型。它通过将连续的语音表示和上...
Encounter AI Advisor

Encounter AI - Advisor是一款利用SRI的隐马尔可夫模型（HMM）基础的语音识别技术，为多单位餐厅运营商提供实时的音频监控服务。它...
Llama3-s v0.2

Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点，专注于提升语音理解能力。该模型通过早期融合语义...
OpenVoiceChat

OpenVoiceChat是一个开源项目，旨在提供一个与大型语言模型（LLM）进行自然语音对话的平台。它支持多种语音识别（STT）、文本到语音（TTS...
Easy Voice Toolkit

Easy Voice Toolkit是一个基于开源语音项目的AI语音工具箱，提供包括语音模型训练在内的多种自动化音频工具。该工具箱能够无缝集成，形成完...
Mini-Omni

Mini-Omni是一个开源的多模态大型语言模型，能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能，无需额外的ASR或T...
Aixploria

Aixploria是一个专注于人工智能的网站，提供在线AI工具目录，帮助用户发现和选择满足其需求的最佳AI工具。该平台以简化的设计和直观的搜索引擎，让...
聆龙

聆龙是一款AI笔记助手，它通过语音AI笔记功能，支持用户随时记录信息，并以富文本形式保存。它还具备AI智能标签功能，能够自动生成标题，帮助用户与自己的...
心辰Lingo语音大模型

心辰Lingo语音大模型是一款先进的人工智能语音模型，专注于提供高效、准确的语音识别和处理服务。它能够理解并处理自然语言，使得人机交互更加流畅和自然。...
CrisperWhisper

CrisperWhisper是基于OpenAI的Whisper模型的高级变体，专为快速、准确、逐字的语音识别设计，提供准确的词级时间戳。与原始Whis...
EVI 2

EVI 2是Hume AI推出的新型基础语音对语音模型，能够以接近人类的自然方式与用户进行流畅对话。它具备快速响应、理解用户语调、生成不同语调、以及执...
讯飞虚拟人

讯飞虚拟人利用最新的AI虚拟形象技术，结合语音识别、语义理解、语音合成、NLP、星火大模型等AI核心技术，提供虚拟人形象资产构建、AI驱动、多模态交互...
讯飞星火

讯飞星火是科大讯飞推出的一款全面对标GPT-4 Turbo的AI大语言模型，它通过集成多种AI技术，如语音识别、自然语言处理、机器学习等，为用户提供高...
Deepgram Voice Agent API

Deepgram Voice Agent API 是一个统一的语音到语音API，它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别...
EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保...
Whisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训...
AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行...
Rev AI

Rev AI提供高精度的语音转录服务，支持58种以上语言，能够将视频和语音应用中的语音转换为文本。它通过使用世界上最多样化的声音集合进行训练，为视频和...
Reverb

Reverb 是一个开源的语音识别和说话人分割模型推理代码，使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。...

«
1
2
3
4
5
6
7
8
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们