语音识别

收集全球10,000⁺个好用的AI软件

首页 > 语音识别

OmniAudio-2.6B

OmniAudio-2.6B是一个2.6B参数的多模态模型，能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个...
Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR...
Robo Blogger

Robo Blogger是一个专注于将语音转换为博客文章的人工智能助手。它通过捕捉自然语言中的创意，将其结构化为有条理的博客内容，同时可以结合参考资料...
通义浏览器插件

通义是一款集成了语音识别、实时字幕翻译、智能总结等功能的浏览器插件，旨在提高用户在网课、追剧追番、线上会议等场景下的效率。它通过AI技术，帮助用户快速...
BetterWhisperX

BetterWhisperX是一个基于WhisperX改进的自动语音识别模型，它能够提供快速的语音转文字服务，并具备词级时间戳和说话人识别功能。这个工...
xiaozhi-esp32

xiaozhi-esp32 是一个开源的 AI 聊天机器人项目，基于乐鑫的 ESP-IDF 开发。它将大语言模型与硬件设备相结合，使用户能够打造出个性...
RealtimeSTT

RealtimeSTT是一个开源的语音识别模型，能够实时将语音转换为文本。它使用了先进的语音活动检测技术，可以自动检测语音的开始和结束，无需手动操作。...
Whisper Turbo.online

Whisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具，专为快速语音转录而设计。它利用先进的 AI 技术，能够高...
PengChengStarling

PengChengStarling 是一个专注于多语言自动语音识别（ASR）的开源工具包，基于 icefall 项目开发。它支持完整的 ASR 流程，...
Bulletpen

Bulletpen是一款创新的AI写作应用，旨在帮助用户将口头表达转化为高质量的书面文本。它通过语音识别和自然语言处理技术，将用户的口语内容进行优化和...
FireRedASR

FireRedASR 是一个开源的工业级普通话自动语音识别模型，采用 Encoder-Decoder 和 LLM 集成架构。它包含两个变体：FireR...
FireRedASR-AED-L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器...
Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Ph...
ElevenLabs Scribe

Scribe 是由 ElevenLabs 开发的高精度语音转文字模型，旨在处理真实世界音频的不可预测性。它支持99种语言，提供单词级时间戳、说话人分离...
DuRT

DuRT 是一款专注于 macOS 系统的语音识别和翻译工具。它通过本地 AI 模型和系统服务实现语音的实时识别与翻译，支持多种语音识别方法，提高了识...
音刻

音刻转录是一款专注于音视频转录的在线工具，通过先进的语音识别技术，能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言...
Argmax WhisperKit

WhisperKit由Argmax公司推出，是一个基于Whisper项目的推理工具包，它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的...
讯飞星火

讯飞星火是科大讯飞推出的一款全面对标GPT-4 Turbo的AI大语言模型，它通过集成多种AI技术，如语音识别、自然语言处理、机器学习等，为用户提供高...
speechpulse

使用Secempulse体验轻松的转录，这是Windows 10/11的AI驱动语音到文本软件。有了能够输入任何文本输入的能力，您可以轻松地将语音转换...
ramblefix

RambleFix将语音变成了抛光文本，提高了内容创建，会议，头脑风暴和多语言任务的生产力。...

«
1
2
3
4
5
6
7
8
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们