语音识别

收集全球10,000⁺个好用的AI软件

首页 > 语音识别

EngineerDraft

BeMyEars 是一款实时字幕生成工具，利用本地设备完成语音识别，为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保...
LookOnceToHear

LookOnceToHear 是一种创新的智能耳机交互系统，允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得...
seed-tts-eval

seed-tts-eval 是一个用于评估模型零样本语音生成能力的测试集，它提供了一个跨领域目标的客观评估测试集，包含从英语和普通话公共语料库中提取的...
StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质...
sherpa-onnx

sherpa-onnx 是一个基于下一代 Kaldi 的语音识别和语音合成项目，使用onnxruntime进行推理，支持多种语音相关功能，包括语音转文...
GPT4o.so

GPT-4o是OpenAI的最新创新，代表了人工智能技术的前沿。它通过真正的多模态方法扩展了GPT-4的功能，包括文本、视觉和音频。GPT-4o以其快...
Azure 认知服务语音

Azure 认知服务语音是微软推出的一款语音识别与合成服务，支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音...
SenseVoice

SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础...
FunAudioLLM

FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新...
Onyxium

Onyxium是一个综合性的AI工具平台，提供包括图像识别、文本分析、语音识别等在内的多种AI技术。它旨在帮助用户轻松访问最新AI技术，以低成本使用这...
SenseVoiceSmall

SenseVoiceSmall是一款具备多种语音理解能力的语音基础模型，包括自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音...
AIAvatarKit

AIAvatarKit是一个用于快速构建基于AI的会话头像的工具。它支持在VRChat、集群和其他元宇宙平台以及现实世界的设备上运行。该工具易于启动，...
PC Agent

PC Agent是一款利用人工智能技术，通过屏幕内容和音频转录来理解用户的电脑环境，从而提供更加精准的辅助服务。它旨在解决当前聊天机器人的局限性，通过...
Say My Name!

Say My Name! 是一款以趣味和个性化为核心的语音识别应用。它利用先进的语音识别技术，让用户的设备能够识别和响应用户的声音，尤其是用户的名字。...
Voice Assistant Plugin for GPT

Voice Assistant Plugin for GPT 是一款专为GPT设计的语音助手插件，旨在通过语音交互提升用户体验。该插件结合了先进的语音...
LSLM

Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双...
WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和...
Qwen2 Audio Instruct Demo

Qwen2 Audio Instruct Demo 是一个基于音频指令的交互式演示网站，它利用最新的人工智能技术，让用户通过语音指令与网页进行互动。这...
whisper-diarization

whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提...
汉王语音王

汉王语音王App是汉王科技基于自研多模态天地大模型，自主研发的智能语音旗舰应用。它集AI语音记录、智能翻译与同声传译于一体，支持AI精准转写、拍录同步...

«
1
2
3
4
5
6
7
8
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们