收集全球10,000⁺个好用的AI软件
-
PDF2AudioPDF2Audio是一个利用OpenAI的GPT模型将PDF文档转换成音频内容的工具。它能够将文本生成和文本到语音转换技术结合起来,为用户提供一个可以...
-
pdf-to-podcastpdf-to-podcast是一个基于人工智能技术的生产力工具,能够将PDF文档转换成播客节目。它使用OpenAI的文本到语音模型和Google Ge...
-
OutspeedOutspeed是一个为构建快速、实时语音和视频AI应用提供网络和推理基础设施的平台。它由Google和MIT的工程师开发,旨在为实时AI应用提供直观...
-
Llama 3.2 3b VoiceLlama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型,能够将文本转换为自然流畅的语音。该模型采用了先进的深度学习...
-
EMOVAEMOVA(EMotionally Omni-present Voice Assistant)是一个多模态语言模型,它能够进行端到端的语音处理,同时保...
-
Open NotebookLMOpen NotebookLM是一个利用开源语言模型和文本到语音模型的工具,它可以处理PDF内容,生成适合音频播客的自然对话,并将其输出为MP3文件。...
-
Whisper large-v3-turboWhisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训...
-
AI-Powered Meeting SummarizerAI-Powered Meeting Summarizer是一个基于Gradio的网站应用,能够将会议录音转换为文本,并使用whisper.cpp进行...
-
LiveKit AgentsLiveKit Agents 是一个端到端框架,它使开发者能够构建能够通过语音、视频和数据通道与用户互动的智能多模态语音助手(AI代理)。它通过集成O...
-
Rev AIRev AI提供高精度的语音转录服务,支持58种以上语言,能够将视频和语音应用中的语音转换为文本。它通过使用世界上最多样化的声音集合进行训练,为视频和...
-
ReverbReverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。...
-
voice-chat-pdfvoice-chat-pdf是一个基于LlamaIndex项目,使用Next.js构建的示例,它通过简单的RAG系统,允许用户通过语音与PDF文档进行...