AI TOOL

AI软件大全 AI软件大全
  • AI排行榜
  • AI大模型
    • AI开发框架
    • 国外大模型
    • 国产大模型
    • 开源大模型
    • AI训练模型
  • AI写作软件
    • AI通用写作
    • AI PPT生成
    • 论文AI生成
    • AI小说生成
    • AI脚本剧本
    • AI歌词生成器
    • AI文案生成
    • AI会议助手
    • AI图表生成
    • AI内容检测
  • AI图片生成
    • AI绘画生成
    • AI图片编辑
    • AI 图标生成器
    • 文字生成图片
    • 图片生成图片
    • 图片生成3D
    • AI LOGO生成器
    • AI图片识别
    • 图片生成网页
  • AI视频生成
    • AI视频生成
    • 文字生成视频
    • AI视频换脸
    • 图片生成视频
    • AI虚拟数字人
    • AI视频编辑
    • AI视频直播
    • AI短剧生成
    • AI动漫视频
  • AI音频生成
    • 文字转语音
    • 语音转文字
    • AI音乐创作
    • AI语音识别
    • AI声音降噪
    • AI声音克隆
    • AI音频编辑
  • AI设计软件
    • AI网页设计
    • AI平面设计
    • AI 3D设计
    • AI室内设计
    • AI绘画设计
    • AI游戏设计
    • AI建筑设计
  • AI营销软件
    • AI SEO
    • 社媒营销
    • 网红营销
    • 广告投流
    • 邮件营销
    • 流量变现
    • 裂变增长
    • AI CRM
    • 数据分析
    • 电商平台
    • 营销平台
  • AI智能编程
    • AI开发者工具
    • AI机构协会
    • AI编程开发
    • AI搜索引擎
    • AI开发者社区
    • AI提示指令
    • AI开放平台
    • AI训练模型
    • AI算力平台
  • AI翻译软件
    • AI文本翻译
    • AI图片翻译
    • AI视频翻译
    • AI音频翻译
    • AI文档翻译
  • AI对话聊天
    • AI聊天机器人
    • AI智能客服
  • 其他AI工具
  • AI办公应用
    • AI文档处理
    • AI思维导图
    • 生产力工具
    • AI数据分析
    • 工作流管理
    • AI格式转换
    • 人力资源管理
    • AI表单调查
    • AI团队协作
  • AI行业应用
    • AI教育应用
    • AI电商应用
    • AI生活应用
    • AI医疗应用
    • AI法律助手
    • AI户外旅行
    • AI游戏娱乐
    • AI金融支付
    • AI商业应用
  • AI学习网站
  • 素材资源分享
    • 文档模板素材
    • 图片图标素材
    • 常用工具插件
    • 服务器VPS
    • CMS内容管理
    • 开源免费资源
    • 开发者开放平台
    • 前后端框架
    • API接口服务
  • AI教程评测
    • Deepseek教程
    • ChatGPT教程
    • ‌Midjourney教程
    • AI提示指令
    • AI入门教程
    • AI工具教程
    • AI高级知识
    • AI工具评测
  • AI热点资讯
    • AI热点资讯
    • AI风云人物
    • 国内AI资讯
    • 国外AI资讯
    • AI算力资讯
    • 大咖说AI
    • AI讨论区
  • AI创业专区
    • AI创业项目
    • AI创业案例
    • AI项目融资
    • AI创业攻略
    • AI出海项目
    • 小白AI创业
    • AI创业经验
  • 提交您的AI工具
  • AI工具箱
  • AI工具专题
  • 热门AI工具
  • 免费AI工具
  • 国外AI工具
  • 国产AI工具
  • 最新AI工具
    提交收录
AI工具软件收录提交入口
收集全球10,000⁺个好用的AI软件
  • DeepSeek
  • AI写作
  • AI数字人
  • AI视频
  • AI图片
首页 > 多模态
  • UniMuMo
    UniMuMo
    UniMuMo是一个多模态模型,能够将任意文本、音乐和动作数据作为输入条件,生成跨所有三种模态的输出。该模型通过将音乐、动作和文本转换为基于令牌的表示...
  • CLaMP 3
    CLaMP 3
    CLaMP 3 是一种先进的音乐信息检索模型,通过对比学习对齐乐谱、演奏信号、音频录音与多语言文本的特征,支持跨模态和跨语言的音乐检索。它能够处理未对...
  • MagicAvatar
    MagicAvatar
    MagicAvatar是一个多模态框架,能够将各种输入模式(文本、视频和音频)转换为运动信号,从而生成/动画化头像。它可以通过简单的文本提示创建头像,...
  • ImageBind
    ImageBind
    ImageBind是一种新的AI模型,能够同时绑定六种感官模态的数据,无需显式监督。通过识别这些模态之间的关系(图像和视频、音频、文本、深度、热成像和...
  • DevMind AI
    DevMind AI
    DevMind AI旨在无缝整合文本、图像、视频、音频和代码等多种模型的推理能力,帮助您像专业人士一样进行开发!DevMind AI通过AI功能增强您...
  • Unified-IO 2
    Unified-IO 2
    Unified-IO 2是一个统一的多模态生成模型,能够理解和生成图像、文本、音频和动作。它使用单个编码器-解码器Transformer模型,将不同模...
  • Mini-Omni
    Mini-Omni
    Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或T...
  • MMAudio
    MMAudio
    MMAudio是一种多模态联合训练技术,旨在高质量的视频到音频合成。该技术能够根据视频和文本输入生成同步音频,适用于各种应用场景,如影视制作、游戏开发...
  • OmniAudio-2.6B
    OmniAudio-2.6B
    OmniAudio-2.6B是一个2.6B参数的多模态模型,能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个...
  • MILS
    MILS
    MILS是一个由Facebook Research发布的开源项目,旨在展示大型语言模型(LLMs)在未经过任何训练的情况下,能够处理视觉和听觉任务的能...
  • SpeechGPT
    SpeechGPT
    SpeechGPT是一种多模态语言模型,具有内在的跨模态对话能力。它能够感知并生成多模态内容,遵循多模态人类指令。SpeechGPT-Gen是一种扩展...
  • Any GPT
    Any GPT
    AnyGPT是一个统一的多模态大型语言模型,利用离散表示进行各种模态的统一处理,包括语音、文本、图像和音乐。AnyGPT可以在不改变当前大型语言模型架...
  • Gemini 1.5 Flash
    Gemini 1.5 Flash
    Gemini 1.5 Flash是Google DeepMind团队推出的最新AI模型,它通过蒸馏过程从更大的1.5 Pro模型中提炼出核心知识和技能...
  • GPT4o.so
    GPT4o.so
    GPT-4o是OpenAI的最新创新,代表了人工智能技术的前沿。它通过真正的多模态方法扩展了GPT-4的功能,包括文本、视觉和音频。GPT-4o以其快...
  • Real-time Voice AI Agent
    Real-time Voice AI Agent
    Real-time Voice AI Agent是一个高度灵活的实时语音交互模型,它能够在大约500毫秒内通过语音回答任何查询。该模型支持用户选择任何...
  • Llama3-s v0.2
    Llama3-s v0.2
    Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。该模型通过早期融合语义...
  • Mini-Omni
    Mini-Omni
    Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或T...
  • LLaMA-Omni
    LLaMA-Omni
    LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型,旨在实现GPT-4o级别的语音能力。...
  • EMOVA
    EMOVA
    EMOVA(EMotionally Omni-present Voice Assistant)是一个多模态语言模型,它能够进行端到端的语音处理,同时保...
  • LiveKit Agents
    LiveKit Agents
    LiveKit Agents 是一个端到端框架,它使开发者能够构建能够通过语音、视频和数据通道与用户互动的智能多模态语音助手(AI代理)。它通过集成O...
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • »
卓商AI工具集 卓商-AI工具集
AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

隐私策略 免责条款 服务协议关于我们

微信群

AI产品交流群

二维码

扫码联系站长
© 2013-2025 卓商AI 版权所有,保留所有权利 本站SEO技术支持: 知了网络   网站地图   友情链接交换
  • 微信二维码