收集全球10,000⁺个好用的AI软件
-
VACE是什么?一文让你看懂VACE的技术原理、主要功能、应用场景VACE概述简介 VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视... -
BEHAVIOR Robot Suite是什么?一文让你看懂BEHAVIOR Robot Suite的技术原理、主要功能、应用场景BEHAVIOR Robot Suite概述简介 BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成... -
Open-LLM-VTuber是什么?一文让你看懂Open-LLM-VTuber的技术原理、主要功能、应用场景Open-LLM-VTuber概述简介 Open-LLM-VTuber 是开源的跨平台语音交互 AI 伴侣项目。支持实时语音对话、视觉感知,配备生动... -
I2V3D是什么?一文让你看懂I2V3D的技术原理、主要功能、应用场景I2V3D概述简介 I2V3D是香港城市大学和微软 GenAI创新的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画... -
Skywork R1V是什么?一文让你看懂Skywork R1V的技术原理、主要功能、应用场景Skywork R1V概述简介 Skywork R1V是昆仑万维开源的第一款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork ... -
Stable Virtual Camera是什么?一文让你看懂Stable Virtual Camera的技术原理、主要功能、应用场景Stable Virtual Camera概述简介 Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能... -
InternVL是什么?一文让你看懂InternVL的技术原理、主要功能、应用场景InternVL概述简介 InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP... -
Step-Video-TI2V是什么?一文让你看懂Step-Video-TI2V的技术原理、主要功能、应用场景Step-Video-TI2V概述简介 Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video... -
MoshiVis是什么?一文让你看懂MoshiVis的技术原理、主要功能、应用场景MoshiVis概述简介 MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。... -
StarVector是什么?一文让你看懂StarVector的技术原理、主要功能、应用场景StarVector概述简介 StarVector 是开源的多模态视觉语言大模型,ServiceNow Research、Mila – Quebec... -
Qwen2.5-VL-32B是什么?一文让你看懂Qwen2.5-VL-32B的技术原理、主要功能、应用场景Qwen2.5-VL-32B概述简介 Qwen2.5-VL-32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5-VL系列的基础... -
Mureka V6是什么?一文让你看懂Mureka V6的技术原理、主要功能、应用场景Mureka V6概述简介 Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型,支持纯音乐生成以及10种语言的AI音乐创作。引入自研的IC... -
Video-T1是什么?一文让你看懂Video-T1的技术原理、主要功能、应用场景Video-T1概述简介 Video-T1 是清华大学和腾讯的开发人员一起推出的视频生成技术,基于测试时扩展(Test-Time Scaling,T... -
QVQ-Max是什么?一文让你看懂QVQ-Max的技术原理、主要功能、应用场景QVQ-Max概述简介 QVQ-Max 是阿里通义推出的视觉推理模型,是QVQ-72B-Preview的正式升级版。QVQ-Max能“看懂”图片和视... -
Vidu Q1是什么?一文让你看懂Vidu Q1的技术原理、主要功能、应用场景Vidu Q1概述简介 Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。在多主体细节可... -
新EmotiVoice是什么?一文让你看懂新EmotiVoice的技术原理、主要功能、应用场景EmotiVoice概述简介 EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语和... -
新Vibe Draw是什么?一文让你看懂新Vibe Draw的技术原理、主要功能、应用场景Vibe Draw概述简介 Vibe Draw是开源的 AI 3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提... -
计算机视觉是什么意思?计算机视觉(Computer Vision)详细介绍计算机视觉(Computer Vision)正成为解锁智能世界的关键。通过模拟人类视觉系统,机器能够洞察图像和视频背后的故事。计算机视觉不仅让机器... -
向量数据库是什么意思?向量数据库(Vector database)详细介绍向量数据库是一种专门用于存储和处理向量数据的数据库系统。它以向量为基本数据类型,将向量作为数据的主要组织形式。与传统的关系型数据库不同,向量数据库... -
视觉语言模型是什么意思?视觉语言模型(Vision-Language Models, VLMs)详细介绍视觉语言模型(Vision-Language Models, VLMs)是一类多模态模型,它们能够同时从图像和文本中学习,以处理多种任务,例如视觉...