收集全球10,000⁺个好用的AI软件
-
VideoRefer是什么?一文让你看懂VideoRefer的技术原理、主要功能、应用场景VideoRefer概述简介 VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言大模型(V... -
VideoRAG是什么?一文让你看懂VideoRAG的技术原理、主要功能、应用场景VideoRAG概述简介 VideoRAG是用于长视频理解的检索增强生成(Retrieval-Augmented Generation)技术。通过提... -
SeedVR是什么?一文让你看懂SeedVR的技术原理、主要功能、应用场景SeedVR概述简介 SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型,能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制,... -
AutoDroid-V2是什么?一文让你看懂AutoDroid-V2的技术原理、主要功能、应用场景AutoDroid-V2概述简介 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言大模型(SLM)的移动端GUI自动化脚本代理... -
EnerVerse是什么?一文让你看懂EnerVerse的技术原理、主要功能、应用场景EnerVerse概述简介 EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,通过生成未来具身空间来指导机器人完成复杂任务。模型采用... -
SVFR是什么?一文让你看懂SVFR的技术原理、主要功能、应用场景SVFR概述简介 SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统... -
NeuralSVG是什么?一文让你看懂NeuralSVG的技术原理、主要功能、应用场景NeuralSVG概述简介 NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络,将文本提示转化为具有层次结构的矢量图形... -
ViTPose是什么?一文让你看懂ViTPose的技术原理、主要功能、应用场景ViTPose概述简介 ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通... -
NVIDIA-Ingest是什么?一文让你看懂NVIDIA-Ingest的技术原理、主要功能、应用场景NVIDIA-Ingest概述简介 NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDI... -
LlamaV-o1是什么?一文让你看懂LlamaV-o1的技术原理、主要功能、应用场景LlamaV-o1概述简介 LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型,提升大型语言大模型的逐步视觉... -
CogView-3-Flash是什么?一文让你看懂CogView-3-Flash的技术原理、主要功能、应用场景CogView-3-Flash 概述简介 CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,... -
CogVideoX-Flash是什么?一文让你看懂CogVideoX-Flash的技术原理、主要功能、应用场景CogVideoX-Flash概述简介 CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,继承CogVideoX自研的端到端视频... -
Mini-InternVL是什么?一文让你看懂Mini-InternVL的技术原理、主要功能、应用场景Mini-InternVL概述简介 Mini-InternVL是“迷你版”书生·万象大模型,是上海AI实验室与清华大学、南京大学等机构联合推出的轻量... -
Video Alchemist是什么?一文让你看懂Video Alchemist的技术原理、主要功能、应用场景Video Alchemist概述简介 Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据... -
VideoWorld是什么?一文让你看懂VideoWorld的技术原理、主要功能、应用场景VideoWorld概述简介 VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目,探索深度生成模型是否能仅通过未标... -
Step-1o Vision是什么?一文让你看懂Step-1o Vision的技术原理、主要功能、应用场景Step-1o Vision概述简介 Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉... -
VideoChat-Flash是什么?一文让你看懂VideoChat-Flash的技术原理、主要功能、应用场景VideoChat-Flash概述简介 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言大... -
Step-Video V2是什么?一文让你看懂Step-Video V2的技术原理、主要功能、应用场景Step-Video V2概述简介 Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和... -
TokenVerse是什么?一文让你看懂TokenVerse的技术原理、主要功能、应用场景TokenVerse概述简介 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性... -
CogVideoX-2是什么?一文让你看懂CogVideoX-2的技术原理、主要功能、应用场景CogVideoX-2概述简介 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压...