收集全球10,000⁺个好用的AI软件
-
CogView-4是什么?一文让你看懂CogView-4的技术原理、主要功能、应用场景CogView4概述简介 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench ... -
VideoLLaMA3是什么?一文让你看懂VideoLLaMA3的技术原理、主要功能、应用场景VideoLLaMA3概述简介 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合... -
Qwen2.5-VL是什么?一文让你看懂Qwen2.5-VL的技术原理、主要功能、应用场景Qwen2.5-VL概述简介 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言大模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面... -
QVQ-72B-Preview是什么?一文让你看懂QVQ-72B-Preview的技术原理、主要功能、应用场景QVQ-72B-Preview概述简介 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个... -
MobileVD是什么?一文让你看懂MobileVD的技术原理、主要功能、应用场景MobileVD概述简介 MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散模型,Qualcomm A... -
VARGPT是什么?一文让你看懂VARGPT的技术原理、主要功能、应用场景VARGPT概述简介 VARGPT是创新的多模态大语言大模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切... -
VideoReward是什么?一文让你看懂VideoReward的技术原理、主要功能、应用场景VideoReward概述简介 VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,00... -
VideoJAM是什么?一文让你看懂VideoJAM的技术原理、主要功能、应用场景VideoJAM概述简介 VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学... -
MVoT是什么?一文让你看懂MVoT的技术原理、主要功能、应用场景MVoT概述简介 MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院... -
DynVFX是什么?一文让你看懂DynVFX的技术原理、主要功能、应用场景DynVFX概述简介 DynVFX是创新的视频增强技术,能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉... -
VisoMaster是什么?一文让你看懂VisoMaster的技术原理、主要功能、应用场景VisoMaster概述简介 VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真... -
FlashVideo是什么?一文让你看懂FlashVideo的技术原理、主要功能、应用场景FlashVideo概述简介 FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视... -
LLaVA-Rad是什么?一文让你看懂LLaVA-Rad的技术原理、主要功能、应用场景LLaVA-Rad概述简介 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部... -
VideoCaptioner是什么?一文让你看懂VideoCaptioner的技术原理、主要功能、应用场景VideoCaptioner概述简介 VideoCaptioner(中文名:卡卡字幕助手)是基于大语言大模型(LLM)的智能字幕处理工具,能简化视频... -
InternVideo2.5是什么?一文让你看懂InternVideo2.5的技术原理、主要功能、应用场景InternVideo2.5概述简介 InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模... -
Lumina-Video是什么?一文让你看懂Lumina-Video的技术原理、主要功能、应用场景Lumina-Video概述简介 Lumina-Video是上海 AI Lab 和香港中文大学推出的视频生成框架,基于Next-DiT架构,针对视频... -
RWKV-7-2.9B是什么?一文让你看懂RWKV-7-2.9B的技术原理、主要功能、应用场景RWKV-7-2.9B概述简介 RWKV-7-2.9B模型(RWKV-7-World-2.9B-V3) 是RWKV 基金推出的先进 RNN 大语言大... -
Sa2VA是什么?一文让你看懂Sa2VA的技术原理、主要功能、应用场景Sa2VA概述简介 Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学一起推出的多模态大语言大模型,是SAM2和LLaVA结合而成,能实... -
AnyCharV是什么?一文让你看懂AnyCharV的技术原理、主要功能、应用场景AnyCharV概述简介 AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目... -
Long-VITA是什么?一文让你看懂Long-VITA的技术原理、主要功能、应用场景Long-VITA概述简介 Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在...