收集全球10,000⁺个好用的AI软件
-
LLaVA-VideoLLaVA-Video是一个专注于视频指令调优的大型多模态模型(LMMs),通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取...
-
InternViT-300M-448px-V2_5InternViT-300M-448px-V2_5是一个基于InternViT-300M-448px的增强版本,通过采用ViT增量学习与NTP损失(S...
-
4M4M是一个用于训练多模态和多任务模型的框架,能够处理多种视觉任务,并且能够进行多模态条件生成。该模型通过实验分析展示了其在视觉任务上的通用性和可扩展性...
-
Agent SAgent S是一个开放的代理框架,旨在通过图形用户界面(GUI)实现与计算机的自主交互,通过自动化复杂多步骤任务来转变人机交互。它引入了经验增强的分...
-
MMAudioMMAudio是一种多模态联合训练技术,旨在高质量的视频到音频合成。该技术能够根据视频和文本输入生成同步音频,适用于各种应用场景,如影视制作、游戏开发...
-
Llama3-s v0.2Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。该模型通过早期融合语义...
-
MAVISMAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs...
-
MAVISMAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs...