收集全球10,000⁺个好用的AI软件
-
CustomVideoX是什么?一文让你看懂CustomVideoX的技术原理、主要功能、应用场景CustomVideoX概述简介 CustomVideoX 是中科大和浙大等联合提出的创新的个性化视频生成框架,通过参考图像和文本描述生成高质量的定... -
Step-Video-T2V是什么?一文让你看懂Step-Video-T2V的技术原理、主要功能、应用场景Step-Video-T2V概述简介 Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型,拥有 300 亿参数,能生成长达 ... -
Light-A-Video是什么?一文让你看懂Light-A-Video的技术原理、主要功能、应用场景Light-A-Video概述简介 Light-A-Video 是上海交通大学、中国科学技术大学、香港中文大学、香港科技大学、斯坦福大学及上海AI实... -
SkyReels-V1是什么?一文让你看懂SkyReels-V1的技术原理、主要功能、应用场景SkyReels-V1概述简介 SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型。基于在千万级高质量影视数据上进行微调,实现... -
VLM-R1是什么?一文让你看懂VLM-R1的技术原理、主要功能、应用场景VLM-R1概述简介 VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言大模型,通过自然语言指令精确定位图像中的目标物体,如根据... -
VideoGrain是什么?一文让你看懂VideoGrain的技术原理、主要功能、应用场景VideoGrain概述简介 VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修... -
VideoFusion是什么?一文让你看懂VideoFusion的技术原理、主要功能、应用场景VideoFusion概述简介 VideoFusion 是开源的短视频拼接与处理软件,专为高效视频编辑设计。支持自动去除视频中的黑边、水印和字幕,能... -
VidSketch是什么?一文让你看懂VidSketch的技术原理、主要功能、应用场景VidSketch概述简介 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示... -
ViDoRAG是什么?一文让你看懂ViDoRAG的技术原理、主要功能、应用场景ViDoRAG概述简介 ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭... -
LCVD是什么?一文让你看懂LCVD的技术原理、主要功能、应用场景LCVD概述简介 LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控... -
CogView4是什么?一文让你看懂CogView4的技术原理、主要功能、应用场景CogView4概述简介 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench ... -
OmniAlign-V是什么?一文让你看懂OmniAlign-V的技术原理、主要功能、应用场景OmniAlign-V概述简介 OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言... -
AVD2是什么?一文让你看懂AVD2的技术原理、主要功能、应用场景AVD2概述简介 AVD2(Accident Video Diffusion for Accident Video Description)是清华大... -
Chat2SVG是什么?一文让你看懂Chat2SVG的技术原理、主要功能、应用场景Chat2SVG概述简介 Chat2SVG 是创新的文本到矢量图形(SVG)生成框架,通过结合大型语言大模型(LLMs)和图像扩散模型,实现高质量 ... -
SpatialVLA是什么?一文让你看懂SpatialVLA的技术原理、主要功能、应用场景SpatialVLA概述简介 SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构一起推出的新型空间具身通用操作模... -
Aya Vision是什么?一文让你看懂Aya Vision的技术原理、主要功能、应用场景Aya Vision概述简介 Aya Vision 是 Cohere 推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持 ... -
BGE-VL是什么?一文让你看懂BGE-VL的技术原理、主要功能、应用场景BGE-VL概述简介 BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL... -
TicVoice 7.0是什么?一文让你看懂TicVoice 7.0的技术原理、主要功能、应用场景TicVoice 7.0概述简介 TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark... -
VideoPainter是什么?一文让你看懂VideoPainter的技术原理、主要功能、应用场景VideoPainter概述简介 VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专... -
MV-MATH是什么?一文让你看懂MV-MATH的技术原理、主要功能、应用场景MV-MATH概述简介 MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言大模型(MLLMs)在多视觉场景中的数学推理能力。数据集...