收集全球10,000⁺个好用的AI软件
-
Valley是什么?一文让你看懂Valley的技术原理、主要功能、应用场景Valley概述简介 Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准...
-
联通元景是什么?一文让你看懂联通元景的技术原理、主要功能、应用场景联通元景概述简介 联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合...
-
DiTCtrl是什么?一文让你看懂DiTCtrl的技术原理、主要功能、应用场景DiTCtrl概述简介 DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTC...
-
MNN是什么?一文让你看懂MNN的技术原理、主要功能、应用场景MNN概述简介 MNN(Mobile Neural Network)是阿里集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等...
-
启元重症大模型是什么?一文让你看懂启元重症大模型的技术原理、主要功能、应用场景启元重症大模型概述简介 启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量...
-
Poetry2Image是什么?一文让你看懂Poetry2Image的技术原理、主要功能、应用场景Poetry2Image概述简介 Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和...
-
PeterCat是什么?一文让你看懂PeterCat的技术原理、主要功能、应用场景PeterCat概述简介 PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率...
-
PartGen是什么?一文让你看懂PartGen的技术原理、主要功能、应用场景PartGen概述简介 PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI一起推出的。PartGen能识别并生成...
-
Vision Parse是什么?一文让你看懂Vision Parse的技术原理、主要功能、应用场景Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具,基于视觉语言大模型(Vision LLMs)将PDF文件转换成...
-
The Language of Motion是什么?一文让你看懂The Language of Motion的技术原理、主要功能、应用场景The Language of Motion概述简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言大模型,能整...
-
Mathtutor on Groq是什么?一文让你看懂Mathtutor on Groq的技术原理、主要功能、应用场景Mathtutor on Groq概述简介 Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户...
-
EDTalk是什么?一文让你看懂EDTalk的技术原理、主要功能、应用场景EDTalk概述简介 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一...
-
video-analyzer是什么?一文让你看懂video-analyzer的技术原理、主要功能、应用场景video-analyzer概述简介 video-analyzer 是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whispe...
-
SPAR是什么?一文让你看懂SPAR的技术原理、主要功能、应用场景SPAR概述简介 SPAR是智谱团队推出的自我博弈框架,能增强大型语言大模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成...
-
LowCodeEngine是什么?一文让你看懂LowCodeEngine的技术原理、主要功能、应用场景LowCodeEngine概述简介 LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系...
-
Qwen-Agent是什么?一文让你看懂Qwen-Agent的技术原理、主要功能、应用场景Qwen-Agent概述简介 Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架,支持开发者用Qwen模型的指令遵循、工具使...
-
Mind GPT-3o是什么?一文让你看懂Mind GPT-3o的技术原理、主要功能、应用场景Mind GPT-3o概述简介 Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind ...
-
琅琊是什么?一文让你看懂琅琊的技术原理、主要功能、应用场景琅琊概述简介 琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1.0版本,专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海...
-
DynamicControl是什么?一文让你看懂DynamicControl的技术原理、主要功能、应用场景DynamicControl概述简介 DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言大模型(MLLM)推理...
-
VideoPhy是什么?一文让你看懂VideoPhy的技术原理、主要功能、应用场景VideoPhy概述简介 VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否...