收集全球10,000⁺个好用的AI软件
-
WebWalker是什么?一文让你看懂WebWalker的技术原理、主要功能、应用场景WebWalker概述简介 WebWalker是阿里巴巴自然语言处理团队开发的用于评估和提升大型语言大模型(LLMs)在网页浏览任务中性能的工具。通...
-
VideoChat-Flash是什么?一文让你看懂VideoChat-Flash的技术原理、主要功能、应用场景VideoChat-Flash概述简介 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言大...
-
EmoLLM是什么?一文让你看懂EmoLLM的技术原理、主要功能、应用场景EmoLLM概述简介 EmoLLM 是专注于心理健康支持的大型语言大模型,通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多...
-
Step-Video V2是什么?一文让你看懂Step-Video V2的技术原理、主要功能、应用场景Step-Video V2概述简介 Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和...
-
UI-TARS是什么?一文让你看懂UI-TARS的技术原理、主要功能、应用场景UI-TARS概述简介 UI-TARS是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交...
-
EMO2是什么?一文让你看懂EMO2的技术原理、主要功能、应用场景EMO2概述简介 EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿...
-
PaSa是什么?一文让你看懂PaSa的技术原理、主要功能、应用场景PaSa概述简介 PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,...
-
Baichuan-M1-preview是什么?一文让你看懂Baichuan-M1-preview的技术原理、主要功能、应用场景Baichuan-M1-preview概述简介 Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视...
-
TokenVerse是什么?一文让你看懂TokenVerse的技术原理、主要功能、应用场景TokenVerse概述简介 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性...
-
Baichuan-M1-14B是什么?一文让你看懂Baichuan-M1-14B的技术原理、主要功能、应用场景Baichuan-M1-14B概述简介 Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen...
-
CogVideoX-2是什么?一文让你看懂CogVideoX-2的技术原理、主要功能、应用场景CogVideoX-2概述简介 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压...
-
CogView-4是什么?一文让你看懂CogView-4的技术原理、主要功能、应用场景CogView4概述简介 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench ...
-
llmware是什么?一文让你看懂llmware的技术原理、主要功能、应用场景llmware概述简介 llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Retrieval-Augmented ...
-
FilmAgent是什么?一文让你看懂FilmAgent的技术原理、主要功能、应用场景FilmAgent概述简介 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟...
-
Whisper Input是什么?一文让你看懂Whisper Input的技术原理、主要功能、应用场景Whisper Input概述简介 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型...
-
Fast3R是什么?一文让你看懂Fast3R的技术原理、主要功能、应用场景Fast3R概述简介 Fast3R是Meta和密歇根大学的开发人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过...
-
Tarsier2是什么?一文让你看懂Tarsier2的技术原理、主要功能、应用场景Tarsier2概述简介 Tarsier2是字节跳动推出的先进的大规模视觉语言大模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现...
-
VideoLLaMA3是什么?一文让你看懂VideoLLaMA3的技术原理、主要功能、应用场景VideoLLaMA3概述简介 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合...
-
Baichuan-Omni-1.5是什么?一文让你看懂Baichuan-Omni-1.5的技术原理、主要功能、应用场景Baichuan-Omni-1.5概述简介 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具...
-
TeleAI-t1-preview是什么?一文让你看懂TeleAI-t1-preview的技术原理、主要功能、应用场景TeleAI-t1-preview概述简介 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与...