收集全球10,000⁺个好用的AI软件
-
FLUX.1-Turbo-Alpha是什么?一文让你看懂FLUX.1-Turbo-Alpha的技术原理、主要功能、应用场景FLUX.1-Turbo-Alpha概述简介 FLUX.1-Turbo-Alpha是阿里妈妈创意团队基于FLUX.1-dev模型训练的8步蒸馏Lor...
-
Agent-S是什么?一文让你看懂Agent-S的技术原理、主要功能、应用场景Agent S概述简介 Agent-S 是创新的代理框架,旨在基于图形用户界面(GUI)实现人机交互的自动化。Agent-S 基于模拟人类的操作方式...
-
Adobe Firefly是什么?一文让你看懂Adobe Firefly的技术原理、主要功能、应用场景Adobe Firefly概述简介 Adobe Firefly 是 Adobe 推出的一系列创意生成式 AI 模型,旨在帮助用户扩展其天生的创造力。...
-
Augmented Physics是什么?一文让你看懂Augmented Physics的技术原理、主要功能、应用场景Augmented Physics概述简介 Augmented Physics是一个创新的教育工具,基于集成机器学习技术,将物理教科书中的静态图表转...
-
FunASR是什么?一文让你看懂FunASR的技术原理、主要功能、应用场景FunASR概述简介 FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言大模型、...
-
AgentStack是什么?一文让你看懂AgentStack的技术原理、主要功能、应用场景AgentStack概述简介 AgentStack是一个开源工具,旨在帮助开发者快速构建AI代理项目。基于提供一个预配置的模板和集成流行的代理框架及...
-
TANGO是什么?一文让你看懂TANGO的技术原理、主要功能、应用场景TANGO概述简介 TANGO 是一个由东京大学和 CyberAgent AI Lab 一起推出的开源框架,专注于生成与目标语音同步的全身手势视频。...
-
Story-Adapter是什么?一文让你看懂Story-Adapter的技术原理、主要功能、应用场景Story-Adapter概述简介 Story-Adapter 是一种新型的长篇故事可视化框架,能在保持语义一致性的同时,生成高质量且具有细腻交互的...
-
MEXMA是什么?一文让你看懂MEXMA的技术原理、主要功能、应用场景MEXMA概述简介 MEXMA是由Meta AI推出的一种新型的预训练跨语言句子编码器。基于结合句子级和词语级的目标提升句子表示的质量。在训练过程中...
-
VideoAgent是什么?一文让你看懂VideoAgent的技术原理、主要功能、应用场景VideoAgent概述简介 VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的开发人员一起推出。根...
-
SaRA是什么?一文让你看懂SaRA的技术原理、主要功能、应用场景SaRA概述简介 SaRA是一种新型的预训练扩散模型微调方法,由上海交通大学和腾讯优图实验室一起推出。基于重新激活预训练过程中看似无效的参数,让模型...
-
OmniAI是什么?一文让你看懂OmniAI的技术原理、主要功能、应用场景OmniAI是什么 OmniAI是一个强大的AI文档处理平台,基于先进的OCR技术,支持对PDF、DOCX、图片等多种文件格式进行快速处理和数据提取...
-
PUMA是什么?一文让你看懂PUMA的技术原理、主要功能、应用场景PUMA概述简介 PUMA是一个先进的多模态大型语言大模型(MLLM),旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本...
-
AutoGLM-Web是什么?一文让你看懂AutoGLM-Web的技术原理、主要功能、应用场景AutoGLM-Web概述简介 AutoGLM-Web是模拟用户操作的AI浏览器助手,基于大型语言大模型构建,能执行网页访问、信息检索、内容总结等任...
-
CogAgent是什么?一文让你看懂CogAgent的技术原理、主要功能、应用场景CogAgent概述简介 CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对G...
-
DuoAttention是什么?一文让你看懂DuoAttention的技术原理、主要功能、应用场景DuoAttention概述简介 DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言大模型(LLMs)在处理长上下文时的推...
-
Allegro是什么?一文让你看懂Allegro的技术原理、主要功能、应用场景Allegro概述简介 Allegro是由Rhymes AI推出的先进的文本到视频生成模型,能将简单的文本输入转换成高达720p分辨率、每秒15帧、...
-
AutoGLM是什么?一文让你看懂AutoGLM的技术原理、主要功能、应用场景AutoGLM概述简介 AutoGLM是智谱AI团队最新推出的 “Phone Use” AI智能体,基于图形用户界面(GUI)实现自主任务完成。Au...
-
VILA-U 是什么?一文让你看懂VILA-U 的技术原理、主要功能、应用场景VILA-U概述简介 VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务,简化模型结构...
-
Animate-X是什么?一文让你看懂Animate-X的技术原理、主要功能、应用场景Animate-X概述简介 Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强...