StoryTeller是什么?一文让你看懂StoryTeller的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

StoryTeller概述简介

StoryTeller是字节跳动、上海交通大学和北京大学一起推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频,在MovieQA任务中展现出比现有模型更高的准确率,比最强基线Gemini-1.5-pro高9.5%的准确率。

StoryTeller的功能特色

视频分割:将长视频切割成多个短片段,保持每个片段的独立性和完整性。

音频视觉角色识别:结合音频和视觉信息,识别视频中对话对应的角色。

描述生成:为每个视频片段生成详细的描述,整合成整个长视频的连贯叙述。

数据集构建:创建并使用MovieStory101数据集,提供长视频描述的训练和测试数据。

自动评估:基于MovieQA,用GPT-4自动评估视频描述的准确性和质量。

模型训练与微调:训练多模态大型语言大模型,提高角色识别和视频描述的准确性。

全局解码:确保同一角色在不同视频片段中保持一致的识别结果。

StoryTeller的技术原理

多模态融合:整合视觉(视频帧)、音频(对话)和文本(字幕和描述)信息,全面理解视频内容。

音频分离和角色ID分配:用音频嵌入模型对每个对话进行嵌入,基于聚类算法分配全局ID,将相似的音频嵌入分配相同的ID,表示同一角色。

音频视觉角色识别模型:用大型语言大模型(如Tarsier-7B)结合OpenAI的Whisper-large-v2音频编码器,将每个音频ID映射到特定的角色。

全局解码算法:在推理时,确保不同片段中相同角色的全局ID映射到一致的角色名称,提高角色识别的准确性。

视频描述生成:用识别结果作为输入,基于大型语言大模型生成每个片段的详细描述,并整合成完整的视频描述。

StoryTeller项目介绍

GitHub仓库:https://github.com/hyc2026/StoryTeller

arXiv技术论文:https://arxiv.org/pdf/2411.07076

StoryTeller能做什么?

电影和视频内容制作:自动生成电影预告片或电影片段的描述,帮助导演和编剧快速理解视频内容。辅助视频编辑工作,基于视频描述快速定位视频中的关键片段。

视频内容分析:在视频分析领域,提取视频内容的关键信息,如角色、情节和动作,进行深入的内容分析。

辅助视障人士:为视障人士提供视频内容的音频描述,更好地理解视频内容和故事情节。

教育和培训:在教育领域,为学生提供视频教材的详细描述,增强学习体验。在职业培训中,生成视频教程的详细步骤描述,提高培训效率。

视频搜索和索引:提高视频搜索的准确性,基于视频描述快速检索视频中的相关片段。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • 音刻
    音刻 音刻转录是一款专注于音视频转录的在线工具,通过先进的语音识别技术,能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言...
  • aiportrait.art
    aiportrait.art AIPortrait.Art是一个AI肖像生成器,能够将您的照片在几秒钟内转换为艺术杰作。通过混搭数百种风格,创作出独特的AI艺术肖像。无需艺术技能,...
  • Autopilot for Slack
    Autopilot for Slack Dashworks是一款AI知识助手,旨在为您提供安全准确的答案。它使用生成式AI来获取准确的带引用的答案,具有企业级知识发现的能力。Dashwork...
  • color pop
    color pop 彩色流行AI文本以着色页制造商将您的单词变成高质量的图纸 - 准备打印。借助简单的文本输入,您可以快速为艺术项目创建美丽而引人入胜的图像。通过此AI驱...
  • sumoppm
    sumoppm 通过SumoPPM获得快速,安全的业务见解。该AI驱动的工具生成动态仪表板,并使用区块链进行安全数据管理。通过简单的API集成简化数据分析和可视化。...
  • snapwiz
    snapwiz 使用Premier AI照片生成器Snapwiz.io抬高头像。从各种样式中进行选择,然后上传主题的照片,以获得完美的个性化结果。轻松体验专业品质的头...
  • Prentus | Job Tracker, AI Networking, & Application Helper
    Prentus | Job Tracker, AI Networking, & Application Helper Prentus是一款能够帮助您更快地找到理想工作的插件。它集职位追踪、扩展社交网络和AI辅助快速申请于一体。您可以追踪职位、扩展人脉网络,并利用AI辅...
  • LlamaIndex.TS
    LlamaIndex.TS LlamaIndex.TS是一个为构建基于大型语言模型(LLM)的应用而设计的框架。它专注于帮助用户摄取、结构化和访问私有或特定领域的数据。这个框架提...