Tarsier2是什么?一文让你看懂Tarsier2的技术原理、主要功能、应用场景

来源:卓商AI
发布时间:2025-04-05

Tarsier2概述简介

Tarsier2是字节跳动推出的先进的大规模视觉语言大模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。 在DREAM-1K基准测试中,Tarsier2-7B的F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务。

Tarsier2的功能特色

详细视频描述:Tarsier2能生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。

视频问答:能回答关于视频的具体问题,展现出强大的时空理解和推理能力。

视频定位:Tarsier2可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。

幻觉测试:通过优化训练策略,Tarsier2显著减少了模型生成虚假信息的可能性。

多语言支持:支持多种语言的视频描述生成,进一步拓展了其应用场景。

Tarsier2的技术原理

大规模预训练数据:Tarsier2将预训练数据从1100万扩展到4000万视频-文本对,提升了数据的规模和多样性。数据包括来自互联网的短视频、电影或电视剧的解说视频,通过多模态LLM自动生成的视频描述和问答对。

细粒度时间对齐的监督微调(SFT):在监督微调阶段,Tarsier2引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。时间对齐的训练方式显著提高了模型在视频描述任务中的准确性和细节捕捉能力,同时减少了生成幻觉。

直接偏好优化(DPO):Tarsier2通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练。基于模型生成的正负样本对,进一步优化模型的生成质量,确保生成的视频描述更符合人类的偏好。

Tarsier2项目介绍

GitHub仓库:https://github.com/bytedance/tarsier

arXiv技术论文:https://arxiv.org/pdf/2501.07888

Tarsier2能做什么?

视频描述:Tarsier2 能生成高质量的详细视频描述,涵盖视频中的各种细节,包括动作、场景和情节。

幻觉测试:Tarsier2 在减少生成幻觉方面表现出色。通过直接偏好优化(DPO)和细粒度时间对齐的训练,Tarsier2 显著降低了生成虚假信息的可能性。

多语言支持:Tarsier2 支持多语言的视频描述生成,能满足不同语言环境下的需求。

具身问答:Tarsier2 在具身问答(Embodied QA)任务中也表现出色,能结合视觉和语言信息,为具身智能体提供准确的指导。

© 版权声明:本站所有原创文章版权均归卓商AI工具集及原创作者所有,未经允许任何个人、媒体、网站不得转载或以其他方式抄袭本站任何文章。
卓商AI
卓商AI

AI爱好者的一站式人工智能AI工具箱,累计收录全球10,000⁺好用的AI工具软件和网站,方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用,力争做全球排名前三的AI网址导航网站,欢迎您成为我们的一员。

猜你喜欢
  • ChatGPT Edu
    ChatGPT Edu ChatGPT Edu是OpenAI为大学校园设计的一款AI模型,旨在负责任地将人工智能技术引入学生、教职工、研究人员和校园运营中。该模型基于GPT-...
  • AI Garage Sale
    AI Garage Sale AI Garage Sale是一个由AI负责销售音乐会门票和PS5等真实产品的平台。你可以通过与AI讨价还价来降低产品价格。该平台由BRAIN团队开发...
  • Findnlink
    Findnlink Findnlink 是一个 AI 驱动的项目生成平台,可以将您的想法变为现实。您可以在此找到合作伙伴,一起实现您的创意。该平台使用人工智能技术,为您提...
  • QWIP
    QWIP QWIP是一款人工智能咨询应用,用户可以随时随地咨询医生、兽医、律师、厨师等专家,每天可免费获取3条信息,付费可以解锁无限使用。应用提供服务内容包括医...
  • Polymet
    Polymet Polymet是一个利用人工智能技术帮助用户快速从创意到原型的设计工具。它通过连接Figma和代码库,使用户能够快速设计并迭代,同时导出符合设计模式的...
  • Attune Health
    Attune Health Attune Health是一款AI助力的健康与健康应用。通过简单的面部扫描,测量您的血压、血氧饱和度、心率变异性、压力水平甚至血红蛋白等重要生命体征...
  • AI Source Hub
    AI Source Hub AI Source Hub Information 是一个专注于人工智能和科技领域的信息聚合平台,旨在收集和分享有观点、有干货、一手的AI科技资讯资源...
  • KaziQuest e
    KaziQuest e KaziQuest是肯尼亚最佳的云端招聘软件平台,帮助各种规模的企业简化招聘流程,免费发布职位,轻松跟踪候选人,为团队找到最合适的人才。KaziQue...