目录

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhEmB6YH9ml3kjklEBjfgi92kUewP8JtSt-V_N7gbVKIoWUdZgWEwkjtqLbB_M1T2K7btC6R3hy6kWqal8UzMFV-xY-5PFvvGlNprHsuU8HzKmdrJ90PZcA-07Gc04tnEDmT4OYOtnLn66TF1loR479ZkK0Bwmqv7fQ0XS97ZmekwdqSJzZ3wAjlBkAsg/s16000/image5.gif

<aside> <img src="/icons/push-pin_green.svg" alt="/icons/push-pin_green.svg" width="40px" /> Building real-life useful applications from your Research is very important.

</aside>

<aside> <img src="/icons/science_red.svg" alt="/icons/science_red.svg" width="40px" /> Research Prospects

</aside>

<aside> <img src="/icons/cash_blue.svg" alt="/icons/cash_blue.svg" width="40px" /> Funding

VidChapters-7M: Video Chapters at Scale

</aside>

<aside> <img src="/icons/command-line_yellow.svg" alt="/icons/command-line_yellow.svg" width="40px" /> Research Tools

Research Rabbit

</aside>

基本概念


【TODO】

任务定义

Vid-LLMs Survey

视频理解方法的发展可以概括为四个阶段:(1)常规方法,(2)神经视频模型,(3)自监督视频预训练,以及(4)用于视频理解的大型语言模型,即Vid-LLMs

Untitled

时序相关任务1:密集视频描述任务

针对长视频的密集视频描述任务(含Demo代码) - 知乎 (zhihu.com)

密集视频描述研究方法综述 (ceaj.org)

**密集视频描述旨在输出未裁剪的长视频中包含的所有事件的时间框及其自然语言描述。**它包含“定位(localization)”和“描述(captioning)”两个子任务。

 视频字幕(VC) Vs密集视频字幕(DVC)在视频上的任务性能。
DVC为给定的视频生成更详细的字幕,而VC生成单个句子描述视频的一般内容。

视频字幕(VC) Vs密集视频字幕(DVC)在视频上的任务性能。 DVC为给定的视频生成更详细的字幕,而VC生成单个句子描述视频的一般内容。

Untitled

工作分类

(划分标准不唯一)

Vid-LLMs Survey

Untitled

文献调研