目录
<aside> <img src="/icons/push-pin_green.svg" alt="/icons/push-pin_green.svg" width="40px" /> Building real-life useful applications from your Research is very important.
</aside>
<aside> <img src="/icons/science_red.svg" alt="/icons/science_red.svg" width="40px" /> Research Prospects
</aside>
<aside> <img src="/icons/cash_blue.svg" alt="/icons/cash_blue.svg" width="40px" /> Funding
VidChapters-7M: Video Chapters at Scale
</aside>
<aside> <img src="/icons/command-line_yellow.svg" alt="/icons/command-line_yellow.svg" width="40px" /> Research Tools
</aside>
【TODO】
视频理解方法的发展可以概括为四个阶段:(1)常规方法,(2)神经视频模型,(3)自监督视频预训练,以及(4)用于视频理解的大型语言模型,即Vid-LLMs。
针对长视频的密集视频描述任务(含Demo代码) - 知乎 (zhihu.com)
**密集视频描述旨在输出未裁剪的长视频中包含的所有事件的时间框及其自然语言描述。**它包含“定位(localization)”和“描述(captioning)”两个子任务。
视频字幕(VC) Vs密集视频字幕(DVC)在视频上的任务性能。 DVC为给定的视频生成更详细的字幕,而VC生成单个句子描述视频的一般内容。
(划分标准不唯一)