最后,研究者们使用了alignmentloss对模型进行了训练:
研究者们通过大量的实验验证了RaNet对于基于语言查询的视频片段定位任务的有效性。
本文在3个常见数据集TACoS、Charades-STA、ActivityNetCaptions上,采用了Rankn@m评价指标,与以往的工作进行了对比,在3个数据集上基本都取得了SOTA的表现。
为了突显出模型中每个模块的重要性,研究者们做了消融实验,从结果来看,同时考虑视频片段和句子的关系,以及视频片段和单词的关系,比单独考虑这两者带来的收益要多。当同时构建不同视频片段之间的关系时,模型能够更加精准地对视频片段进行定位。
研究者们还与之前SOTA模型2D-TAN比较了在不同IoU上的相对提升率,可以发现,在越高的IoU上,本文的RaNet提升得更加明显。
不同wordembeddings的影响:
为了探寻不同的词向量编码对实验结果对的影响,研究者们还比较了不同wordembeddings的表现,发现越强的语言表征更有益于模型精准地定位视频片段。
研究者们还展示了模型在TACoS数据集上的参数量和FLOPs,并和之前的2D-TAN模型进行了对比,由于在构建视频片段关系的模块中本文采用的是稀疏连接的图网络模型,所以参数量大大减小,效率得到了提升。
最后,研究者们还通过可视化的例子展现了模型的能力。
针对基于语言查询的视频片段定位这个任务,云从-上交的联合研究团队提出了,将视频片段定位类比为自然语言处理中的多项选择阅读理解,同时建模了视频片段-句子层面和视频片段-单词层面的关系,并且提出了一种稀疏连接的图网络高效地建模了不同视频片段之间的关系,在公开数据集上取得了SOTA表现。
THE END