现时最深广的视觉言语模子(VLMs)固然能"看图识物",但在交融电影方面还不够"智谋"。 上海东谈主工智能施行室勾通新加坡南洋理工大学 S-Lab、同济大学和香港汉文大学,认真推出ShotBench,配套模子ShotVL及西席集ShotQA,为 VLM 的"电影感"掀开评测与西席的双重缺口。 ShotBench 是一个有益为电影言语交融打算的笼统基准。它包含跳动 3.5k 个由巨匠标注的图像和视频片断问答对,来自跳动 200 部备受赞赏(主如若奥斯卡提名)的电影,涵盖八个要害电影照相维度——景...
26-07-02