欢迎来到斯坦福青岛研究院!

国际视角|简化侦测被篡改视频的系统SAVI

作者:qdsitanfu   时间:2020-12-04
在当今这个相互联系的社会中,不可能合理地相信网上看到的任何东西。技术的进步创造了一个任何人都可以篡改多媒体内容的世界,使其看起来像是一个人做了什么或说了什么,而实际上它从未发生过。


随着强大的视频编辑软件工具越来越普遍,任何人都可以更容易地篡改内容。快速发展的消费类应用使得几乎任何人都有可能创建合成语音和合成视频的人说话。



为了帮助解决这个问题,SRI的研究人员正在努力开发技术,使公众能够检测到被篡改或篡改的视频。该技术被称为Spotting Audio-Visual Inconsistencies (SAVI),可以检测到唇语同步有一点偏差,或者视频中是否有不明原因的视觉 "抽搐"。


SRI国际的研究人员正在与阿姆斯特丹大学和Idiap研究所合作,开发检测被篡改的视频的新技术。SRI开发的 "发现音像不一致"(SAVI)技术,通过识别音轨和视轨之间的差异来检测被篡改的视频。


如果视觉场景是在室外,但对音频轨道的混响特性进行分析后,它也可以将视频标记为可能被篡改。



这段视频展示了SAVI系统如何检测扬声器不一致的情况。首先,系统会检测到这个人的脸,在整个视频片段中跟踪它,并验证整个片段中是同一个人。然后,它通过跟踪她何时适当地移动嘴巴来检测她何时可能会说话。

 

系统会分析音频轨迹,将其分割成不同的扬声器。如下图所示,系统检测到两个扬声器:一个由深蓝色横线代表,一个由浅蓝色线代表。由于有两个可听的扬声器,而只有一个视觉人员,因此系统将与第二个扬声器相关联的片段标记为潜在的篡改--用红色横线代表。



该系统还通过比较视觉运动特征和音频特征来检测唇语同步不一致的情况。  它通过检测人脸、使用OpenPose检测和跟踪人脸地标、计算嘴部运动的时空特征来计算视觉特征。


SAVI系统将这些发现与音频轨道的Mel-frequency cepstral coefficients(MFCC)特征结合起来,基于大量的视听特征向量训练集,将2秒的视频片段划分为唇部同步好或坏。系统将不一致的地方用红色标记,一致的地方用绿色沿着图像底部的水平线标记。