通过手机振动功能来识别视频会议进程中的伪装开会行为

来自新加坡的新研究提出了一种新颖的方法，可以检测智能手机视频会议工具另一端的某人是否正在使用 DeepFaceLive 等方法冒充他人。

名为 SFake 的新方法摒弃了大多数系统采用的被动方法，并导致用户的手机振动（使用智能手机中常见的相同“振动”机制），并巧妙地模糊他们的脸。

尽管实时深度伪造系统能够复制运动模糊，但只要模糊镜头包含在训练数据中，或者至少包含在预训练数据中，它们就无法对此类意外模糊做出足够快的响应，并继续输出面部的非模糊部分，从而揭示深度伪造电话会议的存在。

DeepFaceLive 的响应速度不够快，无法模拟摄像机振动引起的模糊。来源： https://arxiv.org/pdf/2409.10889v1

研究人员自行策划的数据集（因为不存在具有主动摄像头抖动的数据集）的测试结果发现，SFake 的性能优于竞争对手的基于视频的深度伪造检测方法，即使面临具有挑战性的情况，例如当视频会议中的其他人用手握住摄像头时发生的自然手部运动，而不是使用静态手机支架。

对基于视频的 Deepfake 检测的需求不断增长

最近，对基于视频的深度伪造检测的研究有所增加。在几年成功的基于语音的深度伪造抢劫案之后，今年早些时候，一名财务人员被诱骗将 25 万美元转移给一名在深度伪造视频电话会议中冒充首席财务官的欺诈者。

尽管这种性质的系统需要高水平的硬件访问，但许多智能手机用户已经习惯了金融和其他类型的验证服务，要求我们记录我们的面部特征以进行基于面部的身份验证（事实上，这甚至是 LinkedIn 验证过程的一部分）。

因此，随着此类犯罪继续成为头条新闻，此类方法似乎可能会越来越多地用于视频会议系统。

大多数解决实时视频会议深度伪造的解决方案都假设一个非常静态的场景，其中通信者使用固定的网络摄像头，预计不会有移动或过度的环境或照明变化。智能手机通话没有提供这种“固定”的情况。

相反，SFake 使用多种检测方法来补偿基于智能手机的手持视频会议中的大量视觉变化，并且似乎是第一个通过使用智能手机内置的标准振动设备来解决这个问题的研究项目。

这篇论文的标题是 Shaking the Fake： Detecting Deepfake Videos in Real Time via Active Probes，由新加坡南洋理工大学的两名研究人员撰写。

方法

SFake 被设计为基于云的服务，其中本地应用程序会将数据发送到远程 API 服务进行处理，并将结果发回。

然而，它只有 450mb 的占用空间和优化的方法使其可以完全在设备本身上处理深度伪造检测，以防网络连接可能导致发送的图像过度压缩，从而影响诊断过程。

以这种方式运行“全本地”意味着系统可以直接访问用户的摄像头源，而不会受到通常与视频会议相关的编解码器干扰。

平均分析时间需要一个 4 秒的视频样本，在此期间，用户被要求保持静止，在此期间，SFake 以选择性随机的时间间隔发送“探针”以引起相机振动，而 DeepFaceLive 等系统无法及时响应。

（应该再次强调的是，任何没有在训练数据集中包含模糊内容的攻击者都不太可能产生即使在更有利的情况下也能产生模糊的模型，而且 DeepFaceLive 不能只是将此功能“添加”到在精心策划的数据集上训练的模型）

系统会选择面部的选定区域作为潜在的深度伪造内容区域，不包括眼睛和眉毛（因为该区域的眨眼和其他面部运动超出了模糊检测的范围，也不是理想的指标）。

SFake 的概念架构。

SFake 的概念架构

正如我们在上面的概念架构中看到的那样，在选择适当且不可预测的振动模式、确定最佳焦距并执行面部识别（包括通过 Dlib 组件进行特征点检测，该组件估计标准 68 个面部特征点）后，SFake 从输入面部派生梯度并专注于这些梯度的选定区域。

方差序列是通过按顺序分析所研究的短片中的每一帧来获得的，直到得出平均或“理想”序列，其余部分被忽略。

这提供了提取的特征，这些特征可以用作基于经过训练的数据库（更短暂地）的深度伪造内容概率的量化器。

该系统需要 1920×1080 像素的图像分辨率，并且镜头至少需要 2 倍变焦。该论文指出，Microsoft Teams、Skype、Zoom 和 Tencent Meeting 支持此类分辨率（甚至更高的分辨率）。

大多数智能手机都有前置和自置摄像头，通常其中只有一个具有 SFake 所需的变焦功能;因此，该应用程序将要求通信者使用满足这些要求的两个摄像头中的任何一个。

此处的目标是将用户面部的正确比例放入系统将分析的视频流中。该论文观察到，女性使用移动设备的平均距离为 34.7 厘米，男性为 38.2 厘米（如《验光杂志》报道），并且 SFake 在这些距离上运行得非常好。

由于稳定性是手持视频的一个问题，并且手部移动引起的模糊会阻碍 SFake 的功能，因此研究人员尝试了几种方法来补偿。其中最成功的是计算估计地标的中心点并将其用作“锚点”——实际上是一种算法稳定技术。通过这种方法，获得了 92% 的准确率。

数据和测试

由于没有合适的数据集，研究人员开发了自己的数据集：

“[我们] 使用 8 个不同品牌的智能手机来记录 15 名不同性别和年龄的参与者，以构建我们自己的数据集。我们将智能手机放在距离参与者 20 厘米的手机支架上并放大两次，瞄准参与者的面部以包含他的所有面部特征，同时以不同的模式振动智能手机。

“对于前置摄像头无法变焦的手机，我们使用后置摄像头作为替代品。我们录制了 150 个长视频，每个视频的时长为 20 秒。默认情况下，我们假设检测周期持续 4 秒。我们通过随机化开始时间，从一个长视频中修剪 10 个 4 秒长的剪辑。因此，我们总共得到了 1500 个真实剪辑，每个剪辑时长 4 秒。

尽管 DeepFaceLive（GitHub 链接）是该研究的中心目标，但由于它是目前使用最广泛的开源实时深度伪造系统，研究人员还包括其他四种方法来训练他们的基础检测模型：Hififace;FS-GANV2 的;雷梅克人工智能;和 MobileFaceSwap – 考虑到目标环境，其中最后一个是特别合适的选择。

1500 个伪造的视频用于训练，以及同等数量的真实和未更改的视频。

SFake 针对几种不同的分类器进行了测试，包括 SBI;脸 AF;CnnDetect的;LRNet;DefakeHop 变体;以及免费的在线 deepfake 检测服务 Deepaware。对于这些 deepfake 方法中的每一种，都训练了 1500 个假视频和 1500 个真实视频。

对于基本测试分类器，使用了具有 ReLU 激活函数的简单两层神经网络。随机选择了 1000 个真实视频和 1000 个假视频（尽管这些假视频完全是 DeepFaceLive 示例）。

受试者工作特征曲线下面积（AUC/AUROC）和准确性（ACC）用作指标。

为了进行训练和推理，我们使用了 NVIDIA RTX 3060，测试在 Ubuntu 下运行。测试视频是使用小米红米 10x、小米红米 K50、OPPO Find x6、华为 Nova9、小米 14 Ultra、荣耀 20、谷歌 Pixel 6a 和华为 P60 录制的。

为了与现有的检测方法保持一致，测试是在 PyTorch 中实现的。主要测试结果如下表所示：

SFake 与竞争方法的比较结果。

SFake 与竞争方法的比较结果

作者评论道：

“在所有情况下，SFake 的检测准确率都超过 95%。在这五种深度伪造算法中，除了 Hififace 之外，SFake 与其他六种检测方法相比，SFake 与其他 deepfake 算法的性能更好。由于我们的分类器是使用 DeepFaceLive 生成的假图像进行训练的，因此在检测 DeepFaceLive 时达到了 98.8% 的最高准确率。

“当面对 RemakerAI 生成的假面孔时，其他检测方法表现不佳。我们推测这可能是因为从互联网下载视频时自动压缩，导致图像细节丢失，从而降低检测准确率。但是，这并不影响 SFake 的检测，SFake 在检测 RemakerAI 时达到了 96.8% 的准确率。

作者进一步指出，在对拍摄镜头应用 2 倍变焦的情况下，SFake 是性能最高的系统，因为这会夸大运动，并且是一个极具挑战性的前景。即使在这种情况下，SFake 也能够分别实现 84% 和 83% 的 2.5 倍和 3 倍放大倍数的识别准确率。