多模态有害内容识别模型研究综述

每个图像和文本片段本身看似无害,但结合起来就传达出刻薄的含义 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。这展示了多模态有害内容(如讽刺性 meme)的复杂性,需要模型联合理解图像和文本才能识别其中的隐蔽恶意。*

1. 最新的研究方法与技术

多模态有害内容识别需要融合文本、图像、音频、视频四种模态的信息,以检测诸如仇恨言论、暴力、色情、网络欺凌和虚假信息等有害内容 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。最新研究在融合策略、预训练模型和多模态表示学习方面取得了显著进展:

总的来说,当前多模态有害内容识别的研究趋势是在融合策略上追求更深的跨模态交互,在预训练上利用海量跨模态数据学习通用表示,并通过对比学习等手段强化模态对齐和互补信息的提取。这些方法为后续的模型架构与训练提供了技术基础,使模型能够更有效地理解复杂的多模态内容。

2. 有害内容识别的主流多模态架构

近年来涌现出多种多模态模型架构,被用于有害内容的自动识别。下面介绍几种具有代表性的架构:

(Generalized Visual Language Models | Lil'Log) 图2:VisualBERT模型结构示意 (Generalized Visual Language Models | Lil'Log)。图像通过卷积网络提取出区域特征$f_1, f_2, ..., f_k$,与文本序列(包括 [CLS] 和 [SEP] 标记以及词向量$e_1,...,e_n$)拼接后,一同输入Transformer。模型通过预训练学习图文对齐的表示,例如:Objective1(遮蔽语言模型)随机遮蔽文本词$e'_N$让模型预测它,Objective2(句子-图像分类)要求模型区分真实图文对与乱配对 (Generalized Visual Language Models | Lil'Log)。

除了上述架构,业界还有许多其他多模态模型用于内容审核。例如,Facebook的研究者在“Hateful Memes”挑战赛中尝试了ERNIE-ViL、UNITER、OSCAR、LXMERT等多种视觉语言Transformer架构,并通过集成进一步提高了性能 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。总体来看,主流多模态架构大多建立在Transformer或双塔模型基础上,通过不同的模态融合机制实现跨模态信息的交互。这些模型为多模态有害内容的自动识别提供了有力工具,实践中常根据任务需求选用或改进相应架构,如偏重跨模态对齐(CLIP)、少样本学习(Flamingo)或深度融合(VisualBERT)等。

3. 用于有害内容识别的公开多模态数据集

高质量的多模态数据集是训练有害内容识别模型的基础。目前公开的相关数据集涵盖图文、音频、视频等不同组合,下面列举主要的几个(并注明模态组成和内容标签):

以上数据集为多模态有害内容识别模型的训练和评估提供了基础。其中“Hateful Memes”因为任务明确、难度高,已成为图文有害内容检测的常用基准 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality);MMHS150K等则提供了更大规模的训练语料;Fakeddit拓展了任务类型到虚假信息领域;VHD11K则首次覆盖图像和视频的多类别有害内容,为今后的研究奠定了新的基准。研究者在选择数据集时,应根据任务性质和模态需求挑选合适的数据,并注意不同数据集标签标准的差异。

4. 训练流程中的关键技术

构建一个有效的多模态有害内容识别模型,不仅需要好的模型架构和数据,还需要在训练过程中应用一些关键技术来提升模型性能和鲁棒性。以下几种是常用且重要的策略:

综上所述,训练一个多模态有害内容识别模型需要综合运用以上技术。对抗训练保障模型稳健性,知识蒸馏和多任务学习提高模型高效性和泛化能力,而数据增强和特殊策略则贴近实际数据分布、纠正偏差。这些技术的合理组合,能够使模型更准确地捕捉多模态内容中的有害信号,并在复杂多变的互联网内容中保持可靠的检测性能。

5. 针对不同模态的预处理方法和标注策略

要充分发挥多模态模型的作用,针对文本、图像、音频、视频这几种模态,需要在数据预处理和标注环节做好准备工作。每种模态都有其特定的处理技巧和标注难点:

综上,不同模态的数据在送入模型之前,需要针对各自特性进行充分的清洗、转换与特征提取。同时,精心设计的标注策略可以大幅提升训练数据的有效信息量:不仅获得正确的标签,还可以提供定位或解释信息。多模态有害内容识别依赖这些高质量的数据支撑——只有当文本、图像、音频、视频的信息都被模型正确地读入和理解,才能让后续识别算法发挥最大效用。

6. 模型评估指标与实验基准

评价多模态有害内容识别模型的性能,需要使用合理的指标和基准测试方法。通常考虑以下几个方面:

在实验报告中,最好同时提供多个指标以全面反映模型性能。例如,给出精确率、召回率、F1(或AUC)来说明模型在不同成本权衡下的表现。如果是多类别问题,则报告每类的指标和总体的宏平均。此外,注明模型在验证集上的调参过程、防止过拟合的措施(如早停、集成等)也属于良好的评测规范。通过严谨的评估,我们才能确定模型确实有效地识别了多模态有害内容,并找出可以进一步提升的方向。模型在这些指标和基准上的表现,将是衡量其实际部署价值的重要依据。

参考文献:

  1. Yuan, J. et al. (2023). Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).

  2. Kiela, D. et al. (2020). The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) (Meet the winners of the Hateful Memes Challenge - DrivenData Labs).

  3. Jain, S. et al. (2020). Multimodal Hate Speech Detection via Visual and Textual Fusion on Social Media ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) (MMHS150K - Dataset - LDM).

  4. Nakamura, K. et al. (2019). Fakeddit: A New Multimodal Benchmark Dataset for Fine-grained Fake News Detection ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).

  5. Alayrac, J. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log).

  6. Li, L. et al. (2019). VisualBERT: A Simple and Performant Baseline for Vision & Language (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log).

  7. Sun, C. et al. (2019). VideoBERT: A Joint Model for Video and Language Representation (VideoBERT: A Joint Model for Video and Language Representation ...).

  8. An, J. et al. (2024). Explainable Audio Hate Speech Detection with Cascaded vs End-to-End Approaches ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection) ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection).

  9. Shrestha, P. et al. (2020). MMHS150K: Multimodal Tweets for Hate Speech Detection ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).

  10. Chiang, C. et al. (2024). VHD11K: A Scalable Multimodal Dataset for Visual Harmfulness Recognition (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition) (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition).

  11. Douwe, K. et al. (2020). Detecting Hate Speech in Multimodal Memes (Meet the winners of the Hateful Memes Challenge - DrivenData Labs).

  12. Radford, A. et al. (2021). CLIP: Learning Transferable Visual Models from Natural Language Supervision (VidHarm: A Clip Based Dataset for Harmful Content Detection | Request PDF).

  13. Ma, M. et al. (2022). Are Multimodal Transformers Robust to Missing Modality? CVPR ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).

  14. Mathew, B. et al. (2021). HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...).

  15. Jigsaw Conversation AI. (2019). Toxic Comment Classification Challenge (Kaggle) – Multilingual Abuse Dataset (kirti1545/HateSpeech_Dataset: Multimodal (Text + Audio) Hate ...).

  16. OpenAI. (2021). CLIP for Zero-Shot Content Moderation (CLIP: Contrastive Language-Image Pre-Training (2025) - viso.ai).

  17. DeepMind Blog. (2022). Flamingo VLM – Tackling multiple tasks with a single model (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log).

  18. Unitary AI Blog. (2023). How Multimodal AI supports content classification (How Multimodal AI Supports Content Classification | Unitary Blog).

  19. DrivenData Labs. (2021). Hateful Memes competition report – winning approaches (Meet the winners of the Hateful Memes Challenge - DrivenData Labs).

  20. Li, S. & Tang, H. (2024). Multimodal Alignment and Fusion: A Survey () ().