多模态有害内容识别模型研究综述
每个图像和文本片段本身看似无害,但结合起来就传达出刻薄的含义 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。这展示了多模态有害内容(如讽刺性 meme)的复杂性,需要模型联合理解图像和文本才能识别其中的隐蔽恶意。*
1. 最新的研究方法与技术
多模态有害内容识别需要融合文本、图像、音频、视频四种模态的信息,以检测诸如仇恨言论、暴力、色情、网络欺凌和虚假信息等有害内容 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。最新研究在融合策略、预训练模型和多模态表示学习方面取得了显著进展:
-
多模态融合策略:传统融合分为早期融合(输入级别融合)、晚期融合(决策级融合)和中间融合等方式。早期融合将不同模态的数据在模型初始层就结合,例如将图像特征和文本一起输入Transformer,使模型从一开始就考虑跨模态交互。而晚期融合则分别训练各模态模型,在最后融合它们的输出(如通过加权或投票) ()。研究发现,中间融合往往效果更好,即模型先在前几层学习各模态的内部特征,在较高层次再引入跨模态交互 ()。此外,一些先进架构引入交叉注意力(Cross-Attention)机制,使不同模态特征在模型中反复交互融合,从而捕获模态间细粒度关联 (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log)。例如,有研究提出非对称融合结构,针对视觉和语言模态信息不对称的问题,在融合时强调保留每个模态特有的信息,再通过对比损失确保模型关注到只有多模态组合才能传达的独特语义 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。
-
预训练的多模态模型:受益于大规模数据的预训练模型为多模态内容识别提供了强大基础。 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)许多视觉-语言预训练模型(如 UNITER、VL-BERT、VILLA 等)在图像-文本对数据上进行了预训练,这些模型通过任务如图文匹配、掩蔽语言建模等学习到了图像和文本的联合表示,在下游有害内容分类任务上表现出色 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。另一个里程碑是CLIP,其采用对比学习的方式在4亿图文对上预训练,将图像和文本嵌入到共同向量空间,对文本描述和图像进行匹配训练 (VidHarm: A Clip Based Dataset for Harmful Content Detection | Request PDF)。CLIP模型能够根据自然语言描述来识别图像内容,在无监督零样本情况下对新类别进行识别,对于有害内容过滤非常有用,例如可以用描述性的有害内容关键词来检索并标记图像 (VidHarm: A Clip Based Dataset for Harmful Content Detection | Request PDF)。这类预训练模型为多模态有害内容识别提供了良好的起点,开发者常通过微调(fine-tuning)使其适应具体的有害内容检测任务。
-
多模态表示学习:为了有效表示和融合多模态信息,研究者设计了多种联合表示学习技术。例如,自监督学习被用于多模态领域:模型在无标注数据上通过重建或对比任务学习跨模态特征。典型做法包括掩蔽语言模型结合图像(在给定图像的情况下预测被遮蔽的文本词)以及图文匹配判别(判断图像和文本是否匹配)等 (Generalized Visual Language Models | Lil'Log)。通过这些预训练任务,模型学会在公共表示空间中捕获图文对应关系和语义信息 (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log)。对于视频-音频等模态,也有类似的表示学习方法,例如将视频帧离散成“视觉词元”,与文本一同输入Transformer进行掩蔽预测,从而学习视频动作与语言的关联表示 (VideoBERT: A Joint Model for Video and Language Representation ...)。此外,如前述的对比学习方法,通过让模型拉近配对的多模态表示、推远不匹配的表示,实现模态对齐。这种表示学习对有害内容检测非常关键,因为某些有害意图只有在多模态组合下才出现,模型需要学会将各模态信息对齐后再做判断 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。最新工作如 AM3 模型更是提出了跨模态对比损失,专门学习仅存在于多模态交互中的“独特知识”,以捕捉那些单一模态下察觉不到但组合后显现的有害含义 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。
总的来说,当前多模态有害内容识别的研究趋势是在融合策略上追求更深的跨模态交互,在预训练上利用海量跨模态数据学习通用表示,并通过对比学习等手段强化模态对齐和互补信息的提取。这些方法为后续的模型架构与训练提供了技术基础,使模型能够更有效地理解复杂的多模态内容。
2. 有害内容识别的主流多模态架构
近年来涌现出多种多模态模型架构,被用于有害内容的自动识别。下面介绍几种具有代表性的架构:
-
CLIP(Contrastive Language-Image Pre-training):CLIP 是 OpenAI 提出的图文双塔模型,由独立的图像编码器和文本编码器组成 (VidHarm: A Clip Based Dataset for Harmful Content Detection | Request PDF)。它通过对比学习使对应的图像和文本描述在向量空间中距离更近,从而实现跨模态对齐 (VidHarm: A Clip Based Dataset for Harmful Content Detection | Request PDF)。CLIP 强大的零样本识别能力可以用于内容审核:不给定任何专项训练,它就能根据一系列有害内容描述(如“暴力场景”或“仇恨符号”)去匹配并标记图像 (CLIP: Contrastive Language-Image Pre-Training (2025) - viso.ai)。由于CLIP在海量开放领域数据上训练,其对各种新颖有害内容也有一定的识别能力,被认为是内容审核的有力工具。例如,有研究表明可以使用CLIP的文本查询能力对特殊领域图像进行内容过滤,而无需为每个类别收集专门的数据 (CLIP: Contrastive Language-Image Pre-Training (2025) - viso.ai)。
-
Flamingo:DeepMind 提出的 Flamingo 是一种强大的视觉-语言模型,能够处理交错的图像/视频和文本输入,并生成文本输出 (Generalized Visual Language Models | Lil'Log)。Flamingo 的架构特点是在一个预训练的大型语言模型(LM)和图像编码器(如 CLIP 的视觉编码器)之间插入了跨模态Transformer映射器 (Generalized Visual Language Models | Lil'Log)。具体来说,Flamingo使用了Perceiver Resampler模块,将任意长的视觉特征(例如多帧视频的特征序列)压缩成固定数量的“视觉令牌”,再通过若干层门控跨注意力将这些视觉令牌融合到语言模型的层中 (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log)。在训练过程中,Flamingo 冻结了原有的视觉编码器和语言模型权重,仅训练连接两者的新层 (Generalized Visual Language Models | Lil'Log)。它在海量的图文、视频文本数据上进行了混合训练,以一个加权的自回归语言建模目标优化 (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log)。Flamingo 能够通过少样本提示(few-shot prompting)在众多视觉问答、图像分类等任务上达到当时的最新水平 (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log)。对于有害内容检测,这种架构的意义在于:它可以方便地将多张图片或视频帧与文本上下文结合,理解复杂的多模态场景。例如,给模型提供几个标注了有害内容的例子作为提示,Flamingo 就可以在不额外训练的情况下对新图片进行有害内容判断,在需要快速适应新领域时非常有用 (Generalized Visual Language Models | Lil'Log)。
-
VisualBERT:这是早期将Transformer应用于视觉-语言任务的代表模型之一 (Generalized Visual Language Models | Lil'Log)。VisualBERT 的做法是将图像解析成若干区域特征(例如利用预训练的对象检测模型提取图像中不同物体的特征向量),然后把这些图像特征向量当作“词”的嵌入,与文本的词嵌入一起输入BERT模型中 (Generalized Visual Language Models | Lil'Log)。通过在Transformer自注意力层中,让图像区域和文本词互相注意,模型可以学到图文对齐的表示。例如图2所示,图像的每个区域特征与文本序列一起形成BERT的输入序列,模型被预训练来同时完成遮蔽文本预测和句子-图像匹配分类等任务 (Generalized Visual Language Models | Lil'Log)。这种单流(single-stream)的Transformer架构实现了深度的早期融合,被证明在视觉问答、图文分类等任务上效果良好 (Generalized Visual Language Models | Lil'Log)。在有害内容识别场景,如前述的“Hateful Memes”数据集,VisualBERT 这类架构能够将meme的图像和文字一起编码,并在顶层的[CLS]标记上做二分类,以判定是否含有仇恨含义 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。
(Generalized Visual Language Models | Lil'Log) 图2:VisualBERT模型结构示意 (Generalized Visual Language Models | Lil'Log)。图像通过卷积网络提取出区域特征$f_1, f_2, ..., f_k$,与文本序列(包括 [CLS] 和 [SEP] 标记以及词向量$e_1,...,e_n$)拼接后,一同输入Transformer。模型通过预训练学习图文对齐的表示,例如:Objective1(遮蔽语言模型)随机遮蔽文本词$e'_N$让模型预测它,Objective2(句子-图像分类)要求模型区分真实图文对与乱配对 (Generalized Visual Language Models | Lil'Log)。
- VideoBERT:这是Google提出的一种视频与语言联合建模架构 (VideoBERT: A Joint Model for Video and Language Representation ...)。VideoBERT 的核心思想是将视频转化为类似文本序列的表示,再与文本一起输入BERT进行预训练。具体而言,视频帧被提取特征后进行向量量化,离散成“视觉词元”(visual token)序列,同时视频配套的文本(如解说字幕或语音识别转录)作为语言序列 (VideoBERT: A Joint Model for Video and Language Representation ...)。模型通过联合掩蔽预测来学习视频和文本的联合分布表示。例如,对视觉词和文本词一起做遮蔽Language Modeling,让模型既要预测缺失的文本词,也要预测缺失的视觉词 (VideoBERT: A Joint Model for Video and Language Representation ...)。VideoBERT 在无监督条件下学习到了高层次的视觉概念,与语言的对应关系,可用于下游如开放域的视频动作分类、视频字幕生成等 ([PDF] VideoBERT: A Joint Model for Video and Language Representation ...)。对于有害内容识别,这类模型可以用于分析视频内容及其语音/字幕。例如应用VideoBERT的预训练表示,然后在带标注的有害视频数据上微调,以检测视频中是否出现暴力画面或仇恨言论。这种方法的优点是在于模型已掌握一定的视觉-语言常识,在小规模有害视频数据上适配时会更高效。
除了上述架构,业界还有许多其他多模态模型用于内容审核。例如,Facebook的研究者在“Hateful Memes”挑战赛中尝试了ERNIE-ViL、UNITER、OSCAR、LXMERT等多种视觉语言Transformer架构,并通过集成进一步提高了性能 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。总体来看,主流多模态架构大多建立在Transformer或双塔模型基础上,通过不同的模态融合机制实现跨模态信息的交互。这些模型为多模态有害内容的自动识别提供了有力工具,实践中常根据任务需求选用或改进相应架构,如偏重跨模态对齐(CLIP)、少样本学习(Flamingo)或深度融合(VisualBERT)等。
3. 用于有害内容识别的公开多模态数据集
高质量的多模态数据集是训练有害内容识别模型的基础。目前公开的相关数据集涵盖图文、音频、视频等不同组合,下面列举主要的几个(并注明模态组成和内容标签):
-
Facebook Hateful Memes ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality):包含超过1万个meme(图像+叠加文字),每条样本提供图像和其上的文字(已提取为文本)。标签为**“仇恨”或“非仇恨”**二分类。这一数据集的特别之处在于,很多meme的图像或文字单看都无恶意,但组合后传达出仇恨含义 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。例如图1中的示例,每张图配的文字本身无害,但整体是在讽刺攻击某人 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。该数据集旨在推动多模态方法的发展,因为纯文本或纯图像模型难以识别这些隐蔽的有害内容。
-
MMHS150K (Multimodal Hate Speech) ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality):由Twitter帖子构成的大规模多模态仇恨言论数据集。共包含15万条推文,每条含有图像和文本(推文内容),并标注是否包含仇恨言论 (MMHS150K - Dataset - LDM)。涵盖的仇恨主题包括种族主义、性别歧视等 (MMHS150K - Dataset - LDM)。由于数据规模大,MMHS150K常被用作训练深度模型的语料。一些研究利用它评估模型在开放环境下检测仇恨内容的能力 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。
-
Fakeddit ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality):一个多模态虚假新闻/不实信息数据集,来自Reddit ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。它包含超过1百万条帖子,模态包括帖子文本(标题或内容)以及可能附带的图像 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。每条数据带有不同细粒度级别的标签:二分类(真或假)、三分类(真、假、夸张)以及六分类(更详细地划分假消息类型,如讽刺、错误信息等) ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。这个数据集有助于训练模型识别图文结合下的不实信息——比如图片是真的但配的描述是假的情况。Fakeddit 的规模和多样性使其成为多模态假新闻检测的基准之一 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。
-
VHD11K (Visual Harmful Dataset 11K) (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition):这是2024年提出的视觉有害内容数据集,涵盖图像和视频两种模态 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。该数据集中包含10,000张图片和1,000段视频,分属10种有害内容类别 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。这些类别覆盖了有害概念的全谱系,包括武器、毒品、血腥、色情等“明显有害”类别,也包含更隐蔽或上下文相关的有害内容定义 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。值得一提的是,VHD11K不仅收集了真实世界的有害内容,还利用4种生成模型合成了一部分数据,以扩大多样性 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。标注方面,它采用了一种新颖的多代理视觉问答标注框架:让多个预训练视觉语言模型就每个图像/视频是否有害进行“辩论”,再综合其结果,形成标签 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。实验表明这种AI辅助标注与人类标注高度一致 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。VHD11K弥补了以往数据集只关注静态图像、定义单一的不足,成为目前视觉有害内容识别领域较全面的基准数据。
-
HateXplain ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...):由Mathew等人发布的首个支持可解释性的仇恨言论数据集。它收集了社交媒体上的多模态仇恨帖子,每条数据包括文本和有时包含的图像(例如带图的推文),标注了三分类标签(仇恨、攻击性、正常)以及更细的被攻击目标类别 (Towards Interpretable Hate Speech Detection using Large ... - arXiv)。独特之处在于,标注者提供了人为解释:在文本中标出触发他们判断的关键词或短语(rationale),在图像中标出关键区域 ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...)。这些“解释性标注”可用于训练可解释的多模态模型,让模型不但给出判断,还能指出依据,比如哪句话或哪部分图像体现出仇恨 ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...)。HateXplain 有助于研究模型的决策依据,提高模型透明度。
-
音频有害内容数据:针对有声语言(如语音中的仇恨言论)的数据集一直比较缺乏。由于现实中获取大规模标注的仇恨语音数据不易,研究者尝试了合成数据的途径。如An等人在2024年构建了一个合成音频仇恨语料库,使用文本到语音(TTS)技术将已有的文本仇恨言论数据转换为语音,以用于训练模型 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。他们还收集了一小部分真人语音样本用于测试模型泛化 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。另一些公开语音数据集(如Google的AudioSet)虽然不是专门为有害内容设计,但包含某些相关类别标签(例如枪声、尖叫可被视为暴力场景音频标志)。总体而言,音频模态的有害内容检测仍在起步阶段,数据集匮乏,需要借助合成数据或跨模态转化(如语音转文字后利用文本数据集)来进行研究 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。
-
视频有害内容数据:视频通常涉及图像和音频的组合,因此针对视频的有害内容数据集往往更复杂。一些早期研究使用了如MediaEval赛事中的数据(包含电影中带有暴力片段的标注视频,用于“暴力镜头检测”任务)以及YouTube上的不良内容片段集合等。然而此类数据集往往规模有限或未完全公开。VHD11K是当前少有的公开包含视频的有害内容数据集 (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition)。另外,一些面向特定领域的集合也值得注意,例如用于检测极端主义宣传视频的内部数据集、含未成年人不当内容的视频集等。但这些由于敏感性,通常未公开发布,只在论文中报告结果。因此,视频多模态有害内容检测领域仍缺乏统一的大规模 benchmark,需要业界共同积累数据。
以上数据集为多模态有害内容识别模型的训练和评估提供了基础。其中“Hateful Memes”因为任务明确、难度高,已成为图文有害内容检测的常用基准 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality);MMHS150K等则提供了更大规模的训练语料;Fakeddit拓展了任务类型到虚假信息领域;VHD11K则首次覆盖图像和视频的多类别有害内容,为今后的研究奠定了新的基准。研究者在选择数据集时,应根据任务性质和模态需求挑选合适的数据,并注意不同数据集标签标准的差异。
4. 训练流程中的关键技术
构建一个有效的多模态有害内容识别模型,不仅需要好的模型架构和数据,还需要在训练过程中应用一些关键技术来提升模型性能和鲁棒性。以下几种是常用且重要的策略:
-
对抗训练:为提高模型抵御对抗性攻击或隐藏式有害内容的能力,常采用对抗训练(Adversarial Training)。具体做法包括:在训练时对输入进行细微扰动(如对图像加入微弱噪声,或对文本替换同义词/错拼来模拟隐晦的辱骂)使模型在困难样本上训练,从而增强稳健性。此外,针对多模态任务,对抗训练还能用于模态信息掩蔽:如随机地遮盖掉图像或文本模态,迫使模型学会仅凭单一模态也能识别有害线索。这可防止模型过度依赖某一模态的“捷径”特征,提高对跨模态组合意义的敏感度 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。例如,在meme识别中,可对部分训练样本只提供图像或只提供文本,让模型学习在模态缺失时仍尽可能判断,同时通过对比损失引导模型辨别完整多模态信息与缺失单模态信息的差异 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。对抗训练总体上能提升模型对有害内容的鲁棒性,避免模型被恶意用户稍作修改的内容所欺骗。
-
知识蒸馏:知识蒸馏(Knowledge Distillation)在多模态模型训练中应用日益广泛 (Multiscale knowledge distillation with attention based fusion ... - Nature)。其思想是利用一个性能较强但复杂度高的“教师”模型,来指导一个较小“学生”模型的训练,使后者取得接近教师的性能。对于多模态有害内容检测,知识蒸馏有几种用法:(1) 将大型预训练多模态模型(如CLIP或Flamingo微调后的模型)作为教师,小模型作为学生,在大量无标注的多模态数据上让学生去模仿教师对每个输入的软预测分布,从而习得教师的跨模态知识;(2) 跨模态蒸馏:让单一模态模型学习多模态模型的输出。例如训练一个纯文本模型去逼近多模态模型对同一输入的判断,以备在没有图像时仍可部分替代检测。这在某些实际场景下很有价值(如传输带宽限制时,只能用文本分析)。研究表明,当完整多模态数据难以获取或推理成本受限时,知识蒸馏能有效提升模型在弱模态条件下的性能 (Multiscale knowledge distillation with attention based fusion ... - Nature)。另外,在模型集成的场景下,也可以用多个教师(各自擅长不同模态或子任务)的平均输出指导单一学生模型,凝聚多方面知识。总之,知识蒸馏通过知识迁移达到模型压缩和性能提升的双重目标,在工业界部署大规模内容审核模型时尤为实用。
-
多任务学习:多任务学习(Multi-task Learning)旨在利用相关任务的训练信号来共同提升模型泛化能力。在多模态有害内容识别中,往往可以设计或利用若干辅助任务与主任务一起训练模型。例如:(1) 联合训练多种有害类别:与其仅训练二分类“有害/无害”,可以增加分类细项(仇恨、色情、暴力、欺凌等),让模型在训练中学习区分不同类型的不良内容。这实际上将任务变为多分类或多标签问题,需要模型提取更细粒度的特征,从而提升对每类的辨别能力。(2) 融合不同数据集训练:如果有文本单模态的辱骂检测数据、图像单模态的暴力检测数据,以及图文多模态的meme数据等,可以将它们混合进行训练。一种做法是预训练阶段混合多模态数据和单模态数据,如AM3模型将图文的meme数据和纯文本的有害评论数据一起训练,通过统一的Transformer架构处理 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。这样模型既学习了跨模态融合,又从纯文本数据中获取了领域知识(如大量的脏话样本),实现知识互补 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。实验表明,这种混合训练能提高下游有害内容检测的效果 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。(3) 辅助任务训练:除了主要的有害内容分类任务外,可以增加辅助任务,如情感分析、话题识别、图像场景分类等。这些辅助任务共享模型的部分参数,促使模型学习更通用的特征。例如,检测仇恨言论的模型可以通过同时训练预测句子的情绪或粗俗程度来获得更丰富的语义表示。又如,检测暴恐视频的模型可以增加一个检测武器或识别人群密度的辅助输出,帮助主任务聚焦相关细节。多任务学习需要注意任务权重的平衡和兼容性,但如果设计得当,可以明显提升模型对复杂输入的理解能力,并在一个模型中完成多种功能,方便部署。
-
数据增强与校准:在训练过程中,针对有害内容检测的特殊挑战,也常引入其他技术。例如,数据增强通过对训练样本的变换来扩大数据多样性,如对图像进行翻转、模糊处理,或对文本进行同义词替换、随机插入拼写错误等,以模拟真实用户可能发布的变体有害内容。这样训练出来的模型对内容的表层变化更不敏感。不均衡处理也是重要环节,因有害样本通常相对少,如果直接训练模型可能倾向于判为无害。解决方法包括欠采样多数类、过采样少数类,或使用损失函数调权(如对有害类给予更大权重)。同时,可借助对抗验证策略监控模型是否过度依赖某些捷径特征:例如将明显的攻击词在验证集中掩蔽,检查模型性能是否骤降,从而发现模型是否过分依赖文本脏字而忽略图像信息,进而在训练中进行针对性调整。
综上所述,训练一个多模态有害内容识别模型需要综合运用以上技术。对抗训练保障模型稳健性,知识蒸馏和多任务学习提高模型高效性和泛化能力,而数据增强和特殊策略则贴近实际数据分布、纠正偏差。这些技术的合理组合,能够使模型更准确地捕捉多模态内容中的有害信号,并在复杂多变的互联网内容中保持可靠的检测性能。
5. 针对不同模态的预处理方法和标注策略
要充分发挥多模态模型的作用,针对文本、图像、音频、视频这几种模态,需要在数据预处理和标注环节做好准备工作。每种模态都有其特定的处理技巧和标注难点:
-
文本模态:预处理文本时,需考虑社交媒体上的非规范语言现象,包括表情符号、网络俚语、错别字等 ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...)。常见步骤有:统一编码和大小写,去除无意义的特殊符号,扩展或标准化缩写和俚语(例如将 “u” 转成 “you”),以及保留关键信息如表情符号(emoji)因为它们可能传递讽刺或攻击含义 ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...)。对有害内容来说,敏感词汇表的维护也很重要,可在预处理时标记或替换常见侮辱词以降低模型对表层词汇的偏见。此外,若文本来自图像OCR提取,还应进行拼写纠正和版面顺序重组,以还原正确句子。在标注策略上,文本的有害内容标注需要清晰的指导:标注者往往参考内容的语境和语气来判断是否构成仇恨或骚扰。因此,提供统一的标注指南(定义仇恨言论、攻击性语言的标准)以及多标注者投票机制以降低主观偏差很必要。很多数据集会采用三人以上标注同一文本并取多数意见,以提高标注质量和一致性。另外,为了支持解释,一些数据集要求标注者标出触发判断的关键词(如HateXplain中的rationale标注) ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...)。这虽然增加了工作量,但对于训练可解释模型和分析模型错误是有益的。
-
图像模态:图像预处理首先涉及尺寸和格式的规范,如调整分辨率、裁剪掉无关边缘、标准化颜色通道等,以适配模型输入要求(例如将图片缩放到224x224像素以喂入卷积神经网络)。对于社交媒体图像,光学字符识别(OCR)是一项关键预处理,因为许多有害内容以文本叠加形式出现(如meme图片)。提取出图中的文字后,可以与纯文本模态结合分析 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。在Facebook的有害meme检测方案中,曾有获胜团队采取了先用OCR提取meme上的文字,然后将图像中的文字涂抹抹除的做法,再分别将文字和“干净”图像输入模型 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。这样做的目的是避免图像模型反复看到相同的文字,从而将注意力更多放在图像本身的线索上,例如背景是否存在暗示性符号等。这体现了图像预处理与文本预处理相配合的重要性。除此之外,针对图像内容本身,可选的预处理包括人脸遮挡/模糊(在需要保护隐私时),以及利用预训练模型提取图像标签或物体检测框作为辅助信息 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。例如,在有害内容检测中,检测出图像中是否有武器、血迹、儿童等物体,作为附加特征输入模型,可以提高模型对场景的理解 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。标注图像有害内容时,由于图片可能包含隐晦的信息,通常也需要多名标注者讨论达成共识。例如,带有某些手势的照片是否算仇恨符号,有时需要结合社会文化背景解释。标注者应被培训识别各种常见的有害图像符号(如极端组织旗帜、帮派手势、种族歧视性漫画元素等)。对于图文组合的标注,则需要标注者同时看图和读文字,以判断整体含义,如Facebook Hateful Memes就是提供图和提取文本一起供标注 ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality)。标注者可能还需要提供局部标注,比如在图像上框出有害符号的位置,用于训练定位能力。
-
音频模态:音频(主要是语音)在预处理时通常涉及语音识别和声学特征提取两种路径。如果关注语音中的言语内容(例如检测仇恨言论、辱骂),一个可靠的方法是先用自动语音识别(ASR)将音频转录成文本,再交由文本分析模型进行有害内容识别 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。这种级联方法能充分利用成熟的文本模型优势,但缺点是ASR错误可能影响下游判断,而且无法利用语音语调等信息 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。另一条路径是端到端音频处理:直接把音频的声学特征输入模型(如卷积神经网络或Transformer网络处理梅尔频谱图),由模型自己学习判断音频中是否存在有害内容 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。有研究比较了这两种方案,发现端到端模型有时可以超越级联方法,特别是在需要精确定位某句话在哪个时间片段是有害时 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。预处理音频时,常先进行静音切除和噪声过滤,提高语音内容清晰度。如果使用端到端方法,会将音频转换为声谱图等张量表示并归一化。当音频中包含非语音信号(尖叫、枪声等)也可能是有害事件的指标时,需要在预处理时保留这些信息,或使用专门的声音事件检测模型附加标记这些声响。音频的标注策略方面,一般需要标注者听音频或查看文本转录,判断其中是否有有害内容。如果需要精确到时间段(例如哪一句话、哪一时间点出现了侮辱),则标注更为繁琐,可能采用工具将音频时间轴可视化,让标注者选定区间并加标签 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。由于纯靠听可能主观,标注流程往往至少双人复核。此外,语音有害内容(如仇恨言论)的判定有时需结合说话者语气。标注者需要体会说话的语调、语境:比如一句话用平和语气说可能无恶意,但用嘲讽语调说就是骚扰。这使得语音有害内容标注更加具有挑战,需要标注者具有相关经验,并严格按照标准操作。
-
视频模态:视频的预处理通常将其分解为帧序列(图像)和音频轨道。因此视频可被视为图像+音频的组合,分别进行上述相应预处理:提取关键帧做图像分析、对音频做语音识别或声音事件检测等。实践中,为降低数据量,常以每秒N帧(如1帧或5帧)采样视频用于视觉分析,同时全程处理音频,以免漏掉语言上的违规内容。对于带字幕或屏幕文字的视频,还应使用OCR提取字幕和画面中文字,以捕获例如视频中出现的侮辱性弹幕、标题等。在多模态模型中,可以将视频视作一系列图像帧和对应文本(字幕或语音转录)的序列输入。例如,Flamingo模型就设计了掩码机制,可处理文本与多张图像交错的输入,对视频很有帮助 (Generalized Visual Language Models | Lil'Log)。由于视频数据量大,有时在预处理阶段会提取特征而非保留原始帧,例如用预训练的图像模型提取每帧的视觉特征向量,从而将视频表示为特征序列,提高处理效率。视频标注是极具挑战的:标注者需观看完整视频才能判断其中是否含有有害内容,因为有害片段可能很短暂。标注时可以采用时间轴标注:如果视频中只有部分片段违规,要求标注者标记起止时间和类型(例如“[00:01:30 - 00:01:45]出现暴力打斗”)。这样的数据可用于训练模型做有害片段检测而不仅是整体分类 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。然而大量标注这样的数据代价很高。一种可行的方法是在粗标视频级有害/无害的基础上,借助模型或工具进行细定位,例如用已经训练的音频/图像模型扫描视频以发现可疑帧,然后人工确认。这种人机结合的标注能提高效率和标注质量。此外,标注视频时需要考虑上下文:比如一些动画片段单看可能暴力,但在搞笑语境下是否算有害?标注标准需要明确说明这类情形如何处理,以保证数据一致性。
综上,不同模态的数据在送入模型之前,需要针对各自特性进行充分的清洗、转换与特征提取。同时,精心设计的标注策略可以大幅提升训练数据的有效信息量:不仅获得正确的标签,还可以提供定位或解释信息。多模态有害内容识别依赖这些高质量的数据支撑——只有当文本、图像、音频、视频的信息都被模型正确地读入和理解,才能让后续识别算法发挥最大效用。
6. 模型评估指标与实验基准
评价多模态有害内容识别模型的性能,需要使用合理的指标和基准测试方法。通常考虑以下几个方面:
-
分类性能指标:大部分有害内容检测被建模为分类问题(如二分类有害/无害或多类别分类)。常用指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值。在类别不平衡的情况下(有害样本往往远少于正常样本),宏平均F1(Macro-F1)或加权F1比单纯准确率更能反映模型对少数类的性能。比如,在仇恨言论检测中,如果模型把所有样本都判为无害,准确率可能很高(因为绝大多数内容确实无害),但召回率和F1会很低。因此报告精确率/召回率/F1对于体现模型对有害类的检出能力至关重要。
-
ROC-AUC 曲线:在二分类任务中,很多研究会引用ROC-AUC(接收者操作特征曲线下的面积)作为评估指标 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。AUC反映模型在各种阈值下综合区分正负类的能力。以Facebook的Hateful Memes挑战为例,主办方将AUC作为排行榜指标,因为它可以权衡模型在不同误报率下的表现 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。顶尖参赛模型在未调阈值情况下达到约0.84的AUC(对应约75%的准确率),显著高于基线模型的表现 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。AUC的优势在于对类别不平衡不敏感,并提供了模型整体判别能力的度量,因而常被用于学术报告。
-
平均精度/AP:对于需要返回一个有害内容排序或检测的任务,常用平均精度(Average Precision, AP)或者mAP(mean AP)。例如在图片多标签有害内容分类中,模型需要给每个类别输出一个概率评分,则可以计算每类的PR曲线下面积(AP),再平均得到mAP。这类指标尤其适用于多标签问题(一张图片可能既涉暴力又涉色情)。mAP能综合考虑模型在各类别上的精确和召回表现,是衡量模型整体性能的严格指标。如果任务需要在一批内容中检索出有害项(如从10000条帖子中找出最有可能有问题的100条),则Precision@K(前K个结果的准确率)也可作为参考指标,用于评估模型在有限人工审核资源下的有效性。
-
定位与分割指标:当任务需要定位有害内容发生的位置(例如标注视频的有害片段,或标出图像中有害元素的区域),则引入定位类指标。例如,音频仇恨言论检测若要求输出时间段,可以使用IoU(交并比)来评估预测的时间区间与真实区间的重合程度 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。Jinmyeong An等人的研究中,就使用了音频帧级IoU来评价模型 pinpoint 仇恨语句时间段的准确性 ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection)。对于图像区域检测,可使用目标检测常用的mAP@IoU=0.5等指标。需要注意的是,定位任务通常比分类难度高,评估时也应分别考虑定位正确但分类错误、分类对但定位偏移等不同类型的误差,以获得对模型的深入了解。
-
人类评估与错误分析:在有害内容检测领域,定量指标之余,常常还结合定性的人工评估。因为有些误分类案例可能涉及主观判断。研究人员有时会请人工检查模型分类错误的样本,以评估错误的严重程度(比如将有害判为无害通常比将无害判为有害更严重)。Facebook挑战赛的报告指出,模型仍然会错判一些需要跨常识理解的meme (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)。因此,通过人为分析模型在测试集上的错误,可以发现模型的弱点(例如是否不擅长识别讽刺,或对某类人群的辱骂识别不充分),从而为改进提供指引。
-
基准测试和公开排行榜:为推动多模态有害内容识别的发展,近年来出现了若干基准任务和竞赛。除了前述的Facebook Hateful Memes挑战,学术界还有Workshop on Multimodal Content Moderation等提供公开数据和评测。 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs)通常,一个良好的基准包括明确的问题定义、足够规模和代表性的测试集,以及SOTA模型的可比较结果。研究人员应在这些公开基准上报告模型性能,以便与已有方法客观比较。比如,当前Hateful Memes数据集上SOTA模型的Accuracy约75%、AUROC约0.84 (Meet the winners of the Hateful Memes Challenge - DrivenData Labs),这可以作为新模型的对比目标。如果提出了新的多模态任务(如多模态网络欺凌检测),也应尽可能开放数据集并设置评测协议,鼓励社区参与改进。交叉验证和显著性检验也应应用于模型评估,以确保结果稳健可靠。
在实验报告中,最好同时提供多个指标以全面反映模型性能。例如,给出精确率、召回率、F1(或AUC)来说明模型在不同成本权衡下的表现。如果是多类别问题,则报告每类的指标和总体的宏平均。此外,注明模型在验证集上的调参过程、防止过拟合的措施(如早停、集成等)也属于良好的评测规范。通过严谨的评估,我们才能确定模型确实有效地识别了多模态有害内容,并找出可以进一步提升的方向。模型在这些指标和基准上的表现,将是衡量其实际部署价值的重要依据。
参考文献:
-
Yuan, J. et al. (2023). Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).
-
Kiela, D. et al. (2020). The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) (Meet the winners of the Hateful Memes Challenge - DrivenData Labs).
-
Jain, S. et al. (2020). Multimodal Hate Speech Detection via Visual and Textual Fusion on Social Media ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality) (MMHS150K - Dataset - LDM).
-
Nakamura, K. et al. (2019). Fakeddit: A New Multimodal Benchmark Dataset for Fine-grained Fake News Detection ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).
-
Alayrac, J. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log).
-
Li, L. et al. (2019). VisualBERT: A Simple and Performant Baseline for Vision & Language (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log).
-
Sun, C. et al. (2019). VideoBERT: A Joint Model for Video and Language Representation (VideoBERT: A Joint Model for Video and Language Representation ...).
-
An, J. et al. (2024). Explainable Audio Hate Speech Detection with Cascaded vs End-to-End Approaches ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection) ([2408.06065] An Investigation Into Explainable Audio Hate Speech Detection).
-
Shrestha, P. et al. (2020). MMHS150K: Multimodal Tweets for Hate Speech Detection ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).
-
Chiang, C. et al. (2024). VHD11K: A Scalable Multimodal Dataset for Visual Harmfulness Recognition (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition) (T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition).
-
Douwe, K. et al. (2020). Detecting Hate Speech in Multimodal Memes (Meet the winners of the Hateful Memes Challenge - DrivenData Labs).
-
Radford, A. et al. (2021). CLIP: Learning Transferable Visual Models from Natural Language Supervision (VidHarm: A Clip Based Dataset for Harmful Content Detection | Request PDF).
-
Ma, M. et al. (2022). Are Multimodal Transformers Robust to Missing Modality? CVPR ([2305.10547] Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality).
-
Mathew, B. et al. (2021). HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection ([PDF] HateBRXplain: A Benchmark Dataset with Human-Annotated ...).
-
Jigsaw Conversation AI. (2019). Toxic Comment Classification Challenge (Kaggle) – Multilingual Abuse Dataset (kirti1545/HateSpeech_Dataset: Multimodal (Text + Audio) Hate ...).
-
OpenAI. (2021). CLIP for Zero-Shot Content Moderation (CLIP: Contrastive Language-Image Pre-Training (2025) - viso.ai).
-
DeepMind Blog. (2022). Flamingo VLM – Tackling multiple tasks with a single model (Generalized Visual Language Models | Lil'Log) (Generalized Visual Language Models | Lil'Log).
-
Unitary AI Blog. (2023). How Multimodal AI supports content classification (How Multimodal AI Supports Content Classification | Unitary Blog).
-
DrivenData Labs. (2021). Hateful Memes competition report – winning approaches (Meet the winners of the Hateful Memes Challenge - DrivenData Labs).
-
Li, S. & Tang, H. (2024). Multimodal Alignment and Fusion: A Survey () ().