AAAI 往年腾讯优图14篇论文入选，含语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域

展全思梦 2025-12-17 15:03:27

原标题:AAAI 2022腾讯优图14篇论文入选，包括语义分割、图像着色、人脸安全、弱监管目标定位、场景文本识别等前沿领域。

12月1日，国际顶级人工智能大会AAAI 2022论文受理结果揭晓！全球共提交论文9215篇，接受率15%。人工智能促进协会是由国际人工智能促进协会主办的年度会议。它是人工智能领域历史最悠久、覆盖面最广的顶级国际学术会议之一。也是中国计算机联合会(CCF)推荐的甲级国际学术会议。

共收录腾讯优图实验室论文14篇，涵盖语义分割、图像着色、人脸安全、弱监管目标定位、场景文本识别等前沿领域。

以下是一些精选的论文:

视频异常检测双向预测网络的综合正则化方法

双向预测网络中用于视频异常检测的综合正则化

视频异常检测任务旨在通过学习正常视频的特征，自动识别视频中的异常目标或行为。以前的方法倾向于使用简单的重建或预测约束，这将导致从正常视频中学习的特征不足。在此基础上，我们提出了一种具有三个一致性约束的双向架构，可以从像素级、跨模态级和时间序列级对预测任务进行完全正则化。首先，我们提出了预测的一致性，它考虑了前后时间序列中运动的对称性，进而保证了像素级的高保真外观和运动预测。其次，我们提出了相关性一致性，它考虑了不同模式之间的相关性，用一种模式来正则化另一种模式的预测。最后，我们提出了时序一致性，它利用视频序列之间的关系来保证预测网络生成的帧具有一致的时序。在推理阶段，异常帧的模式无法预测，导致预测误差的置信度较高。实验结果表明，该方法的有效性超过了许多先进的异常检测器，并在UCSD Ped2、CUHK大道22号和上海理工大学数据集上取得了SOTA效应。

基于领域不变表示学习的可推广语义分割方法

DIRL:面向广义语义分割的领域不变表示学习

在现实应用中，模型对未知场景的泛化能力非常重要。例如，自动驾驶需要强大的视觉系统。目前，通过学习领域不变特征来提高模型的泛化能力已经得到了广泛的研究。然而，现有的研究工作大多侧重于学习不同领域之间的共同特征空，而忽略了特征本身的本质(如对领域相关风格的敏感性)。为此，我们提出了一种新的领域泛化方法:利用特征灵敏度作为特征先验来指导模型训练，以提高模型的泛化能力。具体来说，1)提出了一种特征校准模块(PGAM)，用于增强不敏感特征和抑制敏感特征；2)引入一种新的特征白化方法(GFW)，进一步弱化与域风格敏感性相关的特征。通过抑制领域风格的敏感特征，可以学习领域不变特征的表达，从而大大增强模型的泛化能力。该方法简单有效，能够在不增加计算成本的情况下增强各种骨干网络的特征鲁棒性。大量实验结果表明，该方法在领域泛化语义分割任务上明显优于其他方法。

SCSNet:一种同时学习图像着色和超分割的有效方法

SCSNet:同时学习图像彩色化和超分辨率的有效范例

在恢复低分辨率灰度图像的实际应用中，通常需要图像着色、超分辨率和下采样三个独立的过程。然而，这条管道是多余的，效率低下。因此，我们提出了一个有效的范式来同时实现图像着色和超分辨率，并提出了一个端到端的SCSNet来实现它。该方法由两部分组成:第一，用于学习颜色信息的着色分支，该分支使用所提出的即插即用金字塔阀交叉注意(PVCAttn)模块来聚合源图像和参考图像之间的特征映射。其次，利用超分辨率分支融合颜色和纹理信息来预测目标图像。该分支使用连续像素映射(CPM)来预测连续空中的高分辨率图像。此外，我们的SCSNet支持“自动着色”和“参考着色”两种模式，更适合实际应用。大量的实验证明了我们方法的优越性。与自动模式和参考模式相比，多数据集上的FID平均降低1.8和5.1。此外，与SOTA基线相比，我们的方法具有更少的参数(x2 ↑)和更快的运行速度(x3↑)。

LCTR:在弱监管目标定位中唤醒变压器局部延展性

LCTR:唤醒弱监督目标定位的变压器局部连续性

弱监督目标定位(WSOL)旨在学习仅具有给定图像级标签的目标定位器。基于卷积神经网络的技术往往忽略了目标最具识别性的区域，导致忽略了目标的整体轮廓。近年来，基于自关注机制和多层感知器结构的transformer由于能够捕捉远距离特征依赖，在WSOL中应运而生。美中不足的是，transformer类的方法缺乏基于CNN的方法固有的局部感知倾向，因此在WSOL中容易丢失局部特征细节。本文提出了一种新的基于transformer的框架，称为LCTR(Local Extensible transformer)，以增强基于Transformer中长距离全局特征的局部感知能力。具体来说，我们提出了一个关联块注意模块来引入图像块之间的局部关联。此外，我们还设计了一个细节挖掘模块，可以利用局部特征来引导模型学会关注那些反应较弱的区域。最后，我们在两个公共数据集CUB-200-2011和ILSVRC上进行了充分的实验，验证了我们方法的有效性。

基于特征生成和假设验证的可靠人脸活体检测

面向可靠人脸反欺骗的特征生成和假设验证

人脸识别技术已经广泛应用于各种智能系统中。与此同时，层出不穷的“表情攻击”不断威胁着智能系统的安全。为了赋予智能系统足够的防御能力，人脸反欺骗技术应运而生。虽然目前的活体检测方法在已知领域表现良好，但无法抵御未知领域的攻击。对于这个泛化问题，有两种方法得到了广泛的研究:领域泛化和特征解耦。但是它们都有各自的局限性:(1)考虑到未知域的样本，很难将所有人脸映射到一个共享特征空。如果未知域的人脸没有映射到特征空中的已知区域，模型会产生不准确的预测。(2)考虑到攻击类型未知，很难准确解耦所有攻击痕迹。因此，本文提出了一种特征生成和假设验证的算法框架。首先，我们引入特征生成网络来生成真实人物和已知攻击的假设。随后，设计了两个假设验证模块来确定输入人脸有多少来自真实特征空和真实特征分布。进一步分析了算法框架与贝叶斯不确定性估计的关系，为算法框架的有效性提供了理论支持。实验结果表明，我们的框架在两种不同的配置下实现了SOTA效应:跨场景和跨攻击类型。

基于渐进强化学习的人脸伪造图像检测

通过渐进增强学习挖掘细粒度人脸伪造线索

随着人脸编辑技术的快速发展，人脸内容取证引起了广泛关注。在伪人脸图像的检测中，现有的大多数方法往往试图利用频域信息来挖掘伪痕迹。然而，这些方法对频域信息的使用比较粗糙，传统的网络结构很难提取频率下的细微信息。

为了解决上述问题，本文提出了一种渐进强化学习框架，同时利用RGB信息和细粒度的频率信息。首先，本文基于滑动窗口和离散余弦变换将输入的RGB图像转换成细粒度的频率分量，以在频域空中完全解耦真假轨迹。然后，在双流网络的基础上，引入了自增强模块和互增强模块，其中自增强模块可以捕获不同输入空之间的篡改痕迹，而互增强模块可以互补增强双流的特征交互。通过这种渐进的特征增强过程，可以有效利用细粒度的频率信息和RGB信息来定位细微的伪造痕迹。

大量实验表明，在多个数据集的同源设置下，我们提出的方法优于现有方法。同时，详细的可视化也充分证明了我们方法的鲁棒性和可解释性。

基于双对比学习的人脸伪造图像检测

通用人脸伪造检测的双重对比学习

由于人脸伪造技术的不断迭代更新，如何在未知攻击中保持检测模型的通用性成为人脸伪造检测领域的一大挑战。以前，基于交叉熵损失的分类框架常被用来建模人脸伪造检测问题。然而，这种范式过分强调了类别层面的差异，却忽略了每个样本的唯一伪造信息，限制了模型在未知领域的普适性。

为了解决上述问题，本文提出了一种新的人脸伪造检测框架，即双重对比学习(Dual Contrastive Learning，DCL)，该框架有针对性地构造不同种类的样本对，并在不同粒度下进行对比学习，以获得更为一般化的特征表示。具体来说，本文提出了基于互ICL的困难样本选择策略来促进任务相关判别特征的学习。此外，为了进一步探索本质差异，引入了实例内比较学习(Intra-ICL)来进一步捕捉伪人脸中的共同特征不一致性。

本文构建了一个泛化评估实验，即在faceformics ++等数据集上进行训练，并在包括DFD和DFDC在内的其他学术数据集上评估模型效果。大量实验和分析表明，该方法能显著提高模型的泛化能力。

基于动态不一致性学习的人脸伪造视频检测

深入局部:深度伪造视频检测的动态不一致性学习

在伪人脸视频的检测中，现有的Deepfake视频检测方法试图基于时间序列建模捕捉真假人脸的区分特征。然而，这些方法通常对稀疏采样的视频帧建模，忽略了相邻帧之间的局部运动信息。由于局部运动信息包含帧间的运动不一致性，因此可以作为DeepFake视频检测的重要线索。

针对这一问题，本文深入研究了视频中的局部运动信息，提出了一种新的视频采样单元“Snippet”，它包含一些局部连续的视频帧。此外，本文还精心设计了片段内不一致性模块(intra-sim)和片段间交互模块(inter-sim)，建立了不一致性的动态建模框架。具体来说，SIM内部应用双向时差运算和可学习卷积核来挖掘每个“片段”中的细微运动。然后，使用内部SIM来促进跨“片段”的信息交互，以形成全局表示。此外，内部SIM和内部SIM交替工作，可以轻松插入到现有的2D基本网络结构中。

方法在faceformics ++、celebo-DF等多个学术数据集的视频评价标准下实现SOTA。丰富的视觉分析进一步证明了我们方法的有效性。

基于双流更新的可视化变压器动态加速方法

Evo-ViT:动态视觉转换器的慢-快令牌进化

视觉Transformer通过自我注意机制捕捉短距离和长距离视觉依赖的能力使其在各种计算机视觉任务中表现出巨大的潜力，但远距离感受野也带来了巨大的计算开销，尤其是对于高分辨率视觉任务。为了在保持原模型精度的同时降低模型的计算复杂度，从而使可视化transformer成为一个更加通用、高效、低成本的解决框架，我们提出了基于双流令牌更新的可视化Transformer动态加速方法Evo-ViT。该方法保持了空之间的完整结构，将不同的计算通道分配给高信息令牌和低信息令牌。因此，在不改变网络结构的情况下，直筒和金字塔压缩Transformer模型的推理性能可以在极低的精度损失下得到极大的提高。其中，我们基于全局类注意力的令牌选择策略通过增强层与层之间的通信，实现了稳定的令牌选择。与以前的方法相比，我们不需要依赖外部可学习的网络来选择每一层的令牌，也不需要基于训练好的网络来切割令牌。Evo-ViT可以将DEIT-S的推理速度提高60%，而在ImageNet 1K数据集上仅损失0.4%的准确率。

基于伪任务知识保存的行人识别连续学习方法

基于伪任务知识保存的终身人再识别

在实践中，行人再识别的数据源通常分散在时间空上，这就要求模型在不遗忘旧知识的情况下不断学习新知识。数据的时间空分散会带来与任务相关的领域差异，导致持续学习中灾难性的遗忘。为了解决这个问题，我们设计了一个伪任务知识保存框架，充分挖掘任务之间的信息进行知识保存。该框架由可将当前任务特征映射到旧任务特征空的伪任务转换模块、任务相关领域一致性学习模块、基于伪任务的知识提炼模块和身份鉴别模块组成。我们的方法在LReID任务上明显优于以往的SOTA，达到了与联合训练相当的效果。

通过重叠估计指导局部特征点的匹配。

通过重叠估计指导局部特征匹配

从传统的SIFT到最近的基于CNN的方法，恒定尺度条件下的特征匹配问题一直没有得到很好的解决。传统的局部特征点匹配方法直接考虑整个地图来提取和匹配特征点。本文提出的OETR方法借助于CNN和Transformer强大的特征交互能力，直接估计两幅图片之间的重叠区域。通过将特征点的提取和匹配限制在两幅图片的重叠区域，并对重叠区域进行缩放，有效降低了两幅图片尺度差异较大时的特征匹配难度，并通过在多个Benchmark上的实验获得了SOTA的性能。此外，OETR可以作为预处理模块，可以应用于任何局部特征提取和匹配方法，帮助现有的特征匹配提高效果。

基于笔画语义上下文感知的场景文本识别比较学习方法

感知笔画语义上下文:鲁棒场景文本识别的层次对比学习

提出了一种新的场景文本识别任务——感知笔画语义上下文的自监督表示学习方法。针对场景文本图像的视觉和语义特征，该方法提出了一种双上下文感知器，可以同时学习未标记文本图像数据的低级笔画和高级语义上下文空。在场景文本识别标准数据集上的实验结果表明，本文提出的框架能够为基于ctc和基于注意力的解码器生成更鲁棒的特征表示。为了充分挖掘这种方法的潜力，我们还收集了1亿张未标记的文本图像作为数据集UTI-1亿，覆盖5个场景和4种语言。通过使用数以亿计的未标记数据进行预训练，获得的编码器特征对于下游文本识别具有优异的性能。此外，PerSec学习的特征表示也表现出很强的泛化能力，尤其是在只有少量标注数据的场景中。

基于动作引导序列生成的语法错误纠正方法

序列到动作:动作引导序列生成的语法错误纠正

根据语法纠错(GEC)任务的特点，结合seq2seq和序列标签两种经典模型的优点，提出了一种新的序列到动作(S2A)模型。S2A模块将源语句和目标语句都作为输入，可以在预测每个令牌之前自动生成令牌级操作序列(包括“跳过”、“复制”和“生成”)。之后，将这些动作与基本seq2seq框架融合，预测最终结果。在中英文GEC任务基准数据集上的实验结果表明，本文提出的模型性能远优于行业内其他方法，能够显著缓解过校正问题。此外，与序列标记模型相比，该方法在生成结果时能够保持更好的通用性和多样性。

回搜狐多看看。

负责编辑:

点击更多内容

文章标题：AAAI 往年腾讯优图14篇论文入选，含语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域
本文地址：http://4879931.55jiaoyu.com/show-254047.html
本文由合作方发布，不代表展全思梦立场，转载联系作者并注明出处：展全思梦

厦门大学提出“气相自组装”法制备高热/水热稳定的单原子催化剂

为衣服添加NFC功能：挥下袖子就能安全支付，打开车门坐进去就能启动汽车｜Nature子刊

AAAI 往年腾讯优图14篇论文入选，含语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域

热门文档

推荐文档

AAAI 往年 腾讯优图14篇论文入选，含语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域

热门文档

推荐文档

AAAI 往年腾讯优图14篇论文入选，含语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域