AAAI 往年 腾讯优图14篇论文入选,含语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域
原标题:AAAI 2022腾讯优图14篇论文入选,包括语义分割、图像着色、人脸安全、弱监管目标定位、场景文本识别等前沿领域。
12月1日,国际顶级人工智能大会AAAI 2022论文受理结果揭晓!全球共提交论文9215篇,接受率15%。人工智能促进协会是由国际人工智能促进协会主办的年度会议。它是人工智能领域历史最悠久、覆盖面最广的顶级国际学术会议之一。也是中国计算机联合会(CCF)推荐的甲级国际学术会议。
共收录腾讯优图实验室论文14篇,涵盖语义分割、图像着色、人脸安全、弱监管目标定位、场景文本识别等前沿领域。
以下是一些精选的论文:
01
视频异常检测双向预测网络的综合正则化方法
双向预测网络中用于视频异常检测的综合正则化
视频异常检测任务旨在通过学习正常视频的特征,自动识别视频中的异常目标或行为。以前的方法倾向于使用简单的重建或预测约束,这将导致从正常视频中学习的特征不足。在此基础上,我们提出了一种具有三个一致性约束的双向架构,可以从像素级、跨模态级和时间序列级对预测任务进行完全正则化。首先,我们提出了预测的一致性,它考虑了前后时间序列中运动的对称性,进而保证了像素级的高保真外观和运动预测。其次,我们提出了相关性一致性,它考虑了不同模式之间的相关性,用一种模式来正则化另一种模式的预测。最后,我们提出了时序一致性,它利用视频序列之间的关系来保证预测网络生成的帧具有一致的时序。在推理阶段,异常帧的模式无法预测,导致预测误差的置信度较高。实验结果表明,该方法的有效性超过了许多先进的异常检测器,并在UCSD Ped2、CUHK大道22号和上海理工大学数据集上取得了SOTA效应。
02
基于领域不变表示学习的可推广语义分割方法
DIRL:面向广义语义分割的领域不变表示学习
在现实应用中,模型对未知场景的泛化能力非常重要。例如,自动驾驶需要强大的视觉系统。目前,通过学习领域不变特征来提高模型的泛化能力已经得到了广泛的研究。然而,现有的研究工作大多侧重于学习不同领域之间的共同特征空,而忽略了特征本身的本质(如对领域相关风格的敏感性)。为此,我们提出了一种新的领域泛化方法:利用特征灵敏度作为特征先验来指导模型训练,以提高模型的泛化能力。具体来说,1)提出了一种特征校准模块(PGAM),用于增强不敏感特征和抑制敏感特征;2)引入一种新的特征白化方法(GFW),进一步弱化与域风格敏感性相关的特征。通过抑制领域风格的敏感特征,可以学习领域不变特征的表达,从而大大增强模型的泛化能力。该方法简单有效,能够在不增加计算成本的情况下增强各种骨干网络的特征鲁棒性。大量实验结果表明,该方法在领域泛化语义分割任务上明显优于其他方法。
03
SCSNet:一种同时学习图像着色和超分割的有效方法
SCSNet:同时学习图像彩色化和超分辨率的有效范例
在恢复低分辨率灰度图像的实际应用中,通常需要图像着色、超分辨率和下采样三个独立的过程。然而,这条管道是多余的,效率低下。因此,我们提出了一个有效的范式来同时实现图像着色和超分辨率,并提出了一个端到端的SCSNet来实现它。该方法由两部分组成:第一,用于学习颜色信息的着色分支,该分支使用所提出的即插即用金字塔阀交叉注意(PVCAttn)模块来聚合源图像和参考图像之间的特征映射。其次,利用超分辨率分支融合颜色和纹理信息来预测目标图像。该分支使用连续像素映射(CPM)来预测连续空中的高分辨率图像。此外,我们的SCSNet支持“自动着色”和“参考着色”两种模式,更适合实际应用。大量的实验证明了我们方法的优越性。与自动模式和参考模式相比,多数据集上的FID平均降低1.8和5.1。此外,与SOTA基线相比,我们的方法具有更少的参数(x2 ↑)和更快的运行速度(x3↑)。
04
LCTR:在弱监管目标定位中唤醒变压器局部延展性
LCTR:唤醒弱监督目标定位的变压器局部连续性
弱监督目标定位(WSOL)旨在学习仅具有给定图像级标签的目标定位器。基于卷积神经网络的技术往往忽略了目标最具识别性的区域,导致忽略了目标的整体轮廓。近年来,基于自关注机制和多层感知器结构的transformer由于能够捕捉远距离特征依赖,在WSOL中应运而生。美中不足的是,transformer类的方法缺乏基于CNN的方法固有的局部感知倾向,因此在WSOL中容易丢失局部特征细节。本文提出了一种新的基于transformer的框架,称为LCTR(Local Extensible transformer),以增强基于Transformer中长距离全局特征的局部感知能力。具体来说,我们提出了一个关联块注意模块来引入图像块之间的局部关联。此外,我们还设计了一个细节挖掘模块,可以利用局部特征来引导模型学会关注那些反应较弱的区域。最后,我们在两个公共数据集CUB-200-2011和ILSVRC上进行了充分的实验,验证了我们方法的有效性。
05
基于特征生成和假设验证的可靠人脸活体检测
面向可靠人脸反欺骗的特征生成和假设验证
人脸识别技术已经广泛应用于各种智能系统中。与此同时,层出不穷的“表情攻击”不断威胁着智能系统的安全。为了赋予智能系统足够的防御能力,人脸反欺骗技术应运而生。虽然目前的活体检测方法在已知领域表现良好,但无法抵御未知领域的攻击。对于这个泛化问题,有两种方法得到了广泛的研究:领域泛化和特征解耦。但是它们都有各自的局限性:(1)考虑到未知域的样本,很难将所有人脸映射到一个共享特征空。如果未知域的人脸没有映射到特征空中的已知区域,模型会产生不准确的预测。(2)考虑到攻击类型未知,很难准确解耦所有攻击痕迹。因此,本文提出了一种特征生成和假设验证的算法框架。首先,我们引入特征生成网络来生成真实人物和已知攻击的假设。随后,设计了两个假设验证模块来确定输入人脸有多少来自真实特征空和真实特征分布。进一步分析了算法框架与贝叶斯不确定性估计的关系,为算法框架的有效性提供了理论支持。实验结果表明,我们的框架在两种不同的配置下实现了SOTA效应:跨场景和跨攻击类型。
06
基于渐进强化学习的人脸伪造图像检测
通过渐进增强学习挖掘细粒度人脸伪造线索
随着人脸编辑技术的快速发展,人脸内容取证引起了广泛关注。在伪人脸图像的检测中,现有的大多数方法往往试图利用频域信息来挖掘伪痕迹。然而,这些方法对频域信息的使用比较粗糙,传统的网络结构很难提取频率下的细微信息。
为了解决上述问题,本文提出了一种渐进强化学习框架,同时利用RGB信息和细粒度的频率信息。首先,本文基于滑动窗口和离散余弦变换将输入的RGB图像转换成细粒度的频率分量,以在频域空中完全解耦真假轨迹。然后,在双流网络的基础上,引入了自增强模块和互增强模块,其中自增强模块可以捕获不同输入空之间的篡改痕迹,而互增强模块可以互补增强双流的特征交互。通过这种渐进的特征增强过程,可以有效利用细粒度的频率信息和RGB信息来定位细微的伪造痕迹。
大量实验表明,在多个数据集的同源设置下,我们提出的方法优于现有方法。同时,详细的可视化也充分证明了我们方法的鲁棒性和可解释性。
07
基于双对比学习的人脸伪造图像检测
通用人脸伪造检测的双重对比学习
由于人脸伪造技术的不断迭代更新,如何在未知攻击中保持检测模型的通用性成为人脸伪造检测领域的一大挑战。以前,基于交叉熵损失的分类框架常被用来建模人脸伪造检测问题。然而,这种范式过分强调了类别层面的差异,却忽略了每个样本的唯一伪造信息,限制了模型在未知领域的普适性。
为了解决上述问题,本文提出了一种新的人脸伪造检测框架,即双重对比学习(Dual Contrastive Learning,DCL),该框架有针对性地构造不同种类的样本对,并在不同粒度下进行对比学习,以获得更为一般化的特征表示。具体来说,本文提出了基于互ICL的困难样本选择策略来促进任务相关判别特征的学习。此外,为了进一步探索本质差异,引入了实例内比较学习(Intra-ICL)来进一步捕捉伪人脸中的共同特征不一致性。
本文构建了一个泛化评估实验,即在faceformics ++等数据集上进行训练,并在包括DFD和DFDC在内的其他学术数据集上评估模型效果。大量实验和分析表明,该方法能显著提高模型的泛化能力。
08
基于动态不一致性学习的人脸伪造视频检测
深入局部:深度伪造视频检测的动态不一致性学习
在伪人脸视频的检测中,现有的Deepfake视频检测方法试图基于时间序列建模捕捉真假人脸的区分特征。然而,这些方法通常对稀疏采样的视频帧建模,忽略了相邻帧之间的局部运动信息。由于局部运动信息包含帧间的运动不一致性,因此可以作为DeepFake视频检测的重要线索。
针对这一问题,本文深入研究了视频中的局部运动信息,提出了一种新的视频采样单元“Snippet”,它包含一些局部连续的视频帧。此外,本文还精心设计了片段内不一致性模块(intra-sim)和片段间交互模块(inter-sim),建立了不一致性的动态建模框架。具体来说,SIM内部应用双向时差运算和可学习卷积核来挖掘每个“片段”中的细微运动。然后,使用内部SIM来促进跨“片段”的信息交互,以形成全局表示。此外,内部SIM和内部SIM交替工作,可以轻松插入到现有的2D基本网络结构中。
方法在faceformics ++、celebo-DF等多个学术数据集的视频评价标准下实现SOTA。丰富的视觉分析进一步证明了我们方法的有效性。
09
基于双流更新的可视化变压器动态加速方法
Evo-ViT:动态视觉转换器的慢-快令牌进化
视觉Transformer通过自我注意机制捕捉短距离和长距离视觉依赖的能力使其在各种计算机视觉任务中表现出巨大的潜力,但远距离感受野也带来了巨大的计算开销,尤其是对于高分辨率视觉任务。为了在保持原模型精度的同时降低模型的计算复杂度,从而使可视化transformer成为一个更加通用、高效、低成本的解决框架,我们提出了基于双流令牌更新的可视化Transformer动态加速方法Evo-ViT。该方法保持了空之间的完整结构,将不同的计算通道分配给高信息令牌和低信息令牌。因此,在不改变网络结构的情况下,直筒和金字塔压缩Transformer模型的推理性能可以在极低的精度损失下得到极大的提高。其中,我们基于全局类注意力的令牌选择策略通过增强层与层之间的通信,实现了稳定的令牌选择。与以前的方法相比,我们不需要依赖外部可学习的网络来选择每一层的令牌,也不需要基于训练好的网络来切割令牌。Evo-ViT可以将DEIT-S的推理速度提高60%,而在ImageNet 1K数据集上仅损失0.4%的准确率。
10
基于伪任务知识保存的行人识别连续学习方法
基于伪任务知识保存的终身人再识别
在实践中,行人再识别的数据源通常分散在时间空上,这就要求模型在不遗忘旧知识的情况下不断学习新知识。数据的时间空分散会带来与任务相关的领域差异,导致持续学习中灾难性的遗忘。为了解决这个问题,我们设计了一个伪任务知识保存框架,充分挖掘任务之间的信息进行知识保存。该框架由可将当前任务特征映射到旧任务特征空的伪任务转换模块、任务相关领域一致性学习模块、基于伪任务的知识提炼模块和身份鉴别模块组成。我们的方法在LReID任务上明显优于以往的SOTA,达到了与联合训练相当的效果。
11
通过重叠估计指导局部特征点的匹配。
通过重叠估计指导局部特征匹配
从传统的SIFT到最近的基于CNN的方法,恒定尺度条件下的特征匹配问题一直没有得到很好的解决。传统的局部特征点匹配方法直接考虑整个地图来提取和匹配特征点。本文提出的OETR方法借助于CNN和Transformer强大的特征交互能力,直接估计两幅图片之间的重叠区域。通过将特征点的提取和匹配限制在两幅图片的重叠区域,并对重叠区域进行缩放,有效降低了两幅图片尺度差异较大时的特征匹配难度,并通过在多个Benchmark上的实验获得了SOTA的性能。此外,OETR可以作为预处理模块,可以应用于任何局部特征提取和匹配方法,帮助现有的特征匹配提高效果。
12
基于笔画语义上下文感知的场景文本识别比较学习方法
感知笔画语义上下文:鲁棒场景文本识别的层次对比学习
提出了一种新的场景文本识别任务——感知笔画语义上下文的自监督表示学习方法。针对场景文本图像的视觉和语义特征,该方法提出了一种双上下文感知器,可以同时学习未标记文本图像数据的低级笔画和高级语义上下文空。在场景文本识别标准数据集上的实验结果表明,本文提出的框架能够为基于ctc和基于注意力的解码器生成更鲁棒的特征表示。为了充分挖掘这种方法的潜力,我们还收集了1亿张未标记的文本图像作为数据集UTI-1亿,覆盖5个场景和4种语言。通过使用数以亿计的未标记数据进行预训练,获得的编码器特征对于下游文本识别具有优异的性能。此外,PerSec学习的特征表示也表现出很强的泛化能力,尤其是在只有少量标注数据的场景中。
13
基于动作引导序列生成的语法错误纠正方法
序列到动作:动作引导序列生成的语法错误纠正
根据语法纠错(GEC)任务的特点,结合seq2seq和序列标签两种经典模型的优点,提出了一种新的序列到动作(S2A)模型。S2A模块将源语句和目标语句都作为输入,可以在预测每个令牌之前自动生成令牌级操作序列(包括“跳过”、“复制”和“生成”)。之后,将这些动作与基本seq2seq框架融合,预测最终结果。在中英文GEC任务基准数据集上的实验结果表明,本文提出的模型性能远优于行业内其他方法,能够显著缓解过校正问题。此外,与序列标记模型相比,该方法在生成结果时能够保持更好的通用性和多样性。
回搜狐多看看。
负责编辑:
本文地址:http://4879931.55jiaoyu.com/show-254047.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.长沙长郡中学2021年招生计划
- 12.2023淮阳一高录取分数线(2025年参考)
- 13.2025深圳市深德技工学校开设的专业一览表
- 14.辽宁医学院医疗学院网站网址
- 15.2025北京公办大专学校有哪些北京公办大专学校名单
- 16.西安外事学院学校代码是12713(学校代码)
- 17.广东高考专科分数线公布(附历年分数线对比-2025参考)
- 18.福建中考升学率排行2023年最新排行榜(2025参考)
- 19.湖北历年高考人数(2023参考)
- 20.山东建筑大学网站网址
- 21.2025徐州职业学校有哪些徐州职业学校名单一览表
- 22.2025辽宁排名前三的公办艺术学校名单
- 23.2025杭州排名前五的公办中专学校名单
- 24.2023石家庄外国语学校录取分数线(2025年参考)
- 25.北海艺术设计职业学院_北海招生网
- 26.邯郸的高中排名前十名的学校(邯郸高中)
- 27.陇东学院在各省的录取分数线及位次表(2022-2021)
- 28.2025咸阳排名前八的新能源汽车学校名单
- 29.渭南尧山中学地址在哪里
- 30.武汉民政职业学院2021年报名条件、招生要求、招生对象
- 31.动物防疫与检疫专业就业方向及前景!附2025大学排名及分数线
- 32.四川文理学院学费一年多少钱?收费标准为4800元~5800元(2025年
- 33.船舶电子电气工程专业就业方向及前景!附2025大学排名
- 34.办离婚需要什么手续—哈尔滨办离婚需要什么手续
- 35.《围城》观后感10篇(《围城》观后感10篇免费阅读)
- 36.大专400分能录取什么学校?附四百分的专科学校排名(往年参考)
- 37.食品质量与安全专业就业方向有哪些
- 38.无线路由器什么牌子好-无线路由器什么牌子***
- 39.460分左右能上什么好的大学?附往年高考460分可以报考的学校
- 40.重庆艺校(重庆艺校有哪些学校高中)
- 41.广东南粤(广东南粤风采36选7走势图开奖结果查询)
- 42.雅思和托福考试时间预测预测(雅思和托福考试时间预测预测是什么时候)
- 43.新西兰用什么钱币新西兰货币元和人民币的汇率(新西兰的币种与中国人民币的兑换)
- 44.socks是什么意思(Shadowsocks是什么意思)
- 45.甘肃财经大学(甘肃财经大学录取分数线预测2022)
- 46.往年中考总分多少?各科成绩如何?
- 47.犯贱是什么意思_犯贱是什么意思解释
- 48.热心的用英语怎么读
- 49.漫画老师作文500字五年级上册优秀作文
- 50.鞍山话(为什么辽宁口音比较杂)
- 51.往年年招不满的二本大学-去年没有招满的二本学校(参考)
- 52.罗永浩看过的书,罗永浩推荐的书籍
- 53.中国电信网络客服电话,电信宽带电话客服
- 54.平行线的性质
- 55.公共汽车站简笔画_汽车简笔画
- 56.工业设计专业就业(工业设计专业就业前景怎么样)
- 57.往年属兔的多大岁数(属兔人往年多大)
- 58.新宾高中(新宾高中:青春成长的摇篮)
- 59.2022长沙民政职业技术学院分数线预测是多少分
- 60.湘西职院(湘西职院:探秘百年校史)
- 51.四川省达州财贸学校学前教育专业包含哪些重要课程
- 52.四川省体育运动学校排球运动管理中心简介
- 53.四川绵阳医科职业学院怎么样
- 54.四川往年护理学校学什么比较好
- 55.2023年攀枝花读中职选择运动训练专业有前途吗
- 56.四川省冶金地质技工学校招生办联系电话,地址
- 57.四川可以读艺术类专业的职校有哪些
- 58.四川省筠连县职业技术学校招生办学地址在哪儿
- 59.四川省成都市礼仪职业中学录取分数线预测
- 60.四川省经济管理学校航空服务专业好不好学呢?开设了哪些课程,好不好
- 61.西安铁路学校有哪些?哪些铁路学校比较好?【供你参考】
- 62.英国ucas是什么意思
- 63.梨花女子大学研究生怎么样 专业申请条件介绍
- 64.启明大学的音乐专业有哪些?如何申请?
- 65.去银行兑换英镑需要什么证件
- 66.建国大学研究生申请入学指南解析
- 67.研究生跟研修生什么区别
- 68.孟连县职业高级中学地址在哪里
- 69.ap和ib课程的区别是什么
- 70.德阳电子工程学校有哪些专业

