近日,2023国际计算机视觉大会International Conference on Computer Vision (ICCV)于今年10月6日于法国巴黎会议中心圆满落幕,多项赛事奖项尘埃落定。由西安电子科技大学人工智能学院王爽教授、权豆副教授和焦李成院士指导,博士生赵栋、臧琪等人完成的论文在大会上进行展示。同时,在焦李成院士、刘芳教授、刘旭与李玲玲副教授与团队博士生杨育婷、孙龙、游超、黄钟健、赵嘉璇等人的共同指导下,学院参赛队伍ICCV 2023竞赛中共斩获26项冠亚季军奖项,获奖方案在大会上进行了报告或者展示。特别感谢国家自然科学基金重点项目、联合基金项目,教育部111计划项目和国家双一流学科建设项目的大力支持。
图1参会学生合影
由博士研究生“赵栋、臧琪”等人完成的论文“Learning Pseudo-Relations for Cross-domain Sematic Segmentation”录用为ICCV 2023大会论文。
图2 论文海报展示现场(赵栋、权豆、臧琪)
论文提出了一种伪关系学习框架用于跨域图像分割任务,它可以利用像素关系来有效地使用不可靠的像素并学习广义表示。在这个框架中,我们发现了可靠的局部关系先验和可用的低级关系先验,从而在局部网格上建立合理的伪关系,并将它们与图像空间中的低级关系融合。然后,论文提出了伪关系学习策略,并通过寻找最佳子图划分来优化类概率以满足关系一致性,这增强了模型在目标域上预测的确定性和一致性,并进一步消除了跨域的不适应。在三个数据集的广泛实验证明了所提出方法的有效性。
竞赛颁奖与方案报告现场
图3 Visdrone 冠军颁奖留影与方案报告(路小强)
图4 VCL Challenges 冠军获奖方案报告(路小强)
图5 UNCV2023| MUAD冠军方案分享(左谊)
图6 Video Object Segmentation Challenge方案报告分享(张潇文)
图7 CVPPA Challenge颁奖留影与现场报告(黄钟健)
图8 VIPriors Challenge颁奖现场(左为张君沛、右为路小强)
本次大会上团队共获得26项赛事冠亚季军奖项,以下为大会上斩获的11项挑战赛冠军方案,具体涉及预训练、自监督、有监督、无监督与域自适应等方向,在目标检测、实例/语义/全景分割、3D姿态估计等任务上取得了突破。
挑战一:ICCV 2023 VCL Challenges: 鲁棒的RAW目标检测
由博士研究生“路小强、杨育婷、黄钟健、赵嘉璇”组成的学生队伍获得了ICCV 2023 VCL Challenges: Robust RAW Object Detection挑战赛冠军。
冠军队伍(路小强、杨育婷、黄钟健、赵嘉璇)
赛题介绍:该赛题针对于24位高动态范围RAW域内的白天和夜间驾驶场景图像,具体包含行人,汽车,骑手,电车,卡车五种目标类别的数据集,探索针对不同光照条件具备鲁棒性的检测器。
冠军方案:队伍提出由自适应均值截断法(AMC)、大规模预训练、强数据增强以及高效测试增强四部分组成的整体目标检测框架。在预处理阶段,根据图像的均值及方差自适应地分配截断值,以最小化RAW域转RGB域的信息损失。在预训练阶段,针对SODA10M数据集的100万张图像通过半监督学习范式进行预训练,以提升检测器在不同场景下的泛化能力。在训练阶段,引入基于几何、色彩和噪声的强数据增强,可有效增强检测器在不同光照下的鲁棒性。在测试阶段,采用Model Soups进行模型级融合、采用加权框融合进行目标级融合。最终在单一模型、单一尺度下进行推理,取得了299.3的分数,领先排行榜第二、三名6.4、45.4分。该方案有效的解决了传统检测器在恶劣光照条件下识别性能差、鲁棒性低的难题。
挑战二:ICCV 2023 CVPPA Challenge: 作物和杂草的分层全景分割
由博士研究生“路小强,黄钟健,杨育婷,赵嘉璇”组成的学生团队获得“ICCV 2023 CVPPA Challenge: Hierarchical Panoptic Segmentation of Crops and Weeds”挑战赛冠军。
赛题介绍:农作物和杂草的分层全景分割竞赛旨在研究对农业图像中的农作物同时进行语义分割、整株实例分割以及叶子实例分割的计算机视觉算法,数据集包含由无人机在不同地点下捕获的1407张图像。
冠军方案:团队基于Mask2Former分割器提出并行Transformer解码算法,由数据级、模型级、预测级三种解决策略组成。数据级上,通过旋转进行离线数据增强,通过随机缩放、裁剪、翻转进行在线数据增强。模型级上,使用带有适配器的BEiTv2作为特征提取网络,以并行形式额外引入基于Transformer的解码器来实现农作物的整株与叶子实例分割。预测级上,为三种视觉子任务设计不同的测试增强进行数据融合,包含硬投票、大尺寸推理、带有掩码投票的加权框融合以及基于置信度-交并比的级联滤波技术,以82.62的PQ+获得冠军。所提方案解决了传统分割器在农业数据域中泛化性差、识别精度低等难题。
挑战三:ICCV 2023 VIPriors 实例分割挑战赛
由博士研究生“张君沛、张柯欣”和2022级硕士研究生“彭瑞”组成的学生队伍获得了ICCV 2023 VIPriors Instance Segmentation Challenge挑战赛冠军。
冠军队伍(张君沛、张柯欣、彭瑞)
赛题介绍:该赛题主要目标是对球场中人和球进行实例分割。数据集由不同篮球比赛中记录的图像组成,其中训练、验证和测试集分别有184、62、64张图片。赛题存在训练数据少、类别分布极度不平衡的特点且不允许使用任何预训练模型和额外的训练数据,具有较大的挑战性。
冠军方案:针对训练数据少的难题,队伍在采用几何变换、色域变换、锐度变换、噪声插入等一系列数据增强方法的基础上使用Copy-Paste对球的实例进行扩充。针对数据中存在的类别不均衡问题,采用了一种正交不确定性表征(Orthogonal Uncertainty Representation, OUR)方法,对长尾分布问题中的少样本类别特征沿其正交方向添加定向偏置。队伍采用Swin-Transformer和ResNet作为基线模型,结合FPN结构并借鉴CBNet网络Backbone级联的思想,使用4种复合Backbone进行特征提取。在此基础上,队伍设计了一种检测-融合-分割的任务Pipeline,对检测到的结果使用WBF加权框融合策略进行框融合,最后,通过HTC分割头部得到最终的边界框、类别和掩膜。该方法突破了极少样本实例分割的数据增强方式的关键技术。
挑战四:ICCV 2023 3D形状的细粒度语义分割
由2022级硕士研究生“王昕怡、李丹旭、崔璇”组成的学生队伍获得了ICCV 2023 fine-grained semantic segmentation of 3D shapes挑战赛冠军。
冠军队伍(王昕怡、李丹旭、崔璇)
赛题介绍:该赛题旨在对3D形状的物体进行细粒度语义分割。比赛使用亚马逊-伯克利-目标(ABO)数据集,包含椅子、桌子、橱柜、灯和床等五个类别。模型由可感知的连接组件组成,这些组件构成了各种形状属性的基础,如纹理、运动、功能、交互等。挑战赛集中在为ABO数据集中的这些连接的组件分配细粒度语义标签,每个3D形状都带有一个真实语义标签。
冠军方案:队伍提出将数据集中的3D模型及语义分割标签等信息整合到.npz文件中进行预处理,采用动态图边卷积网络DGCNN作为基线模型。通过多次调用EdgeConv模块来提取点云局部形状特征,添加了多个卷积层并增加卷积核的数量,在融合局部邻域信息的基础上学习全局shape信息。队伍采用L2正则化来防止因网络层数过深而造成的过拟合现象。在训练细节上,队伍在[200,500]的区间范围内逐步调整训练轮次,同时按比例调节学习率的大小。最后,对多模型结果采用硬投票的方式进行融合,获得了优异的语义分割性能。该方案突破了对3D形状的物体细粒度语义分割的技术难点,解决了细粒度3D对象特征由于边界特征相似度高而无法被精细捕获的关键问题。
挑战五:ICCV 2023 GeoNET Challenge:鲁棒的跨域计算机视觉
由2022级硕士研究生陈宝亮、徐逸卿、赵禹轩组成的学生队伍获得了ICCV 2023 GeoNET Challenge Robust Computer Vision Across Geographies GeoImNet数据集的无监督域自适应挑战赛冠军。
冠军队伍(陈宝亮、徐逸卿、赵禹轩)
赛题介绍:该赛题目标是解决数据集GeoNet的地理偏见问题。比赛由三个不同的挑战组成,每个挑战的侧重点不同。无监督领域适应将在GeoPlaces和GeoImnet上进行,其中GeoPlaces旨在提高跨地域位置识别任务的性能,GeoImnet以提高跨地理图像分类任务的性能,其中类别跨越多个对象、地点、生物体等。而UNIDA旨在将源域和目标域之间进行域适配,而这些域具有很少的私有类,以及两者共有的共享类。
冠军方案:队伍使用基于Swin-large 的PMTrans作为基准模型,然后添加DeiT-base进行特征提取以丰富特征。在此基础上,对模型进行超参数优化,包含模型的学习率、权重衰减、Dropout等操作,有效地提高模型的泛化能力和稳定性,较好的解决了由域引起的类别差异问题。同时,使用加权平均法,对使用不同参数、数据增强手段训练出的多个PMTrans模型结果进行了融合,增强了与提升了模型的鲁棒性和准确性。针对通用域自适应赛题涉及的通用域中的私有类问题,队伍在上述方案的基础上,又添加了一系列数据增强手段如随机剪裁、翻转等使用翻转、裁剪、MixUp、CutMix等,对源域和目标域的数据进行了扩充和变换,有效增加数据的多样性和难度,促进模型的迁移学习。所提方案突破了无监督域自适应问题,实现了高性能且鲁棒的跨域的计算机视觉任务的完成。
挑战六:ICCV 2023 OOD无监督预训练目标分类
由博士研究生“张柯欣、张君沛”和2022级硕士研究生“彭瑞”组成的学生队伍获得了ICCV 2023 Out Of Distribution Generalization in Computer Vision Track 1: Object Classification Self-supervised Pretrain Leaderboard挑战赛冠军。
赛题介绍:OOD-CV基准测试的目标是诊断计算机视觉模型对数据中分布外偏移的鲁棒性。为了实现这一目标,基准测试由一个固定的训练集组成,其中包含来自 PASCAL VOC 2012 和 ImageNet 数据集的10个对象类别(飞机、公共汽车、汽车、火车、轮船、自行车、摩托车、椅子、餐桌、沙发)。比赛要求训练模型不允许使用外部训练数据。这种限制使每个测试示例都受到训练数据(例如对象的 3D 姿势、形状、纹理、上下文、天气和遮挡)的一个特定干扰的分布偏移。赛题规定只能使用自监督预训练模型。
冠军方案:队伍使用EVA和ConvNeXtV2作为基线模型,对训练数据的六种偏移(pose, shape, texture, context, the weather, and occlusion)进行了丰富的数据增强。使用EVA和FCMAE自监督预训练模型作为基准模型,利用增强后的数据对网络进行微调。训练过程中基于最佳收敛训练的原则,引导模型向更好的方向训练;并对损失函数进行改进,使模型能够更平滑地学习类别之间的决策边界。最终将得到的各个模型通过最优一致性动态融合方式进行融合,得到最终结果。所提方案突破了传统模型在数据存在分布外偏移时性能受限的问题,显著提升了模型在应对各种特定干扰偏移时的稳健性。
挑战七:ICCV 2023 OOD ImageNet-1k预训练目标检测
由2022级硕士研究生“彭瑞”和博士研究生“张君沛、张柯欣”组成的学生队伍获得了ICCV 2023 Out Of Distribution Generalization in Computer Vision Track 2:Object Detection ImageNet-1k only Pretrain 挑战赛冠军。
赛题介绍:该赛题任务旨在诊断计算机视觉模型对数据的分布外位移的鲁棒性。赛题数据集由来自PASCAL VOC 2012和ImageNet数据集的10个对象类别组成(飞机、公共汽车、汽车、火车、船、自行车、摩托车、椅子、餐桌、沙发)。训练数据包含3D姿势、形状、纹理、上下文、天气和遮挡等异常的情况。该挑战的目标是针对异常的样本数据实现目标检测。
冠军方案:队伍提出一种基于YOLOX和DINO模型的高性能目标检测框架。其中,YOLOX骨干网络使用CSPDarknet,用于检测不同大小和分辨率的对象。DINO使用Swin Transformer作为骨干网络,采用分层注意力机制,将图像分解成不同的块,然后进行自注意力计算。此外,针对分布外数据中的不同类别采用了不同的模型。数据增强包括多尺度训练、RandomAffine 随机仿射变换、MixUp、Mosaic 等。针对分布外数据,队伍特别进行了添加遮挡和天气变化,在测试时使用TTA提高了模型在测试集上的性能。最终冠军方案在测试集上的 OOD-mAP为0.51,显著优于其他队伍。所提方案突破了领域自适应问题,解决了在不同环境和场景中的目标检测挑战。
挑战八:ICCV 2023 OOD自监督预训练目标检测
由2022级硕士研究生“佘文轩、刘雨”组成的学生队伍获得ICCV 2023 Out Of Distribution Generalization in Computer Vision Track 2:Object Detection Self-supervised pretrain挑战赛冠军。
冠军队伍(佘文轩、刘雨)
赛题介绍:该赛题任务旨在诊断计算机视觉模型对数据的分布外位移的鲁棒性。赛题数据集由来自PASCAL VOC 2012和ImageNet数据集的10个对象类别组成(飞机、公共汽车、汽车、火车、船、自行车、摩托车、椅子、餐桌、沙发)。训练数据包含3D姿势、形状、纹理、上下文、天气和遮挡等异常的情况。该挑战的目标是针对异常的样本数据实现目标检测。
冠军方案:队伍采用了自监督训练、有监督训练以及半监督训练的联合框架进行异常数据目标检测。选择主干网络为ViT模型,CAE为自监督算法,在ImageNet1K上完成训练任务。选择PPYoloE模型在训练集上进行有监督训练,并针对不同的OOD情况辅以不同的数据增强策略,以提升网络的性能。最后通过DenseTeacher进行半监督学习,其训练数据集为竞赛不同赛道中的训练集与第一阶段的测试集数据。在测试阶段,加入了多尺度的WBF作为测试时的数据融合策略。最终,该方案取得了49.4MAP的成绩。所提方案突破了自监督OOD目标检测任务中误检漏检的问题。
挑战九:ICCV 2023 OOD自监督预训练的3D姿态估计
由2022级硕士研究生“佘文轩、刘雨”组成的学生队伍获得ICCV 2023 Out Of Distribution Generalization in Computer Vision Track 3:3D Pose Estimation Self-supervised pretrain leaderboard挑战赛冠军。
赛题介绍:该赛题任务旨在诊断计算机视觉模型对数据的分布外位移的鲁棒性。赛题数据集由来自PASCAL VOC 2012和ImageNet数据集的10个对象类别组成(飞机、公共汽车、汽车、火车、船、自行车、摩托车、椅子、餐桌、沙发)。训练数据包含3D姿势、形状、纹理、上下文、天气和遮挡等异常的情况。该挑战的目标是针对异常的样本数据,对目标样本的位置及状态进行检测。
冠军方案:队伍通过将回归任务转换成多任务分类任务,利用分类预测头提示目标,并对姿态估计中的azimuth,elevation,theta进行分类。其类别为将值的类别切分为314类的预测结果。将目标类别的任务头约束目标、连续值估计的任务转换成细粒度的角度分类来尽可能逼近连续值的拟合,所提方案解决了姿态估计难以收敛的问题。
挑战十:ICCV 2023 OOD 基于ImageNet-1k的自监督预训练模型的语义转换基准挑战开放集识别
由2022级硕士研究生“王梦佳,张竞文,高敏”组成的学生队伍获得ICCV 2023 Out Of Distribution Generalization in Computer Vision Workshop Semantic Shift Benchmark Challenge Open-Set Recognition Track - Self-Supervised Pretrained Models on ImageNet-1k挑战赛冠军。
冠军队伍(王梦佳、张竞文、高敏)
赛题简介:该赛题旨在评估模型识别开放集示例的能力,数据集是根据ImageNet-1k与ImageNet-22k等类别区分的难易划分而成,需要分别对难分类与易分类数据进行处理与推理,只有未在 ImageNet-22k 上训练过的模型才能提交。排名将根据 FPR 和 AUROC 的平均得分确定。
冠军方案:队伍首先对数据集进行分析,将数据分为难分类和易分类,并且其中包含已知类和未知类,并对数据集进行初步的清理。该任务需要能够将测试数据分为已知类与未知类,并且得到最高分类类别概率。采用deit3-base作为基线模型,然后在推理时利用TTA策略,具体包含图像缩放、裁剪与水平垂直翻转等操作,最后对多个模型的结果进行投票融合。该方案突破了开放数据集识别任务中对于已知类别的数据偏见的难点。
挑战十一:ICCV 2023 OOD 基于任意自监督预训练模型的语义转换基准挑战通用类别发现
由2022级硕士研究生“王梦佳,高敏,张竞文”组成的学生队伍获得ICCV 2023 Out Of Distribution Generalization in Computer Vision Workshop Semantic Shift Benchmark Challenge Generalized Category Discovery Track - Any Self-Supervised Pretrained Models挑战赛冠军。
赛题简介:该赛题旨在评估模型在无标签数据集中发现和识别新概念的能力,即对于已知类数据和未知类数据都预测标签。数据集包含Stanford-Cars、FGVC等细粒度图像分类数据集组成。此任务分为两个赛道,分别为基于ImageNet-1k的自监督预训练模型与任意自监督预训练模型。
冠军方案:队伍将dinov2-vitb14作为基线模型,训练使用Adam优化器,并且利用增量学习对模型的最后一层进行微调以及训练新类语义距离的聚类分类头。对于同一数据集,训练使用不同输入尺度的图片与数据增强方式,例如RandomErasing和CutMix等,并在推理过程中使用TTA,最后进行不同模型结果的融合。该方案突破了在增量学习领域中广义类别发现任务“新类检测语义偏移”的难点。
ICCV,全称IEEE International Conference on Computer Vision (国际计算机视觉大会)由IEEE主办,在世界范围内每两年召开一次。其与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。西安电子科技大学人工智能学院焦李成院士团队在遥感领域有30多年的经验积累,智能学子们也屡次在IGARSS、CVPR、ICCV、ECCV等多个国际顶会赛事中斩获冠亚季军奖项超百余项。学院人才培养效果显著。“赛中学”不仅能够让学生快速了解该领域的相关知识,激发学生科研的动力,同时也锻炼了团队学生的组织协调能力、写作能力与心理抗压能力。