• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

Novel Category DiscoveryGeneralized Category Discovery in CVPR 2022 个人理解

武飞扬头像
Fulin_Gao
帮助1

一、简介

题目: Generalized Category Discovery
会议: CVPR 2022
任务: 给定一个数据集,其中部分样本有标签(这里称其为已知类),其余样本无标签(可能属于已知类也可能属于未知类),要求将无标签样本中属于已知类的样本正确分类,对属于未知类的样本进行聚类。
方法:
(1)使用vision transformer(ViT)进行特征提取。自监督权重(self-supervised ImageNet weights)赋初值,之后结合有监督对比损失和无监督对比损失对权重进行微调;
(2)假设k已知,使用半监督k-means方法进行聚类。首先,由有标签样本确定已知类样本质心,再由k-means 方法确定未知类样本质心,之后通过k-means进行类别质心的更新迭代(k的个数取自作者定义的clustering accuracy的最高得分处所对应的值,由Brent’s algorithm寻找);
(3)获得聚类结果后,通过Hungarian algorithm将聚类结果中的已知类部分与真实标签匹配起来,实现对已知类的分类和未知类的聚类。

学新通
图中,绿框中的Elephant、Frog、Bird为带标签的已知类样本,带 ? 的红框为无标签的待标记的样本,其中有Elephant、Bird等已知类,也有Tiger、Cat等未知类。任务就是给红框中的样本打标签,已知的部分进行分类,未知的部分进行聚类。

二、详情

1. 特征提取学新通

直接对图像数据进行分类或聚类效果必然不理想,需要先提取出空间性质较好的特征。作者表示ViT作为特征提取器或Backbone对近邻分类器十分友好,因此将其ViT选作特征提取器。从上图可以看出,与ResNet50(DINO)提取的特征相比,使用self-supervised ImageNet weights初始化的ViT(DINO)的类内距离更小、类间距离更大。

此外,为了增强ViT的表示学习(特征提取)能力,作者使用目标数据集中的数据对特征提取器进行了微调。主要采取的是对比学习的损失优化策略,将全部样本(包括有标签和无标签的全部数据)视为无标签样本使用如下无监督对比损失:

学新通

其中, z i \textbf{z}_i zi z i ′ \textbf{z}^\prime_i zi分别是同一图片随机增强后的两个视图的特征表达。有标签样本使用如下有监督对比损失:

学新通

其中, N ( i ) \mathcal{N}(i) N(i)表示与 z i \textbf{z}_i zi有相同类标签的样本索引。

微调后的结果如上图中ViT(Ours)所示,在目标数据集上具有更优秀的类别区分。

2. 半监督聚类

学新通
作者采取semi-supervised k-means方法进行聚类,聚类直接在通过ViT提取的特征上进行。假设k已知,
首先,利用带标签的样本求出各已知类的质心(图中蓝、橙、粉的⭐️);
其次,利用k-means 中的方法确定剩余未知类的质心(图中红、绿的⭐️);
之后,利用k-means对各类质心位置进行迭代更新至收敛。

需要注意的是,作者将带标签的样本始终归至真实标签所对应的那个聚类簇中,换句话说,即使质心位置改变导致带标签的样本离另外一个质心更近,也不会将它聚至另一个簇中。

3. 类别数确定

学新通
之前假设k已知,实际需要进一步地确定。在确定类别数时,作者做了一个假设,即只有k接近真实类别数时,作者所提出的评估指标 A C C ACC ACC才能取得最高得分。

学新通

其中, M M M是无标签数据的样本数, P ( Y U ) \mathcal{P}(\mathcal{Y}_\mathcal{U}) P(YU)是1到k的全排列。

因为聚类只能得到簇1到簇k这样的结果,其中已知类部分需要与实际的类别做一对一的对应,比如簇1 ↔ \leftrightarrow Elephant、簇2 ↔ \leftrightarrow Frog。作者所提出的 A C C ACC ACC就是取标签有效对应后的得分,即最高分。

但是,进行暴力匹配的复杂度过高,作者采用的是Hungarian algorithm进行快速匹配。

在作者的假设下,对于不同的k所得到的所有 A C C ACC ACC中又有一个最高分,这个最高分所对应的k被认为是接近真实类别数的,由此得到最终的k。

考虑到k值的搜索过程也比较复杂,作者使用Brent’s algorithm进行快速搜索。

通过特征提取、半监督聚类、类别数确定之后,聚类结果中的已知类部分与真实标签就可以实现匹配,这样已知类的分类就完成了,剩余的部分为未知类部分,它们的聚类也在聚类时完成了,从而作者提出的Generalized Category Discovery就完成了。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhghfckg
系列文章
更多 icon
同类精品
更多 icon
继续加载