Novel Category DiscoveryGeneralized Category Discovery in CVPR 2022 个人理解

Fulin_Gao

2024-04-29 帮助1人

一、简介

题目： Generalized Category Discovery
会议： CVPR 2022
任务： 给定一个数据集，其中部分样本有标签（这里称其为已知类），其余样本无标签（可能属于已知类也可能属于未知类），要求将无标签样本中属于已知类的样本正确分类，对属于未知类的样本进行聚类。
方法：
（1）使用vision transformer（ViT）进行特征提取。自监督权重（self-supervised ImageNet weights）赋初值，之后结合有监督对比损失和无监督对比损失对权重进行微调；
（2）假设k已知，使用半监督k-means方法进行聚类。首先，由有标签样本确定已知类样本质心，再由k-means 方法确定未知类样本质心，之后通过k-means进行类别质心的更新迭代（k的个数取自作者定义的clustering accuracy的最高得分处所对应的值，由Brent’s algorithm寻找）；
（3）获得聚类结果后，通过Hungarian algorithm将聚类结果中的已知类部分与真实标签匹配起来，实现对已知类的分类和未知类的聚类。

学新通
图中，绿框中的Elephant、Frog、Bird为带标签的已知类样本，带 ? 的红框为无标签的待标记的样本，其中有Elephant、Bird等已知类，也有Tiger、Cat等未知类。任务就是给红框中的样本打标签，已知的部分进行分类，未知的部分进行聚类。

二、详情

1. 特征提取

直接对图像数据进行分类或聚类效果必然不理想，需要先提取出空间性质较好的特征。作者表示ViT作为特征提取器或Backbone对近邻分类器十分友好，因此将其ViT选作特征提取器。从上图可以看出，与ResNet50(DINO)提取的特征相比，使用self-supervised ImageNet weights初始化的ViT(DINO)的类内距离更小、类间距离更大。

此外，为了增强ViT的表示学习（特征提取）能力，作者使用目标数据集中的数据对特征提取器进行了微调。主要采取的是对比学习的损失优化策略，将全部样本（包括有标签和无标签的全部数据）视为无标签样本使用如下无监督对比损失：

其中， $\textbf{z}_i$ 和 $\textbf{z}^\prime_i$ 分别是同一图片随机增强后的两个视图的特征表达。有标签样本使用如下有监督对比损失：

其中， $\mathcal{N}(i)$ 表示与 $\textbf{z}_i$ 有相同类标签的样本索引。

微调后的结果如上图中ViT(Ours)所示，在目标数据集上具有更优秀的类别区分。

2. 半监督聚类

学新通
作者采取semi-supervised k-means方法进行聚类，聚类直接在通过ViT提取的特征上进行。假设k已知，
首先，利用带标签的样本求出各已知类的质心（图中蓝、橙、粉的⭐️）；
其次，利用k-means 中的方法确定剩余未知类的质心（图中红、绿的⭐️）；
之后，利用k-means对各类质心位置进行迭代更新至收敛。

需要注意的是，作者将带标签的样本始终归至真实标签所对应的那个聚类簇中，换句话说，即使质心位置改变导致带标签的样本离另外一个质心更近，也不会将它聚至另一个簇中。

3. 类别数确定

学新通
之前假设k已知，实际需要进一步地确定。在确定类别数时，作者做了一个假设，即只有k接近真实类别数时，作者所提出的评估指标 $A CC$ 才能取得最高得分。

其中， $M$ 是无标签数据的样本数， $\mathcal{P}(\mathcal{Y}_\mathcal{U})$ 是1到k的全排列。

因为聚类只能得到簇1到簇k这样的结果，其中已知类部分需要与实际的类别做一对一的对应，比如簇1 $\leftrightarrow$ Elephant、簇2 $\leftrightarrow$ Frog。作者所提出的 $A CC$ 就是取标签有效对应后的得分，即最高分。

但是，进行暴力匹配的复杂度过高，作者采用的是Hungarian algorithm进行快速匹配。

在作者的假设下，对于不同的k所得到的所有 $A CC$ 中又有一个最高分，这个最高分所对应的k被认为是接近真实类别数的，由此得到最终的k。

考虑到k值的搜索过程也比较复杂，作者使用Brent’s algorithm进行快速搜索。

通过特征提取、半监督聚类、类别数确定之后，聚类结果中的已知类部分与真实标签就可以实现匹配，这样已知类的分类就完成了，剩余的部分为未知类部分，它们的聚类也在聚类时完成了，从而作者提出的Generalized Category Discovery就完成了。

这篇好文章是转载于：学新通技术网

Novel Category DiscoveryGeneralized Category Discovery in CVPR 2022 个人理解

一、简介

二、详情

1. 特征提取

2. 半监督聚类

3. 类别数确定

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

Android 11 保存文件到外部存储，并分享文件

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开