Pythonsklearn机器Birch聚类算法

微小冷

2024-04-29 帮助1人

基本原理

BIRCH，即Balanced Iterative Reducing and Clustering Using Hierarchies，利用分层的平衡迭代规约和聚类，特点是扫描一次数据就可以实现聚类，

而根据经验，一般这种一遍成功的算法，背后一定有一棵树，而这棵树的生成规则，往往就是算法的核心。Birch算法的核心，叫做聚类特征树(Clustering Feature Tree)，简称CF树。

CF树由CF构成，每个CF都是三元组，表示为(N, LS, SS)，其中N表示点数；LS表示点的向量和；SS表示CF各分量的平方和。

CF树常见的操作有两个，分别是添加样本点和CF分裂。而一个新的样本点到来之后，是融入现有的CF，还是另行开辟一个新的CF，则要受到至少两个参数的约束：

最大CF数
每个CF的最大样本半径

sklearn调用

在sklearn中，Birch类的构造函数如下

Birch(*, threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

其中

threshold表示CF最大样本半径，当新的样本加入到某个CF中后，如果大于threshold，则会发生CF分裂。
branching_factor 表示每个节点的最大CF个数

考虑到Birch适用于较大样本数量，所以下面

import numpy as np
from sklearn.cluster import Birch
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

xs, ys = np.indices([10,10])*5
n_centers = np.array(list(zip(xs.reshape(-1), ys.reshape(-1))))
X, y = make_blobs(n_samples=25000, centers=n_centers, random_state=0)
birch = Birch(threshold=1.7, n_clusters=None)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

效果为

学新通

貌似效果不太好，主要原因可能是没预设样本数，

birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

将n_cluster设为100之后，效果为

学新通

接下来测试一下Birch算法的效率，通过make_blobs生成10万个点，然后通过Birch算法完成聚类

import time
X, y = make_blobs(n_samples=100000, centers=n_centers, random_state=0)
t = time.time()
birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
print(time.time()-t)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

耗时2.79s，聚类结果为
学新通

这篇好文章是转载于：学新通技术网

Pythonsklearn机器Birch聚类算法

基本原理

sklearn调用

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

Android 11 保存文件到外部存储，并分享文件

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开