• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

使用五数概括法来确定数据集的孤立点

武飞扬头像
ac不知深
帮助4

一、前言

在数据挖掘中,离不开数据集的问题

数据预处理我们会找到数据集中的孤立点

然后抛弃

那么怎么找到这些孤立点呢?

二、五数概括法

根据方法名称

就知道会有五个有关参数

  1. 最小值
  2. Q1(前25%的数据)
  3. Q2(即中位数,前50%的数据)
  4. Q3(前75%的数据)
  5. 最大值

大家应该还记得统计学中的正太分布吗?

就是下面这样图
学新通

正态分布代表了自然界中的太多规律

数据集中的数据分布也是如此

如果数据集中的数据越靠近中心位置

那么该数据集用于研究的效果更好

补充知识点

这里我们介绍四分位距(IQR,我更喜欢叫做四分位数差)

即IQR = Q3 - Q1

IQR的值越大表明数据集中的数据越分散

IQR的值越小表明数据集中的数据越靠近中位数

因为Q3与Q1与极值点(极大极小值)无关

所以更具有准确性。

三、简单案例

假如一项面对年轻人的产品被提出来

总得经过市场调研

最基本的就是调查问卷

年龄20岁的回答应该比50岁的回答更加有意义

所以我们有以下年龄的数据集

{13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70}

n = 27个数,那么哪些数据没有参考意义呢?

首先列出五数:

  1. min = 13
  2. 先确定位置:(n 1)* (1 / 4) = 7
    所以Q1 = 20
  3. 先确定位置:(n 1)* (2 / 4) = 14
    所以Q2 = 25
  4. 先确定位置:(n 1)* (3/ 4) = 21
    所以Q3 = 35
  5. max = 70

所以IQR = Q3 - Q1 = 15

除了中间50%的数据可以用

那么还有哪些数据可以用呢?

就可以IQR来求数据中的

上边缘:

Q3 1.5 * IQR = 57.5

下边缘:

Q1 - 1.5 * IQR = -2.5 < 0,取0

所以数据中有效部分为[0,57.5]

对比数据集中的数据发现’70’是孤立点

即去除

四、意义

数据集中的数据肯定是存在孤立点的(噪声的)

那么我们就需要在预处理的时候去掉它

五数概括法是很简单很容易上手的一个方法

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhehkcig
系列文章
更多 icon
同类精品
更多 icon
继续加载