黄视频网站在线免费观看-黄视频网站在线看-黄视频网站在线观看-黄视频网站免费看-黄视频网站免费观看-黄视频网站免费

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > 數據分析之異常值和重復值的處理

數據分析之異常值和重復值的處理

來源:千鋒教育
發布人:wjy
時間: 2022-08-12 15:18:00 1660288680

在進行數據分析的時候除了有缺失值之外,還可能遇到異常值和重復值。

#### 異常值

異常值:

> 偏離正常范圍的值,不是錯誤值。
> 出現的頻率很低,但是會對數據分析造成偏差

常采用蓋帽法或者數據離散化進行處理

屏幕快照 2021-06-03 下午6.48.12

**1、異常值的判斷**

也叫n個標準差法,**均值±n個標準差內的數據叫做正常值**,一般為2-3個標準差

屏幕快照 2021-06-03 下午6.57.02

計算均值和標準差

```
import numpy as np
import pandas as pd

data = pd.read_excel('university.xlsx')
jz = data['報名人數'].mean()
print(jz)
bzc = data['報名人數'].std()
print(bzc)
```

結果:

> ```
> 1525.2222222222222
> 4975.899109579891
> ```

搭配any(),查看是否有超過上下限的數據,這種數據為異常值

```
top = data['報名人數'].mean() + 2 * data['報名人數'].std()
bottom = data['報名人數'].mean() - 2 * data['報名人數'].std()
```

結果:

> ```
> 11477.020441382005
> -8426.57599693756
> ```

是否有超過下限的情況

```
any(data.報名人數 < bottom) # 結果:False
```

是否有超過上限的情況

```
any(data.報名人數 > top) # 結果: True
```

查看【報名人數】為正常值的數據

```
data[data['報名人數'].between(bottom,top)]
```

可以看出少了索引為4和12的數據,該數據報名人數分別為17388和20000,超出上限11477.020441382005

屏幕快照 2021-06-03 下午7.08.28

也可以畫個直方圖看一下數據的分布情況,感受一下:

```
data.報名人數.plot(kind ='hist')
```

屏幕快照 2021-06-03 下午7.12.13

**箱線法**

> 上四分位數:取3/4位置的數
> 下四分位數:取1/4位置的數
> 分位差 = 上四分位數- 下四分位數
>
> 上界 = 上四分位數 + 1.5*分位差
> 下界= 下四分位數 - 1.5*分位差

**上界 、下界范圍之內的數據叫做正常值,范圍之外的叫做異常值。**

```
# 下四分位數
Q1 = data.報名人數.quantile(0.25)
print(Q1)
# 上四分位數
Q3 =data.報名人數.quantile(0.75)
print(Q3)
# 分位差
IQR = Q3 - Q1
print(IQR)
# 上界
print(Q3 + 1.5 * IQR)
# 下界
print(Q1 - 1.5 * IQR)
# 是否有超出上界的數據
print(any(data.報名人數 > Q3 + 1.5 * IQR))
# 是否有低于下界的數據
print(any(data.報名人數 < Q1 - 1.5 * IQR))
```

結果:

> ```
> 134.5
> 206.5
> 72.0
> 314.5
> 26.5
> True
> True
> ```

箱線圖看一下:

```
data.報名人數.plot(kind = 'box')
```

屏幕快照 2021-06-03 下午7.17.21

說明有超出上限和下限的值

**2、異常值的處理**

方法一:

> 用小于上限最大值去替換超出上限的異常值
> 用大于下限最小值去替換低于下限的異常值

數據準備:
(新增一列【new_報名人數】數據,是為了替換異常值后做對比)

```
data['new_報名人數'] = data['報名人數']
```

計算小于上限的最大值,作為替換值

```
# 計算小于上限的最大值,作為替換值
UL = Q3 + 1.5 * IQR
# 低于上限的最大值
replace_value = data.new_報名人數[data.new_報名人數 < UL].max()
# 用替換值替換超出上限的數據:
data.loc[data.new_報名人數>UL,'new_報名人數'] = replace_value
data
```

最終:

屏幕快照 2021-06-03 下午7.23.45

方法二:

> 低于百分之一分位數的數據用百分之一分位數替換
> 高于百分之九十九分位數的數據用百分之九十九分位數替換

計算百分之一分位數、百分之九十九分位數

```
# 百分之一分位數
P1=data.new_報名人數.quantile(0.01)

# 百分之九十九分位數
P99=data.new_報名人數.quantile(0.99)

```


進行替換

```
data.loc[data['new_報名人數']>P99,'new_報名人數'] = P99

data.loc[data['new_報名人數']<P1,'new_報名人數'] = P1
```

屏幕快照 2021-06-03 下午7.29.22

#### 重復值

一般保留第一條重復數據,對其他重復數據進行移除。

> `判斷重復值 df.duplicated`
>
> df.duplicated(subset=None, keep='first')
>
> 參數說明:
> subset:列標簽,默認使用所有列,若只考慮用某些列來識別重復項,可指定列
> keep,默認first,保留重復值的第一項,也可以指定last,保留最后一項重復值數據
>
> 返回的是一個視圖

```
data.duplicated()
```

True為重復數據

屏幕快照 2021-06-03 下午7.33.10

取出重復值

```
data[data.duplicated()]
```

結果:

屏幕快照 2021-06-03 下午7.34.34

按照指定列判斷重復數據

```
data[data.duplicated(subset=['學院','報名人數'])]
```

屏幕快照 2021-06-03 下午7.36.17

**`刪除重復數據 df.drop_duplicates`**

一般有重復數據后可以刪除

> df.drop_duplicates(subset=None, keep='first', inplace=False)
>
> subset:默認全部列,可以指定特定列來判斷重復數據
> keep:保留重復數據的第一條數據
> inplace:是否就地操作,默認False,返回一個視圖
> True,就地操作,直接在原數組數據上刪除重復值

```
data.drop_duplicates(inplace=True)
data
```

刪除后無重復數據。

 

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
国产成人精品影视| 国产不卡在线看| 香蕉视频一级| 一级女性全黄久久生活片| 久久国产精品自线拍免费| 免费一级片在线| 亚洲精品影院| 九九久久国产精品| 日韩专区在线播放| 999精品视频在线| 日本在线www| 日本特黄特色aa大片免费| 国产欧美精品午夜在线播放| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 青青青草影院| 亚飞与亚基在线观看| 欧美激情在线精品video| 韩国三级视频网站| 国产麻豆精品| 国产91精品一区| 99久久精品国产麻豆| 国产麻豆精品高清在线播放| 日韩男人天堂| 一本伊大人香蕉高清在线观看| 国产一区二区精品| 国产一区二区福利久久| 九九久久国产精品| 免费国产在线观看不卡| 国产一区二区精品久久| 一本伊大人香蕉高清在线观看| 毛片成人永久免费视频| 精品在线视频播放| 999久久狠狠免费精品| 黄视频网站在线免费观看| 日本免费乱人伦在线观看| 四虎影视库| 国产一区二区精品久久91| 国产伦精品一区三区视频| 91麻豆精品国产自产在线观看一区| 久久精品店| 日日夜人人澡人人澡人人看免| 亚洲天堂在线播放| 亚洲 国产精品 日韩| 日韩专区亚洲综合久久| 国产综合91天堂亚洲国产| 精品在线视频播放| 国产精品自拍在线观看| 国产高清在线精品一区二区| 国产一区二区精品久久91| 韩国毛片| 国产91精品一区二区| 国产综合成人观看在线| 国产高清视频免费| 一级片片| 美国一区二区三区| 国产精品123| 成人高清视频在线观看| 九九精品久久| 国产一区二区精品在线观看| 人人干人人草| 麻豆污视频| 免费国产在线观看不卡| 久久久久久久男人的天堂| 尤物视频网站在线观看| 深夜做爰性大片中文| 久久国产精品自由自在| 日韩一级黄色大片| 成人a大片在线观看| 国产a视频| 91麻豆精品国产高清在线| 一级女人毛片人一女人| 国产成人精品综合在线| 天天色成人| 日本伦理黄色大片在线观看网站| 欧美国产日韩久久久| 香蕉视频一级| 国产麻豆精品免费视频| 国产精品免费久久| 成人a大片高清在线观看| 国产不卡高清| 日日爽天天| 欧美另类videosbestsex | 天天做日日干| 超级乱淫伦动漫| 久久精品人人做人人爽97| 久久99欧美| 国产伦精品一区三区视频| 亚洲第一页色| 欧美大片毛片aaa免费看| 97视频免费在线观看| 亚洲 男人 天堂| 久久99这里只有精品国产| 色综合久久天天综合观看| 国产网站免费视频| 四虎久久影院| 香蕉视频久久| 亚欧成人乱码一区二区| 亚欧成人乱码一区二区| 亚洲第一页色| 国产综合91天堂亚洲国产| 精品久久久久久中文字幕2017| 精品国产一区二区三区久久久狼| 精品视频在线看| 日韩专区在线播放| 欧美激情中文字幕一区二区| 日韩专区亚洲综合久久| 欧美国产日韩在线| 国产成人精品综合| 天天做日日爱| 999久久狠狠免费精品| 日韩在线观看视频黄| 99久久精品国产国产毛片| 99色视频| a级毛片免费全部播放| 国产视频一区二区在线观看| 久久99这里只有精品国产| 成人a大片在线观看| 精品视频免费看| 国产精品123| 国产一区免费在线观看| 日韩av成人| 亚洲爆爽| 午夜久久网| 国产一区二区精品久久91| 国产一级生活片| 成人在免费观看视频国产| 99久久精品国产高清一区二区| 国产成人女人在线视频观看| 日韩免费在线视频| 欧美爱色| 日本特黄特黄aaaaa大片| 久久精品免视看国产明星| 久久精品免视看国产明星| 精品久久久久久中文| 国产视频久久久久| 99久久精品国产免费| 成人在免费观看视频国产| 天天色成人| 国产美女在线观看| 日韩专区一区| 黄视频网站免费观看| 精品视频免费在线| 美国一区二区三区| 免费的黄色小视频| 999精品视频在线| 你懂的日韩| 日韩在线观看视频黄| 精品国产三级a∨在线观看| 国产福利免费观看| 成人高清视频免费观看| 四虎影视库国产精品一区| 国产a一级| 日韩av东京社区男人的天堂| 国产精品自拍亚洲| 日本免费乱人伦在线观看| 一级女性全黄久久生活片| 国产视频久久久| 精品久久久久久中文| 青青久久国产成人免费网站| 99久久视频| 日韩av成人| 国产成人女人在线视频观看| 国产一区二区精品久久91| 天天色色色| 午夜在线影院| 国产一区国产二区国产三区| 亚洲爆爽| a级精品九九九大片免费看| 久久国产精品永久免费网站| 欧美激情一区二区三区在线 | 国产不卡在线看| 国产伦精品一区三区视频| 美国一区二区三区| 午夜欧美成人久久久久久| 欧美激情影院| 一本高清在线| 欧美大片aaaa一级毛片| 四虎久久影院| 国产不卡在线观看| 台湾美女古装一级毛片| 黄视频网站免费看| 国产一区二区精品| 欧美日本免费| 欧美日本韩国| 国产一区二区精品| 欧美18性精品| 精品国产亚洲人成在线| 成人av在线播放| 日韩avdvd| 午夜激情视频在线观看| 欧美a级成人淫片免费看| 日本特黄特色aa大片免费| 国产麻豆精品hdvideoss| 香蕉视频久久| 国产成人精品综合| 美国一区二区三区| 一级毛片视频播放| 久草免费在线观看| 欧美国产日韩在线| 国产精品免费久久|