[시각화 도구/Matplotlib - 기본 그래프 도구] 히스토그램

2022. 11. 17. 12:48

히스토그램은 변수가 하나인 단변수 데이터의 빈도수를 그래프로 표현한다.

x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 개수(빈도)를 y축에 표시한다.

구간을 나누는 간격의 크기에 따라 빈도가 달라지고 히스토그램의 모양이 변한다.

 

UCI 자동차 연비 데이터셋을 사용해서 히스토그램을 그려본다.

 

# 예제 4-19

import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('classic')

df = pd.read_csv('auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']

df['mpg'].plot(kind='hist', bins=10, color='coral', figsize=(10, 5))

plt.title('Histogram')
plt.xlabel('mpg')
plt.show()

plot() 메소드kind='hist' 옵션을 넣고, bins=10 옵션을 지정하여 10개 구간으로 나눈다.

 

예제 4-19 출력 결과

자동차 연비 값은 대부분 좌측으로 편향되어 있어서 연비가 낮은 구간에 집중되어 있는 경향을 보인다.


파이썬 머신러닝 판다스 데이터분석
저자 : 오승환
출판 : 정보문화사
발매 : 2019.06.05

 

BELATED ARTICLES

more