matplotlib
박스 플롯은 범주형 데이터의 분포를 파악하는데 적합하다. 박스 플롯은 5개의 통계 지표(최소값, 1분위값, 중간값, 3분위값, 최대값)을 제공한다. # 예제 4-24 import pandas as pd import matplotlib.pyplot as plt from matplotlib import font_manager, rc font_path = 'C:\Windows\Fonts\malgunsl.ttf' font_name = font_manager.FontProperties(fname=font_path).get_name() rc('font', family=font_name) plt.style.use('seaborn-poster') plt.rcParams['axes.unicode_minus']=False..
파이 차트는 원을 파이 조각처럼 나누어서 표현한다. 조각의 크기는 해당 변수에 속하는 데이터 값의 크기에 비례한다. plot() 메소드에 kind='pie' 옵션을 사용하여 그린다. # 예제 4-23 import pandas as pd import matplotlib.pyplot as plt plt.style.use('default') df = pd.read_csv('auto-mpg.csv', header=None) df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name'] df['count'] = 1 df_origin = df.groupby('o..
산점도는 서로 다른 두 변수 사이의 관계를 나타낸다. 이때 각 변수는 연속되는 값을 갖는다. 일반적으로 정수형 또는 실수형 값이다. 2개의 연속 변수를 각각 x축과 y축에 놓고, 데이터 값이 위치하는 (x, y)좌표를 찾아서 점으로 표시한다. 두 연속 변수의 관계를 보여준다는 점에서 선 그래프와 비슷하다. 선 그래프를 그릴 때 plot() 메소드에 'o' 옵션을 사용하면 선 없이 점으로만 표현되는데, 사실상 산점도라고 볼 수 있다. # 예제 4-20 import pandas as pd import matplotlib.pyplot as plt plt.style.use('default') df = pd.read_csv('auto-mpg.csv', header=None) df.columns = ['mpg', ..
히스토그램은 변수가 하나인 단변수 데이터의 빈도수를 그래프로 표현한다. x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 개수(빈도)를 y축에 표시한다. 구간을 나누는 간격의 크기에 따라 빈도가 달라지고 히스토그램의 모양이 변한다. UCI 자동차 연비 데이터셋을 사용해서 히스토그램을 그려본다. # 예제 4-19 import pandas as pd import matplotlib.pyplot as plt plt.style.use('classic') df = pd.read_csv('auto-mpg.csv', header=None) df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration'..
막대 그래프는 데이터 값의 크기에 비례하여 높이를 갖는 직사각형 막대로 표현한다. 세로형과 가로형 막대 그래프 두 종류가 있다. 다만, 세로형의 경우 정보 제공 측면에서 보면 선 그래프와 큰 차이가 없다. 세로형 막대 그래프는 시간적으로 차이가 나는 두 점에서 데이터 값의 차이를 잘 설명한다. 즉, 시계열 데이터를 표현하는데 적합하다. plot() 메소드에 kind='bar' 옵션을 입력한다. # 예제 4-16 import pandas as pd import matplotlib.pyplot as plt from matplotlib import font_manager, rc font_path = 'C:\Windows\Fonts\malgunsl.ttf' font_name = font_manager.FontP..
면적 그래프는 각 열의 데이터를 선 그래프로 구현하는데, 선 그래프와 x축 사이의 공간에 색이 입혀진다. 색의 투명도는 기본값 0.5로 투과되어 보인다. 선 그래프를 그리는 plot() 메소드에 kind='area' 옵션을 추가하면 간단하게 그릴 수 있다. stacked=True 옵션(기본값)을 추가하면 각 열의 선 그래프를 다른 열의 선 그래프 위로 쌓아 올리는 방식으로 표현된다. 각 열의 패턴과 함께 열 전체의 합계가 어떻게 변하는지 파악할 수 있게 된다. 따라서, 면적 그래프를 선 그래프를 확장한 개념으로 누적 선 그래프라고 부르기도 한다. stacked=False 옵션을 지정하면 각 열의 선 그래프들이 누적되지 않고 서로 겹치도록 표시된다. 선 그래프를 동일한 화면에 여러 개를 그린 것과 같은 결..
그래프를 이용하면 데이터의 구조와 패턴을 파악하기 용이하다. 또한 다양한 관점에서 데이터에 관한 통찰력을 제공한다. Matplotlib은 파이썬 표준 시각화 도구라고 부를 수 있을 정도로 2D 평면 그래프에 관한 다양한 포맷과 기능을 지원한다. 비교적 사용법을 익히기 쉽다는 점에서 실무에서 많이 활용된다. 선 그래프는 연속하는 데이터 값들을 직선 또는 곡선으로 연결하여 데이터 값 사이의 관계를 나타낸다. 특히 시계열 데이터와 같이 연속적인 값의 변화와 패턴을 파악하는데 적합하다. 선 그래프를 그리기 위해 통계청에서 제공하는 시도 간 인구 이동 데이터셋을 사용한다. 목차 1. 기본 사용법 2. 차트 제목, 축 이름 추가 3. Matplotlib 한글 폰트 오류 해결 4. 그래프 꾸미기 5. 화면 분할하여 ..



