[데이터 사전 처리/데이터 표준화] 단위 환산

2022. 12. 2. 13:08

같은 데이터셋 안에서 서로 다른 측정 단위를 사용한다면, 전체 데이터의 일관성 측면에서 문제가 발생한다.

따라서 측정 단위를 동일하게 맞출 필요가 있다.

흔히, 외국 데이터를 가져오면 국내에서 잘 사용하지 않는 도량형 단위를 사용하는 경우가 많다.

영미권에서 주로 사용하는 마일, 야드, 온스 등이 있는데, 한국에서 사용하는 미터, 평, 그램 등으로 변환하는 것이 좋다.

 

UCI 자동차 연비 데이터셋을 사용하여 여러 예제를 살펴본다.

여기서 'mpg' 열은 영미권에서 사용하는 '갤런당 마일' 단위로 연비를 표시하고 있다.

한국에서 사용하는 익숙한 표기법인 '리터당 킬로미터' 단위로 변환해 본다.

 

# 예제 5-8

import pandas as pd

df = pd.read_csv('auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']
print(df.head(3))
print('\n')

mpg_to_kpl = 1.60934 / 3.78541

df['kpl'] = df['mpg'] * mpg_to_kpl
print(df.head(3))
print('\n')

df['kpl'] = df['kpl'].round(2)
print(df.head(3))

1마일은 1.60934km이고, 1갤런은 3.78541리터이다. 따라서 1mpg는 0.425km/L이다.

round(2) 명령은 소수점 아래 둘째자리 반올림을 뜻한다.

 

예제 5-8 출력 결과


파이썬 머신러닝 판다스 데이터분석
저자 : 오승환
출판 : 정보문화사
발매 : 2019.06.05

 

BELATED ARTICLES

more