[데이터 사전 처리/데이터 표준화]
2022. 12. 2. 13:02
실무에서 접하는 데이터셋은 다양한 사람들의 손을 거쳐 만들어진다.
여러 곳에서 수집한 자료들은 단위 선택, 대소문자 구분, 약칭 활용 등 여러 가지 원인에 의해 다양한 형태로 표현된다.
잘 정리된 것으로 보이는 자료를 자세히 들여다보면, 서로 다른 단위가 섞여 있거나 같은 대상을 다른 형식으로 표현한 경우가 의외로 많다.
이처럼 동일한 대상을 표현하는 방법에 차이가 있으면, 분석의 정확도는 현저히 낮아진다. 따라서 데이터 포멧을 일관성 있게 표준화하는 작업이 필요하다.
![]() |
|
'공부 > 파이썬 머신러닝 판다스 데이터 분석' 카테고리의 다른 글
[데이터 사전 처리/데이터 표준화] 자료형 변환 (1) | 2022.12.02 |
---|---|
[데이터 사전 처리/데이터 표준화] 단위 환산 (0) | 2022.12.02 |
[데이터 사전 처리/중복 데이터 처리] (0) | 2022.12.02 |
[데이터 사전 처리/누락 데이터 처리] (0) | 2022.11.28 |
[시각화 도구/Folium 라이브러리 - 지도 활용] (0) | 2022.11.23 |