청와대 청원 분류 경진대회 - 데이터 EDA

2022. 9. 16. 13:45

주어진 학습 데이터는 아무런 처리가 되어있지 않은 로우 데이터이다.

우선 빈 데이터, 중복되는 데이터가 있는지 확인해본다.

 

8개의 null데이터와

638개의 중복데이터가 존재하는 것을 확인했다.

 

 

라벨별로 데이터 수가 균형적인지 확인해본다.

 

카테고리마다 데이터의 수가 같은 것을 확인했다.

 

 

텍스트의 길이를 확인해본다.

세로축은 데이터수, 가로축이 길이이다.

가장 긴 텍스트의 길이는 9800정도.

대부분의 텍스트가 3000이하로 형성돼있다.


각각 분석에 따라 전처리할 때

1. 공백 데이터와 중복 데이터 제거

2. 데이터가 이미 균형적이기 때문에 균형 신경 X

3. 텍스트의 길이는 3000정도로 생각

을 신경써준다.

BELATED ARTICLES

more