청와대 청원 분류 경진대회 - 데이터 EDA
2022. 9. 16. 13:45
주어진 학습 데이터는 아무런 처리가 되어있지 않은 로우 데이터이다.
우선 빈 데이터, 중복되는 데이터가 있는지 확인해본다.
8개의 null데이터와
638개의 중복데이터가 존재하는 것을 확인했다.
라벨별로 데이터 수가 균형적인지 확인해본다.
카테고리마다 데이터의 수가 같은 것을 확인했다.
텍스트의 길이를 확인해본다.
세로축은 데이터수, 가로축이 길이이다.
가장 긴 텍스트의 길이는 9800정도.
대부분의 텍스트가 3000이하로 형성돼있다.
각각 분석에 따라 전처리할 때
1. 공백 데이터와 중복 데이터 제거
2. 데이터가 이미 균형적이기 때문에 균형 신경 X
3. 텍스트의 길이는 3000정도로 생각
을 신경써준다.
'데이콘 > 청와대 청원 분류 경진대회' 카테고리의 다른 글
청와대 청원 분류 경진대회 - 데이터 전처리 (0) | 2022.09.16 |
---|---|
청와대 청원 분류 경진대회 - 소개 (0) | 2022.09.16 |