청와대 청원 분류 경진대회

청와대 청원 분류 경진대회 - 데이터 EDA
/category/%EB%8D%B0%EC%9D%B4%EC%BD%98/%EC%B2%AD%EC%99%80%EB%8C%80%20%EC%B2%AD%EC%9B%90%20%EB%B6%84%EB%A5%98%20%EA%B2%BD%EC%A7%84%EB%8C%80%ED%9A%8C

2022. 9. 16. 13:45

주어진 학습 데이터는 아무런 처리가 되어있지 않은 로우 데이터이다.

우선 빈 데이터, 중복되는 데이터가 있는지 확인해본다.

8개의 null데이터와

638개의 중복데이터가 존재하는 것을 확인했다.

라벨별로 데이터 수가 균형적인지 확인해본다.

카테고리마다 데이터의 수가 같은 것을 확인했다.

텍스트의 길이를 확인해본다.

세로축은 데이터수, 가로축이 길이이다.

가장 긴 텍스트의 길이는 9800정도.

대부분의 텍스트가 3000이하로 형성돼있다.

각각 분석에 따라 전처리할 때

1. 공백 데이터와 중복 데이터 제거

2. 데이터가 이미 균형적이기 때문에 균형 신경 X

3. 텍스트의 길이는 3000정도로 생각

을 신경써준다.

청와대 청원 분류 경진대회 - 데이터 전처리 (0)	2022.09.16
청와대 청원 분류 경진대회 - 소개 (0)	2022.09.16