데이콘


EDA를 바탕으로 데이터를 전처리한다. 우선 판다스의 dropna와 drop_duplicates를 이용해서 공백데이터와 중복데이터를 제거해준다. 그 후에 데이터에 한글 이외의 부분을 모두 없애고 스페이스바가 중복되어 들어간 부분들을 정리해준다. 최대한 간결하게 데이터를 정리해서 BERT모델을 파인튜닝할 것인데 단어로 토큰화하는것 보다 텍스트 전체를 파인튜닝하는게 BERT를 사용할 때 더 좋은 성능이 나올 것이라 생각하기 때문이다. 그 이유로는 LSTM이나 트랜스포머 기반의 BERT가 앞뒤의 데이터를 연관지어 학습하도록 모델링되었지만, 한국어의 경우 영어와 다르게 단어들만의 앞뒤관계로는 문맥의 뜻이 제대로 파악이 되지 않을 것이라 생각하기 때문이다.


주어진 학습 데이터는 아무런 처리가 되어있지 않은 로우 데이터이다. 우선 빈 데이터, 중복되는 데이터가 있는지 확인해본다. 8개의 null데이터와 638개의 중복데이터가 존재하는 것을 확인했다. 라벨별로 데이터 수가 균형적인지 확인해본다. 카테고리마다 데이터의 수가 같은 것을 확인했다. 텍스트의 길이를 확인해본다. 세로축은 데이터수, 가로축이 길이이다. 가장 긴 텍스트의 길이는 9800정도. 대부분의 텍스트가 3000이하로 형성돼있다. 각각 분석에 따라 전처리할 때 1. 공백 데이터와 중복 데이터 제거 2. 데이터가 이미 균형적이기 때문에 균형 신경 X 3. 텍스트의 길이는 3000정도로 생각 을 신경써준다.


청와대 청원 분류 경진대회는 데이콘에서 교육용으로 제공하는 무료 프로젝트이다. 주어진 청와대 청원 데이터를 카테고리별로 분류하는 것이 목표가 된다. 학습용 데이터로 주어지는 train.csv파일의 내용이다. 40000개의 로우데이터가 주어진다. category열은 말그대로 청원 데이터의 카테고리를 뜻하는데 각각 0: 인권/성평등 1: 문화/예술/체육/언론 2: 육아/교육 을 뜻한다. test.csv파일이다. 위 데이터의 카테고리를 예측해서 제출한다. 자연어 처리를 이용한 분류 문제이고, 나는 BERT를 사용하여 문제를 풀어보겠다.