청와대 청원 분류 경진대회 - 데이터 전처리

2022. 9. 16. 14:01

EDA를 바탕으로 데이터를 전처리한다.

 

우선 판다스의 dropna와 drop_duplicates를 이용해서

공백데이터와 중복데이터를 제거해준다.

 

 

그 후에 데이터에 한글 이외의 부분을 모두 없애고

스페이스바가 중복되어 들어간 부분들을 정리해준다.


최대한 간결하게 데이터를 정리해서 BERT모델을 파인튜닝할 것인데

단어로 토큰화하는것 보다 텍스트 전체를 파인튜닝하는게 BERT를 사용할 때

더 좋은 성능이 나올 것이라 생각하기 때문이다.

 

그 이유로는

LSTM이나 트랜스포머 기반의 BERT가 앞뒤의 데이터를 연관지어 학습하도록 모델링되었지만,

한국어의 경우 영어와 다르게 단어들만의 앞뒤관계로는 문맥의 뜻이 제대로 파악이 되지 않을 것이라

생각하기 때문이다.

BELATED ARTICLES

more