청와대 청원 분류 경진대회

청와대 청원 분류 경진대회 - 데이터 전처리
/category/%EB%8D%B0%EC%9D%B4%EC%BD%98/%EC%B2%AD%EC%99%80%EB%8C%80%20%EC%B2%AD%EC%9B%90%20%EB%B6%84%EB%A5%98%20%EA%B2%BD%EC%A7%84%EB%8C%80%ED%9A%8C

2022. 9. 16. 14:01

EDA를 바탕으로 데이터를 전처리한다.

우선 판다스의 dropna와 drop_duplicates를 이용해서

공백데이터와 중복데이터를 제거해준다.

그 후에 데이터에 한글 이외의 부분을 모두 없애고

스페이스바가 중복되어 들어간 부분들을 정리해준다.

최대한 간결하게 데이터를 정리해서 BERT모델을 파인튜닝할 것인데

단어로 토큰화하는것 보다 텍스트 전체를 파인튜닝하는게 BERT를 사용할 때

더 좋은 성능이 나올 것이라 생각하기 때문이다.

그 이유로는

LSTM이나 트랜스포머 기반의 BERT가 앞뒤의 데이터를 연관지어 학습하도록 모델링되었지만,

한국어의 경우 영어와 다르게 단어들만의 앞뒤관계로는 문맥의 뜻이 제대로 파악이 되지 않을 것이라

생각하기 때문이다.

청와대 청원 분류 경진대회 - 데이터 EDA (0)	2022.09.16
청와대 청원 분류 경진대회 - 소개 (0)	2022.09.16