자연어 처리를 공부하면서 관련 데이터셋을 통해 차근차근 감성 분석을 진행해 볼 예정입니다.
자연어 처리의 전 과정을 공부하는 동시에 진행하기 때문에 느리고 미흡한 점이 많을 수 있습니다.
피드백해주시면 적극 반영하도록 하겠습니다. 감사합니다.
사용할 Dataset
Naver sentiment movie corpus v1.0
Naver sentiment movie corpus. Contribute to e9t/nsmc development by creating an account on GitHub.
github.com
Dataset은 한국어로 된 영화 리뷰 데이터 집합입니다.
네이버 무비의 리뷰를 스크랩했으며, Dataset구성은 2011년의 Large movie review dataset에 명시된 방법에 기초합니다.
선택 이유 : 코퍼스마다 label이 적혀있어 코퍼스의 감성을 분석을 하기에 적합하다고 생각하여 선택하게 되었습니다.