반응형
한국어를 가지고 실험을 해보기 위해 구글링을 해보았지만 생각보다 한국어 데이터가 많지 않았다.
공개되어 있는 한국어 dataset 을 링크로 남겨두고, 새로 추가 될 때 마다 갱신할 예정이다.
※ 혹시라도 댓글로 추가할 dataset 알려 주시면 추가하도록 하겠습니다.
코퍼스 명 | 용도 | 설명 | 링크 |
Naver sentiment movie corpus v1.0 | 분류 | 네이버 영화 리뷰 (긍정, 부정) 분류 라벨링 됨 | https://github.com/e9t/nsmc |
Chatbot_data | 분류 | 채팅 대화 (일상,긍정,부정) 분류 라벨링 됨 | https://github.com/songys/Chatbot_data |
청와대 국민청원 사이트의 만료된 청원 데이터 모음 | RAW | 일자,카테고리,제목,내용 등 만료된 청원 Raw 데이터 | https://github.com/akngs/petitions |
Korean NER Corpus | NER | 한국어 NER 용 데이터 (NER, 형태소) | https://github.com/machinereading/KoreanNERCorpus |
Korean Parallel corpora | 번역 | 번역용 한국어/영어, 한국어/불어 병렬 데이터 | https://github.com/j-min/korean-parallel-corpora |
KorQuAD 1.0 | MRC | MRC 용 Wikipedia에 대한 질문 답변 데이터 | https://korquad.github.io/category/1.0_KOR.html |
KorQuAD 2.1 | MRC | MRC 용 Wikipedia에 대한 질문 답변 데이터 (1.0 보다 데이터가 큼) | https://korquad.github.io/ |
AI허브 AI데이터 | 다양 | 법률,특허,상식,대화 등 다양한 분야의 학습용 데이터 제공 (데이터 신청 별도 해야함) | http://www.aihub.or.kr/ai_data |
국립국어원 언어정보나눔터 | 다양 | 말뭉치, 대화 자료등등 방대한 한국어 데이터 제공 (학습을 위해서는 전처리가 많이 필요함) | https://ithub.korean.go.kr/user/total/database/corpusManager.do |
반응형
'IT > NLP' 카테고리의 다른 글
Colab 에 Mecab name 'Tagger' is not defined 오류 없이 설치하는 방법 (0) | 2020.01.06 |
---|---|
Mecab 오류 (NameError: name 'Tagger' is not defined) 처리 방법 (0) | 2020.01.06 |
댓글