본문 바로가기
IT/NLP

한국어 dataset 모음

by 소소메모 2020. 1. 2.
반응형

한국어를 가지고 실험을 해보기 위해 구글링을 해보았지만 생각보다 한국어 데이터가 많지 않았다.

공개되어 있는 한국어 dataset 을 링크로 남겨두고, 새로 추가 될 때 마다 갱신할 예정이다.

 

※ 혹시라도 댓글로 추가할 dataset 알려 주시면 추가하도록 하겠습니다.

 

코퍼스 명 용도 설명 링크
Naver sentiment movie corpus v1.0 분류 네이버 영화 리뷰 (긍정, 부정) 분류 라벨링 됨 https://github.com/e9t/nsmc
Chatbot_data 분류 채팅 대화 (일상,긍정,부정) 분류 라벨링 됨 https://github.com/songys/Chatbot_data
청와대 국민청원 사이트의 만료된 청원 데이터 모음 RAW 일자,카테고리,제목,내용 등 만료된 청원 Raw 데이터 https://github.com/akngs/petitions
Korean NER Corpus NER 한국어 NER 용 데이터 (NER, 형태소) https://github.com/machinereading/KoreanNERCorpus
Korean Parallel corpora 번역 번역용 한국어/영어, 한국어/불어 병렬 데이터 https://github.com/j-min/korean-parallel-corpora
KorQuAD 1.0 MRC MRC 용 Wikipedia에 대한 질문 답변 데이터 https://korquad.github.io/category/1.0_KOR.html
KorQuAD 2.1 MRC MRC 용 Wikipedia에 대한 질문 답변 데이터 (1.0 보다 데이터가 큼) https://korquad.github.io/
AI허브 AI데이터 다양 법률,특허,상식,대화 등 다양한 분야의 학습용 데이터 제공 (데이터 신청 별도 해야함) http://www.aihub.or.kr/ai_data
국립국어원 언어정보나눔터 다양 말뭉치, 대화 자료등등 방대한 한국어 데이터 제공 (학습을 위해서는 전처리가 많이 필요함) https://ithub.korean.go.kr/user/total/database/corpusManager.do

 

 

반응형

댓글