|
공개하는 자료는 한국어 분야의 빅데이터로, 전문 분야에서는 말뭉치(corpus)라고 한다. 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 다양한 한국어 말뭉치로 학습을 해야 한다.
국립국어원은 2018년 대규모 한국어 학습 자료 구축 사업을 시작했으며, 이번 자료는 작년까지 구축한 18억 어절 규모의 말뭉치이다.
자료는 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.
‘모두의 말뭉치’에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 일상생활에서의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 있다. 각종 인터넷 사이트 블로그, 게시판 등의 자료 210만 건도 포함됐다.
국립국어원은 “초기 구축에 큰 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 중소기업 등이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다”며 “대기업이나 관련 연구 기관 등도 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 됐다”고 했다.










