닫기

Advertisements

국립국어원, AI에 가르칠 한국어 빅데이터 18억 어절 분량 공개

기사듣기 기사듣기중지

공유하기

닫기

  • 카카오톡

  • 페이스북

  • 트위터 엑스

URL 복사

https://onelink.asiatoday.co.kr/kn/view.php?key=20200825010013336

글자크기

닫기

전혜원 기자

승인 : 2020. 08. 25. 13:40

구글 검색 선호 출처 추가 Google 검색에서 아시아투데이 기사를 더 자주 볼 수 있습니다.

Advertisements

Advertisements

ㅇ
‘모두의 말뭉치’ 첫 화면./제공=국립국어원
국립국어원은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 25일 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에서 공개한다고 밝혔다.

공개하는 자료는 한국어 분야의 빅데이터로, 전문 분야에서는 말뭉치(corpus)라고 한다. 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 다양한 한국어 말뭉치로 학습을 해야 한다.

국립국어원은 2018년 대규모 한국어 학습 자료 구축 사업을 시작했으며, 이번 자료는 작년까지 구축한 18억 어절 규모의 말뭉치이다.

자료는 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.

‘모두의 말뭉치’에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 일상생활에서의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 있다. 각종 인터넷 사이트 블로그, 게시판 등의 자료 210만 건도 포함됐다.

국립국어원은 “초기 구축에 큰 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 중소기업 등이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다”며 “대기업이나 관련 연구 기관 등도 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 됐다”고 했다.

전혜원 기자

ⓒ 아시아투데이, 무단전재 및 재배포 금지

기사제보 후원하기