|
국립국어원, 한국어-외국어 병렬 말뭉치 등 인공지능 언어 자원 12종 새로 공개
|
|
- 한국수어·국어 역사 자료 말뭉치 함께 공개, 인공지능의 한국어 소통 확장에 기여 |
국립국어원은 9월 29일(월)에 신규 말뭉치 12종을 국립국어원 '모두의 말뭉치'(kli.korean.go.kr/corpus)에서 공개하였다.
국립국어원은 한국어 특화 인공지능 개발과 연구에 필요한 고품질 말뭉치 등 언어자원을 구축하여 산업계와 학계에 활용할 수 있도록 공개하고 있으며, 이번에 새로 공개한 12종을 포함하여 지금까지 134종의 한국어 말뭉치를 공개하였다.
이번에 공개된 말뭉치는 다국어 언어 처리 및 인공지능 기반의 외국어 통·번역 모델의 품질 향상에 필수적인 한국어-외국어 병렬 말뭉치 8종, 한국수어 사용자의 소통 편의 증진을 위한 수어통역 기술 개발에 활용할 수 있는 한국수어 말뭉치 3종, 국어 역사 자료 말뭉치 1종이다. 이 말뭉치들은 인공지능 시대에 한국어를 매개로 하는 소통 확장 및 한국언어문화 전승에 기여할 수 있는 언어자원으로서 의의가 있다.
지금까지 공개된 134종의 말뭉치는 국어 연구와 언어 정보 처리 분야 연구 및 기술 개발에 활용하고자 하는 연구자, 개발자 등 누구나 이용할 수 있으며, '모두의 말뭉치' 누리집(kil.korean.go.kr/corpus)에서 온라인 약정서를 작성하여 승인을 받으면 내려받을 수 있다.
국립국어원 관계자는 "한국어를 잘하고 한국문화를 잘 아는 독자 인공지능 개발을 뒷받침할 수 있도록 2030년까지 한국어 · 한국언어문화 말뭉치 누적 340종을 지속적으로 공개할 계획"이라고 밝혔다.
[붙임] 공개 대상 말뭉치 설명 및 이용 절차 각 1부
|
담당 부서
|
국립국어원 |
책임자 |
과장 |
이현주 |
(02-2669-9750) |
|
언어정보과 |
담당자 |
학예연구관 |
박미영 |
(02-2669-9754)
|
구분 |
종류 |
내용 |
신규 자료 (12종) |
<한국어-외국어 병렬 말뭉치> 8종 ① 한국어-힌디어 병렬 말뭉치 2024 ② 한국어-인도네시아어 병렬 말뭉치 2024 ③ 한국어-캄보디아 크메르어 병렬 말뭉치 2024 ④ 한국어-러시아어 병렬 말뭉치 2024 ⑤ 한국어-태국어 병렬 말뭉치 2024 ⑥ 한국어-필리핀 타갈로그어 병렬 말뭉치 2024 ⑦ 한국어-우즈베크어 병렬 말뭉치 2024 ⑧ 한국어 베트남어 병렬 말뭉치 2024 |
o 한국어 문어 데이터(국립국어원 신문 말뭉치 2023)와 구어 데이터(국립국어원 일상 대화 말뭉치 2022, 자체 구축 일상 대화)를 각각 8개 외국어(베트남어, 인도네시아어, 필리핀 타갈로그어, 러시아어, 우즈베크어)로 번역하여 구성한 병렬 말뭉치 |
<한국수어 말뭉치> 3종 ⑨ 한국수어 원시 말뭉치 2025 ⑩ 한국수어 주석 말뭉치 2025 ⑪ 한국수어-한국어 병렬 말뭉치 2025
|
o 2명의 농인이 수어로 나눈 영상으로 구성된 원시 말뭉치 o 2명의 농인이 수어로 대화를 나눈 수어 영상을 한국어로 번역하고 수어 단어를 분절하여 기본 주석을 단 다중 번역 주석 말뭉치 o 2명의 농인이 수어로 나눈 대화 영상 자료를 한국어로 번역하여 구성한 병렬 말뭉치 |
<국어 역사 자료 말뭉치> 1종 ⑫ 국어 역사 자료 말뭉치 2024 |
o 한글 창제 이후 17~19세기에 쓰여진 언간(한글편지) 자료와 20세기 초의 신소설 문헌자료의 원시 말뭉치 |
<모두의 말뭉치(kli.korean.go.kr/corpus) 첫 화면>
□ 이용 절차
ㅇ (이용 대상) 국어 연구와 언어 정보 처리 분야 연구 및 기술 개발에 말뭉치를 활용하고자 하는 연구자, 개발자, 사업자 등 누구나
ㅇ (준수 사항)
- 말뭉치 신청 시 작성, 승인된 목적 외에 이용 불가
- 제공받은 말뭉치를 제삼자에게 양도, 대여, 이용 허락 불가
- 제공받은 자료를 활용한 결과물 외부 공개 시 사전 승인 필요
ㅇ (말뭉치 신청 절차)