이 누리집은
대한민국 공식 전자정부 누리집입니다.
<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.
최대한 빠르게 복구할 수 있도록 노력하겠습니다.
* 시스템 이용 장애 문의: 051-927-7111
과제 개요
‘2024 연결 문장 추론’ 과제는 세 문장으로 이루어진 이야기의 첫 번째 문장과 세 번째 문장 사이에 들어갈 논리적이고 의미적으로 가장 잘 어울리는 문장을 선택하는 것이 목표이다. 이 과제는 국립국어원이 추진한 ‘2022년 이야기 완성 평가 말뭉치 연구 분석’ 사업의 결과물을 활용하였으며 문맥 이해 및 문장 간의 연결성을 평가하여 자연어 처리 시스템의 문맥적 응집력을 강화하는 데 중점을 둔다. 이러한 능력은 대화 시스템, 기계 번역, 문서 요약 등 다양한 자연어 처리 응용 분야에 중요하다.
항목 | 내용 |
문장 1 | 상규가 부엌에서 청소기를 밀고 있었다. |
문장 3 | 상규는 강아지가 청소기 소리를 좋아한다는 걸 알았다. |
문장 2 후보 1 | 그때 강아지가 청소기 주위에서 뛰어다녔다. |
문장 2 후보 2 | 그때 강아지가 청소기를 보고 겁먹어 방으로 들어갔다. |
정답 | 후보 1(“sentence_2_candidate_1”) |
과제 정의
이 과제는 주어진 첫 번째 문장(문장 1번)과 세 번째 문장(문장 3번) 사이에 들어갈 수 있는 두 개의 후보 문장 중에서 가장 적절한 문장을 선택하는 인공지능을 개발하는 것이 목표이다. 참가자는 두 문장 사이의 의미적 연속성과 논리적 일관성을 분석하여 가장 적합한 후보를 판별해야 한다.
‘연결 문장 추론’ 과제의 학습용 데이터 세트는 ‘문장 1’, ‘문장 3’, ‘문장 2의 후보 1’, ‘문장 2의 후보 2’의 형태로 구성되며, ‘문장 2의 후보 1’, ‘문장 2의 후보 2’ 중 정답 문장을 선택하는 능력을 정량적으로 평가한다. 정량적 지표로는 정확도(Accuracy)를 사용한다.
분류 | 내용 | 예시 | 비고 |
입력 | 문장 1 | 상규가 부엌에서 청소기를 밀고 있었다. | 문자열 |
문장 3 | 상규는 강아지가 청소기 소리를 좋아한다는 걸 알았다. | 문자열 | |
문장 2 후보 1 | 그때 강아지가 청소기 주위에서 뛰어다녔다. | 문자열 | |
문장 2 후보 2 | 그때 강아지가 청소기를 보고 겁먹어 방으로 들어갔다. | 문자열 | |
출력 | 문장 2 후보 중 더 적절한 문장 | 후보 1(“sentence_2_candidate_1”) | 문자열 |
평가 | 정확도(Accuracy) | |
데이터 세트의 구성
구분 | 훈련 | 검증 | 시험 |
문서 수 | 1,600 | 200 | 200 |
평가 지표: 정확도(Accuracy)
기준 모델(baseline model):
이 과제의 기준 모델은 깃허브(github)를 통해 공개되어 있다.
https://github.com/tutoruslabs-nlp/Korean_SR_2024
대회 참가 규정
- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.
- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.
- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.
- 라이선스에 문제가 없는 모델을 개발하여야 한다.
- 외부 API를 통해 호출하는 모델(OpenAI API 등)은 제출할 수 없다.
- 외부 데이터 추가 사용 가능
- 외부에 공개된 모든 데이터를 학습 데이터로 사용 가능
- 언어 모델을 이용하여 증강 후 학습 데이터로 사용 가능
시스템 사용 방법: 알립니다 → 사용 안내 참고
문의: 진행 중 과제 → ‘연결 문장 추론’ 과제 클릭 → 문의