화면 로딩중입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기
인공지능(AI)말평>진행 중인 과제>과제 개요

 

과제 개요

 

함의 분석(Textual Entailment)’이란 주어진 두 문장이 함의 관계인지, 중립 관계인지, 모순 관계인지를 분석하는 과제이다. 함의 분석 결과 설명문 생성 과제는 국립국어원이 추진한 '2022년 말뭉치 함의 분석 및 연구' 사업의 결과물을 활용하여 인공지능 모델이 두 문장 사이의 함의 관계를 올바르게 찾는 것을 넘어, 최근 거대 언어 모델(Large Language Model) 기술 발전에 발맞춰 그 근거를 한국어로 잘 설명할 수 있는지 평가하는 것이 목표이다. 세부적으로는 인공지능 모델의 유의어 이해 능력, 상식 능력, 논리적·산술적 추론 능력과 이를 다시 자연어로 설명하는 능력을 평가하는 것을 목표로 한다.

이 과제에서는 입력으로 전제(premise) 문장, 명제(proposition) 문장, 함의 분석 결과(label)가 주어지고, 출력으로 함의 분석 결과에 대한 설명문이 포함된다. 함의 분석 결과(label)는 함의(entailment), 모순(contradiction) 두 가지로 구성된다. 이 과제에서 함의(entailment)’는 명제(proposition) 문장이 전제(premise)를 고려하였을 때 사실()인 관계로 정의된다. ‘모순(contradiction)’은 명제 문장이 전제를 고려하였을 때 거짓인 관계로 정의된다. 이 과제에서 함의(또는 모순) 관계는 주어진 언어적 정보와 일반 지식을 기반으로 일반 언중의 직관에 따라 판단한다.

 

 

항목

내용

전제

(Premise)

지난 1975년 읍내 시가지 30구간에 심었던 2800여 그루의 감나무는 점점 규모가 커져 현재 159구간에 19931 그루의 감나무가 조성돼 있다. 영동군 전체를 뒤덮으며 전국에서 가장 긴 감나무 가로수길 기록을 갱신하고 있다.

명제

(Proposition)

영동군 감나무 가로수길의 규모는 점점 커져 현재는 1975년 대비 다섯 배 이상 커졌다.

함의 분석 결과

(Label)

함의(entailment)

설명문

197530구간에 2800여 그루였던 것이 현재 159구간에 19931 그루로 확대되었기 때문에 다섯 배 이상 커졌다고 할 수 있다. 따라서 이 가설은 함의에 해당한다.

 

 

 

과제 정의

 

함의 분석 결과 설명문 생성 과제 데이터 세트의 주석은 함의(entailment)와 모순(contradiction) 두 가지 주석과 설명문 주석으로 구성되어 있다. 참가자들은 평가 데이터 세트의 입력(전제, 명제, 함의 분석 결과)을 기반으로 그에 해당하는 설명문을 생성한다.

본 과제에서는 생성된 설명문 결과에 대한 루지-1(ROUGE-1) 점수를 평가 지표로 사용한다.

 

 

분류

내용

예시

비고

입력

Premise

지난 1975년 읍내 시가지 30구간에 심었던 2800여 그루의 감나무는 점점 규모가 커져 현재 159구간에 19931 그루의 감나무가 조성돼 있다. 영동군 전체를 뒤덮으며 전국에서 가장 긴 감나무 가로수길 기록을 갱신하고 있다.

문자열

Proposition

영동군 감나무 가로수길의 규모는 점점 커져 현재는 1975년 대비 다섯 배 이상 커졌다.

문자열

Label

함의(entailment)

문자열

출력

설명문

197530구간에 2800여 그루였던 것이 현재 159구간에 19931 그루로 확대되었기 때문에 다섯 배 이상 커졌다고 할 수 있다. 따라서 이 가설은 함의에 해당한다.

문자열

평가

ROUGE-1

 

 

 

데이터 세트의 구성

 

 

 

훈련

검증

시험

문서

1,520

190

190

 

 

 

평가 지표: 루지-1(ROUGE-1) 점수

 

 

기준 모델(baseline model):

 

이 과제의 기준 모델은 깃허브(github)를 통해 공개되어 있다.

https://github.com/teddysum/Korean_TE_2024

 

 

대회 참가 규정


- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.

- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.

- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.

- 라이선스에 문제가 없는 모델을 개발하여야 한다.

- 외부 API를 통해 호출하는 모델(OpenAI API )은 제출할 수 없다.

외부 데이터 추가 사용 가능

외부에 공개된 모든 데이터를 학습 데이터로 사용 가능

언어 모델을 이용하여 증강 후 학습 데이터로 사용 가능

 

시스템 사용 방법: 알립니다 사용 안내 참고

 

문의: 진행 중 과제 함의 분석 결과 설명문 생성클릭 문의