화면 로딩중입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기
인공지능(AI)말평>진행 중인 과제>과제 개요

과제 개요


 자연어 추론(Natural Language Inference)은 대표적인 언어 능력 평가 벤치마크인 GLUE, KLUE 등에서 제공하는 태스크로서, 주로 두 문장의 관계를 함의/중립/모순 중 하나로 분류한다. 국립국어원에서는 슈퍼글루(SuperGLUE)의 커미트먼트뱅크(CommitmentBank)를 참조하여, 2020년과 2021년 '말뭉치 함의 분석 및 연구' 사업을 통해 확신성 추론 말뭉치를 구축하였다. 이 말뭉치는 일반적인 자연어 추론 말뭉치와는 달리, 화자의 인식에 비추어 맥락과 제시 문장 간 함의 관계를 정도성으로 판단한다. 데이터 세트는 제시 문장(prompt)에 대하여 주어진 맥락(context)을 고려하였을 때 화자가 확신하는 정도를 1~7사이의 실수로 표현하는 방식으로 구성되어 있다. 숫자가 낮을수록(1에 가까울수록) 제시된 문장에 대해 화자가 확신하는 정도가 낮고, 숫자가 높을수록(7에 가까울수록) 화자가 확신하는 정도가 높다고 해석한다.

 항목

내용 

 Context

 17세기 영국 혁명에 대한 논쟁에서 순수 경제 결정론자들에 반대하여 청교도 정신(Puritanism)의 중요성에 대해 변함없이   주장했던 크리스토퍼 힐(Christoper Hill)이 마르크스주의자라는 사실을 깨닫는 사람은 많지 않다. 힐은 청교도 정신을 사   람들이 믿었던 중요한 것으로 보았지, 계급 구조나 경제 운동 위에 있는 시시한 것에 불과하다고 보지 않았다.

 Prompt

 청교도 정신은 계급 구조나 경제 운동 위에 있는 시시한 것에 불과하다 

 확신성 점수

 1.625 


과제 정의

 확신성 추론 과제는 국립국어원에서 2020년과 2021년 ‘말뭉치 함의 분석 및 연구’ 사업을 통해 구축한 “추론_확신성 분석 말뭉치”를 활용한다.  해당 데이터 세트의 확신성 점수는 1~7 사이의 실수(float)로 표현되어 있다. 확신성 추론 과제는 입력 Context와 Prompt에 대해 실수값을 예측하는 방식으로 정의되어 있다. 공개되어 있는 ‘추론_확신성 분석 말뭉치’에는 여러 명의 주석자(8~20명)가 화자의 확신성을 평가한 결과가 모두 주석되어 있는데, 본 과제에서는 평균을 정답 점수로 간주한다. 참가자들은 평가 데이터 세트의 입력(context, prompt)를 기반으로 1~7사이의 확신성 점수를 예측한다. MSE(Mean Squared Error) 점수를 평가 점수로 제공한다. 

 

 분류

내용 

예시 

비고 

 입력

 Context 

"준플레이오프가 5전3선승제로 바뀐 2008년 이후 하위팀이 상위팀을 두 번이나 꺾고 한국시리즈에 오른 것은 두산이 처음이다. 두산은 마지막 우승이었던 지난 2001년에도 준플레이오프부터 시리즈를 시작해 한국시리즈 우승을 차지한 바가 있다. 두산은 마지막 우승 당시 한국시리즈 상대가 삼성이었음으로 기억하고 있을 것이다."

문자열 

 Prompt

"두산의 마지막 우승 당시의 한국시리즈 상대는 삼성이었다." 

문자열 

 출력

 확신성 점수 

 6.375

실수

 (Float) 

 평가

MSE 

 


 확신성 추론 과제는 1~7 사이의 실수를 예측하는 과제이므로, 정답과의 오차가 2점 발생하게 되면 MSE 평가에서는 4점으로 측정된다. 우수한 MSE 평가의 객관적인 기준을 제시할 수는 없으나 본 과제의 난도를 고려할 때 오차가 1~2점 이내일 경우에는 유의미한 결과라고 평가될 수 있을 것이며, 1점 이내일 경우에는 우수한 결과라고 평가해도 무리가 없을 것이다. 따라서 MSE 점수가 4점 이하일 경우 보통의 결과, 2점 이내일 경우 우수한 결과로 간주할 수 있다.

대회 참가 규정 및 제출 방법

(1)팀 구성
  - '모두의 말뭉치' 회원만 참가할 수 있다.

(2) 답안 제출
 - 참가자(팀)는 대회에서 제시한 과제를 해결한 결과를 샘플 파일과 동일한 형식으로 작성하여 제출한다.

(3) 시스템 사용 안내
 - 참가 신청(팀 구성)
  - 과제 목록 선택 후 참가 신청을 눌러 신청서를 작성한다.
  - 신청서는 '모두의 말뭉치' 회원만 작성할 수 있고, '모두의 말뭉치' 회원의 전자 우편 주소를 입력하여 팀을 구성할 수 있다(회원이 아닌 경우 팀원이 될 수 없음에 유의할 것).
  - 과제 참가 신청서에 작성한 팀원에게 과제 참가 신청 동의서가 발송된다.
  - 신청자가 구성한 팀원 모두가 전자 우편을 확인하고 과제 참가에 동의하면 신청서 접수가 완료된다.
 - 제출 관리
  - 참가 신청을 완료한 후 '제출 관리'를 통해 예측 결과를 제출한다.
  - 모델명 및 모델 설명 작성, 모델 예측 결과 등록(jsonl 파일(
  - 하루에 10회까지 추가 제출할 수 있으며, 제출 결과는 모두 순위표(리더 보드)에 반영된다.
 - 순위표(리더 보드)
  - '제출 관리'에서 등록한 예측 결과 중 일정 비율(예 70%)을 무작위 추출하여 평가한 후 순위표(리더 보드)에 평가 점수 및 순위를 제공한다.
  - 제출한 결과 중 가장 높은 평가 점수가 순위표에 제공된다(좌측 화살표 버튼을 누르면 다른 결과물의 점수 및 순위 확인 가능(
 - 참여자 게시판
  - 참가자들이 과제별 정보 공유를 위해 활용 가능
 - 과제 개설·운영
  - 현재는 국립국어원 과제 운영용으로 활용하며, 추후 일반 공개 예정  

(4) 기타
- 라이선스에 문제가 없는 모델 및 외부 데이터 추가 사용 가능(라이선스의 검토 책임은 참가팀에게 있음)
- 시험 데이터의 정답은 공개 계획 없음