화면 로딩중입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기
인공지능(AI)말평>진행 중인 과제>과제 개요

과제 개요

 

  ‘표의 일부분에 대한 해석 생성’은 자료로부터 텍스트를 생성하는 과제 중 하나로, 주어진 표의 특정 부분을 설명하는 문장을 만드는 과제이다. 위키피디아 등 다양한 웹 문서 내에서 핵심적인 정보는 표 형식으로 기술되어 있는 경우가 많다. 이러한 데이터를 인공지능이 잘 이해하기 위해서는 인공지능 언어 처리 기술을 통해 표의 내용을 잘 요약하고 설명할 수 있는지 평가할 필요가 있다. 

 

과제 정의

 

  ‘표의 일부분에 대한 해석 생성’ 과제는 국립국어원의 ‘2022년 유사 문장 생성 말뭉치 연구 및 구축’ 사업을 통해 구축한 자료 중 표 기반 문장 생성 결과물을 활용하여 개발되었다. 이 자료는 해외 표 기반 문장 생성의 대표적인 데이터인 구글의 ToTTo 데이터 세트를 참조하였다. 데이터 세트는 HTML로 작성된 표의 형식을 유지하여 JSON 형식으로 변환하고, 해당 표에 음영으로 표시한 부분을 설명하는 문장 5개로 구성된다. 

이 과제의 목표는 표에 음영으로 표시한 부분을 설명하는 문장 한 개를 생성하는 것이다. 주어진 표에 대하여 모델이 생성한 문장과 정답 문장 5개 각각을 비교하여 산출한 ROUGE-1, ROUGE-L, BLEU 점수의 평균값을 평가 성능 지표로 사용한다.

 

기준 모델(베이스라인 모델)

 

  이 대회의 기준 모델은 깃허브(github)를 통해 공개되어 있다.

 

https://github.com/teddysum/korean_T2T_2023

 

  해당 모델은 KoBART 모델을 사용하여 학습되었으며, JSON형태의 표 데이터를 문자열로 변환하는 전처리 모듈을 포함하고 있다.

 

대회 참가 규정 및 제출 방법

 

(1) 팀 구성

  - ‘모두의 말뭉치’ 회원만 참가할 수 있다.

  - 참가자는 접수 기간 중 여러 개의 팀에 참여할 수 있으며, 팀 구성 시 인원 제한은 없다.

 

(2) 답안 제출

  - 참가자(팀)는 대회에서 제시한 과제를 해결한 결과를 표본(샘플) 파일과 동일한 형식으로 작성하여 제출한다.

  - 한 참가자(팀)가 복수의 결과물을 제출할 경우 각 팀의 제출 모델 및 결과 중 가장 높은 성적만을 순위표(리더보드)에 게시한다.

 

(3) 모델 사용 및 제출

  - 사용권(라이선스)에 문제가 없는 모델 사용 가능(사용권의 검토 책임은 참가팀에게 있음)

  - 외부 데이터 추가 사용 불가

  - 경진대회 진행 시 외부 API(예: chatGPT API) 이용 불가

  - 로컬 환경에서 동작하는 모든 모델 사용 가능(여러 거대언어모델(LLM) 포함)

    > 참가자(팀)의 서버에서 구동한 생성 AI의 경우에 한정함(프롬프트 엔지니어링 가능)

 

(4) 시스템 사용 안내

  - 참가 신청(팀 구성)

   ▸과제 목록 선택 후 참가 신청을 눌러 신청서를 작성한다.

   ▸신청서는 ‘모두의 말뭉치’ 회원만 작성할 수 있고, ‘모두의 말뭉치’ 회원의 전자 우편 주소를 입력하여 팀을 구성할 수 있다(회원이 아닌 경우 팀원이 될 수 없음에 유의할 것).

   ▸과제 참가 신청서에 작성한 팀원에게 과제 참가 신청 동의서가 발송된다.

   ▸신청자가 구성한 팀원 모두가 전자 우편을 확인하고 과제 참가에 동의하면 신청서 접수가 완료된다.

 

  - 제출 관리

   ▸참가 신청을 완료한 후 ‘제출 관리’를 통해 예측 결과를 제출한다.

   ▸모델명 및 모델 설명 작성, 모델 예측 결과 등록(JSON-L 파일)

   ▸하루에 5회까지 추가 제출할 수 있으며, 제출 결과는 모두 순위표(리더보드)에 반영된다.

 

  - 순위표(리더보드)

   ▸‘제출 관리’에서 등록한 예측 결과 중 일정 비율(예: 70%)을 무작위 추출하여 평가한 후 순위표(리더보드)에 평가 점수 및 순위를 제공한다.

   ▸제출한 결과 중 가장 높은 평가 점수가 순위표에 제공된다(좌측 화살표 버튼을 누르면 다른 결과물의 점수 및 순위 확인 가능)

 

  - 참여자 게시판: 참가자들이 과제별 정보 공유를 위해 활용 가능

 

(5) 기타: 시험 데이터의 정답은 공개 계획 없음