화면 로딩중입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기
인공지능(AI)말평>진행 중인 과제>과제 개요

 

과제 개요

표 기반 문장 생성은 자료로부터 텍스트를 생성하는 과제 중 하나로, 주어진 표의 특정 부분을 설명하는 문장을 생성하는 과제이다. 구글의 토토(ToTTo) 데이터 세트가 대표적이다. 위키피디아(Wikipedia) 등 다양한 문서에서 핵심적인 정보는 표 형식으로 기술되어 있는 경우가 많다. 이 과제는 인공 지능 언어 처리 기술이 표의 내용을 잘 요약하고 설명할 수 있는지 평가한다.


과제 정의

표 기반 문장 생성 과제는 국립국어원에서 ‘2021년 유사 문장 생성 말뭉치 연구 및 구축사업을 통해 구축한 자료 중 표 기반 문장 생성 결과물을 활용한다. 이 자료는 구글의 토토(ToTTo) 데이터 세트를 참조하였다. 데이터 세트는 에이치티엠엘(HTML)로 작성된 표의 형식을 유지하여 제이슨(JSON) 형식으로 변환하고, 해당 표에 음영으로 표시한 부분을 설명하는 문장 5개로 구성된다. 이 과제는 표에 음영으로 표시한 부분을 설명하는 문장 하나를 생성하는 것이다

 

분류

내용 

예시 

비고 

 

 

 

 

 

 

입력

 

 

 

 

 

 

표 

 

"table":

[ [

{"value": "구 분", "is_header": True,

"row_span": "2", "column_span": "1"},

{"value": "협약 사업장(, %)", "is_header": True, "row_span": 1, "column_span": "3"},

{"value": "비협약 사업장(, %)", "is_header": True, "row_span": 1, "column_span": "3"}

],

[

{"value": "‘19.12", "is_header": True, "row_span": 1, "column_span": 1},

.

.

 

 

 

 

 

 

 

JSON

출력

설명 문장 

"협약 사업장의 감축량은 4,571톤, 비협약 사업장의 감축량은 539톤이다." 

문자열

평가

ROUGE 1

 



데이터 세트의 구성



구분

훈련 

검증 

평가 

문장 수

8,011 

1,001 

1,001 

 

평가 지표: ROUGE-1



기준 모델(베이스라인 모델): KoBART 기반 학습 모델

https://github.com/teddysum/korean_T2T_baseline

테이블 데이터 ※ Encoder KoBART Decoder 설명문 협약 사업장의 감축량은 4,571톤, 비협약 사업장의 감축량은 539톤이다.


대회 참가 규정

인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.

팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.

참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.

라이선스에 문제가 없는 모델을 개발하여야 한다.

외부 API를 통해 호출하는 모델(OpenAI API )은 제출할 수 없다.

모두의 말뭉치를 포함한 외부에 공개된 데이터는 사용이 가능하다(저작권 등 책임은 참가 팀에게 있음). 과제 데이터(말뭉치)를 초거대언어모델(LLM) 기반 자동 증강하여 사용할 수 있다.





시스템 사용 방법: 알립니다 → 사용 안내 참고 

문의: 진행 중 과제 문의