이 누리집은 대한민국 공식 전자정부 누리집입니다.
<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.
최대한 빠르게 복구할 수 있도록 노력하겠습니다.
* 시스템 이용 장애 문의: 051-927-7111
과제 개요
그림(사진) 기반 문장 생성은 주어진 그림(사진)을 설명하는 자연어 문장을 자동으로 생성하는 과제로, 이미지 캡셔닝(Image Captioning)으로도 알려져 있다. 이 과제에서는 인공지능이 이미지 속의 정보를 이해하고 이를 바탕으로 의미 있는 텍스트를 생성하는 능력을 평가한다. 이 과제는 이미지와 텍스트의 통합적인 이해와 생성 능력을 평가함으로써, 인공지능 시스템의 실용적이고 창의적인 응용을 가능하게 한다. 이러한 인공지능 능력은 의료 이미지 자동 주석이나 산업군에서의 품질 관리, 교통 관리, 시각 정보를 사용하는 인공지능 챗봇 등 다양한 분야에 접목될 수 있다.
항목 | 내용 |
그림(사진) |
|
캡션(주석) | 얼룩덜룩한 털빛의 고양이 한 마리가 길가에 앉은 채 고개를 들고 위를 보고 있다. |
그림(사진) 기반 문장 생성 과제는 국립국어원에서 ‘2021년 유사 문장 생성 말뭉치 연구 및 구축’ 사업을 통해 구축한 자료 중 그림(사진) 기반 문장 생성 결과물을 활용한다. 그림(사진) 기반 문장 생성 데이터 세트는 그림(사진) 하나와 이를 설명하는 문장 5개로 구성된다.
‘그림(사진) 기반 문장 생성’ 과제는 그림(사진)이 주어졌을 때 이를 설명하는 문장 하나를 생성하는 과제로 정의된다. 이때 생성된 문장은 이미지의 주요 내용을 포괄하며, 정확하고 자연스러워야 한다. 학습용 데이터 세트는 그림(사진) 한 개와 설명 문장 5개로 구성된다.
분류 |
내용 |
예시 |
비고 |
입력 |
그림(사진) |
"input": "K0A0001"(이미지 파일명) |
JSON |
출력 |
설명 문장 |
"얼룩덜룩한 털빛의 고양이 한 마리가 길가에 앉은 채 고개를 들고 위를 보고 있다." |
문자열 |
평가 |
ROUGE 1 |
|
데이터 세트의 구성
구분 |
훈련 |
검증 |
평가 |
문장 수 |
8,323 |
1,040 |
1,040 |
평가 지표: ROUGE-1
기준 모델(베이스라인 모델): ViT 및 KoGPT-2 기반 학습 모델
- https://github.com/teddysum/korean_IC_baseline
대회 참가 규정
- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.
- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.
- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.
- 라이선스에 문제가 없는 모델을 개발하여야 한다.
- 외부 API를 통해 호출하는 모델(OpenAI API 등)은 제출할 수 없다.
- 모두의 말뭉치를 포함한 외부에 공개된 데이터는 사용이 가능하다(저작권 등 책임은 참가 팀에게 있음). 과제 데이터(말뭉치)를 초거대언어모델(LLM) 기반 자동 증강하여 사용할 수 있다.
시스템 사용 방법: 알립니다 → 사용 안내 참고
문의: 진행 중 과제 → 문의