이 누리집은
대한민국 공식 전자정부 누리집입니다.
<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.
최대한 빠르게 복구할 수 있도록 노력하겠습니다.
* 시스템 이용 장애 문의: 051-927-7111
※ 이 과제는 2024년 HCLT '인공지능(AI)말평' 활용 연구 우수 논문 선정을 위해 활용되었음
과제 개요
‘문자가 포함된 이미지 기반 문장 생성’은 주어진 이미지를 설명하는 한국어 문장을 생성하는 과제로서, 그림(사진)에 포함된 문자를 고려해야 한다는 점이 특징이다. 이러한 과제 유형은 자동 이미지 주석(이미지 캡셔닝, Image Captioning)으로도 알려져 있으며, 의료 이미지 자동 주석이나 산업군에서의 품질 관리, 교통 관리, 시각 정보를 사용하는 인공지능 챗봇 등 다양한 분야에 접목될 수 있다.
항목 | 내용 |
그림(사진) | |
캡션(주석) | 붉은 벽돌 벽 앞에 비상 버튼과 안내 버튼이 있는 서울교통공사의 비상전화가 설치되어 있다. |
‘문자가 포함된 이미지 기반 문장 생성’ 과제는 국립국어원에서 ‘2022년 유사 문장 생성 말뭉치 연구 및 구축’ 사업을 통해 구축한 데이터 세트 내 그림(사진) 기반 문장 생성 결과물을 활용하여 개발되었다. 그림(사진) 기반 문장 생성 데이터 세트는 그림(사진) 하나와 OCR(광학 문자 인식) 정보, 이를 설명하는 문장 5개로 구성된다. OCR(광학 문자 인식) 정보는 주어진 그림(사진)에 나타나는 텍스트를 인식하여 이를 텍스트 데이터로 변환한 정보를 의미한다. 이 정보에는 그림에서 추출된 텍스트와 해당 텍스트가 그림 내에서 위치한 좌표 정보가 포함된다. 본 과제에서 OCR 정보를 함께 제공하는 이유는, OCR의 성능에 따라 캡션 생성의 결과가 달라지는 것을 최소화하기 위함임.
이 과제는 그림(사진)과 OCR 정보가 주어졌을 때 이를 설명하는 문장 1개를 생성하는 것으로 정의할 수 있다. 학습용 데이터 세트는 그림(사진) 한 개와 설명하는 정답 문장 5개로 구성되어 있다.
데이터 세트의 구성
구분 | 훈련 | 검증 | 평가 |
문장 수 | 7,334 | 917 | 917 |
평가 지표: F1 점수
기준 모델(베이스라인 모델): ViT 및 KoGPT-2 기반 학습 모델
- https://github.com/teddysum/korean_IC_2023
대회 참가 규정
- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.
- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.
- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.
- 라이선스에 문제가 없는 모델을 개발하여야 한다.
- 외부 API를 통해 호출하는 모델(OpenAI API 등)은 제출할 수 없다.
- 모두의 말뭉치를 포함한 외부에 공개된 데이터는 사용이 가능하다(저작권 등 책임은 참가 팀에게 있음). 과제 데이터(말뭉치)를 초거대언어모델(LLM) 기반 자동 증강하여 사용할 수 있다.
시스템 사용 방법: 알립니다 → 사용 안내 참고
문의: 진행 중 과제 → 문의