이 누리집은
대한민국 공식 전자정부 누리집입니다.
<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.
최대한 빠르게 복구할 수 있도록 노력하겠습니다.
* 시스템 이용 장애 문의: 051-927-7111
과제 개요
감정 분석(emotion recognition)은 주어진 텍스트에 대한 화자의 다양한 감정 상태를 파악하는 과제이다. 이 과제의 목표는 텍스트에 드러나는 감정을 8가지 감정 유형으로 분류하는 것이다. 감정 분석은 고객 서비스, 사회 네트워크 분석, 피드백 시스템, 인공지능 대화 시스템 등에 널리 활용된다.
이 과제는 국립국어원에서 추진한 ‘2022년 말뭉치 감정 분석 및 연구’ 사업의 결과물을 활용하여 2023년 ‘인공지능 언어 능력 평가 경진 대회’에서 진행된 과제이다. 올해 공개되는 상시 평가 과제는 2023년 경진 대회와 달리 모델 크기 제한이 없고, 데이터를 활용한 증강을 제한하지 않는다. 평가지표와 데이터 세트는 2023년 경진 대회와 같다.
항목 | 내용 |
발화 | "아 뉴스레터에서 뮤지컬 킹아더 관람 신청받는데... 가고싶은데 약속이네 ㅇ어으아앙악 짜증" |
대상 | ‘약속’ |
감정 | "joy": "False", "anticipation": "False", "trust": "False", "surprise": "False", "disgust": "False", "fear": "False", "anger": "True", "sadness": "False" |
과제 정의
감정 분석이란 기쁨, 신뢰, 놀람, 공포 등 사람이 느끼는 감정들을 분석하는 것으로, 긍정, 부정, 중립으로만 판단하는 감성 분석(sentiment analysis)과는 차이점이 존재한다. 이 과제는 국립국어원이 추진한 ‘2022년 말뭉치 감정 분석 및 연구’ 사업의 결과물을 활용하여 제시된 텍스트에서 대상(target)에 대한 화자의 감정 상태를 파악하고 이를 ‘joy(기쁨)’, ‘anticipation(기대)’, ‘trust(신뢰)’, ‘surprise(놀람)’, ‘disgust(혐오)’, ‘fear(공포)’, ‘anger(분노)’, ‘sadness(슬픔)’의 8가지 감정으로 분류한다.
감정 분석 과제는 텍스트와 대상이 주어졌을 때, 대상에 대한 화자의 감정을 분류하는 과제로 정의된다. 여기서 감정은 8가지로 분류되며, 발화의 맥락을 고려하였을 때 대상에 대해 분류된 범주의 감정이 나타나면 ‘True’, 그렇지 않으면 ‘False’로 표시된다. 하나의 텍스트에 여러 개의 감정이 드러날 수 있기 때문에 한 개 이상의 감정 범주에 대해 ‘True’ 값을 가질 수 있는 다중 분류 과제이다.
분류 | 내용 | 예시 | 자료형 | |
입력 | 텍스트 | "아 뉴스레터에서 뮤지컬 킹아더 관람 신청받는데... 가고 싶은데 약속이네 ㅇ어으아앙악 짜증" | 문자열 | |
대상 | form | “약속” | 문자열 | |
begin, end | 35, 37 | 정수 | ||
출력 | 8가지 감정에 대한 분석 (True, False) | {"joy": "False", "anticipation": "False","trust": "False", "surprise": "False", "disgust": "False", "fear": "False", "anger": "True", "sadness": "False"} | 딕셔너리 | |
평가 | F1 점수 | |
데이터 세트의 구성
구분 | 훈련 | 검증 | 시험 |
텍스트 수 | 37,932 | 4,751 | 4,748 |
평가 지표: F1 점수(F1-score)
기준 모델(baseline model):
이 과제의 기준 모델은 깃허브(github)를 통해 공개되어 있다.
https://github.com/teddysum/Korean_EA_2023
대회 참가 규정
- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.
- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.
- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.
- 라이선스에 문제가 없는 모델을 개발하여야 한다.
- 외부 API를 통해 호출하는 모델(OpenAI API 등)은 제출할 수 없다.
- 외부 데이터를 사용할 수 있다.
- 외부에 공개된 모든 데이터를 학습 데이터로 사용 가능
- 언어 모델을 이용하여 증강 후 학습 데이터로 사용 가능
시스템 사용 방법: 알립니다 → 사용 안내 참고
문의: 진행 중 과제 → ‘감정 분석’ 과제 → 문의