태극기 이 누리집은 대한민국 공식 전자정부 누리집입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

확인

인공지능(AI)말평>진행 중인 과제>과제 개요

혐오 발언 탐지

상시 평가 2023. 2. 13. ~9999. 12. 31. 과제 목록 보기

과제 개요 자료 받기 순위표(리더보드) 공지 문의

참가 신청 제출 관리

과제 개요

자연어처리 분야에서 혐오 발언 탐지(Hate Speech Detection) 과제는 주어진 문장이 혐오(hate) 표현이나 공격적(offensive) 표현에 해당하는지 아닌지를 분류하는 과제이다. 최근 소셜 미디어와 같은 콘텐츠가 급속히 증가함에 따라 혐오 표현 탐지에 관한 연구가 활발하게 이루어지고 있으며, 기술개발 및 상용화의 수요도 증가하고 있다. 캐글(Kaggle)의 혐오 표현 및 공격적 언어 데이터 세트(Hate Speech and Offensive Language Dataset), HateXplain 데이터 세트가 대표적이며, 해당 데이터 세트는 텍스트(문장 혹은 문서)가 혐오 표현인지, 공격적 표현인지, 혹은 혐오나 공격적 표현이 아닌 문장인지를 구분하는 과업으로 정의되어 있다.

항목

내용

문장

The jews are again using holohoax as an excuse to spread their agenda.

Hilter should have eradicated them.

분류

혐오 표현 문장(Hateful)

과제 정의

혐오 발언 탐지 과제는 국립국어원에서 ‘비윤리적 표현 말뭉치 연구 분석 및 시범 구축’ 사업을 통해 구축한 결과물을 활용한다. 이 사업을 통해 구축된 결과물의 비윤리성 범주는 ‘욕설, 비난, 혐오, 선정, 범죄, 차별’ 등으로 정의되어 있으나, 이 과제에서는 이 중 ‘비난’과 ‘혐오’ 범주를 활용하여 자료를 재구축하였다. ‘비난’ 혹은 ‘혐오’에 해당하는 문장은 ‘혐오 발언 문장’으로 분류하였으며, 기존 말뭉치의 비윤리 유형 (욕설, 비난, 선정 등)에 해당하지 않는 문장들은 혐오 발언이 아닌 문장으로 분류하였다. 또한 4글자 미만의 짧은 발화(예: “ㅠㅠ”)나 비속어로만 이루어진 문장은 데이터 세트에서 제외하였다.

이 과제는 입력 문장에 대해 ‘혐오 발언 문장’에 해당하는지 혹은 ‘혐오 발언이 아닌 문장’에 해당하는지를 분류하는 이진 분류 문제(Binary Classification)로 정의되었는데, 혐오 발언이 아닌 문장인 경우 정수 0으로, 혐오 발언에 해당하는 문장인 경우 정수 1로 범주를 정의하였다.

분류	내용	예시	비고
입력	문장	"멍청한 소리하지마라"	문자열
출력	분류	0: 혐오 발언이 아닌 문장, 1: 혐오 발언 문장	정수 (0 혹은 1)
평가	F1 점수

데이터 세트 구축 과정에서 개인정보는 비식별화하였다. 이름, 출신/소속 번호, 온라인 계정, 주소, 상호명, 상표명은 비윤리적 표현의 대상 여부의 관계없이 모두 비식별화되어 있으며 그 외 장소명, 창작물명은 비윤리적 표현의 대상일 경우만 비식별화되어 있다.

분류	내용		예시	자료형
입력	텍스트		"아 뉴스레터에서 뮤지컬 킹아더 관람 신청받는데 가고 싶은데 약속이네 ㅇ어으아앙악 짜증"	문자열
	대상	form	"약속"	문자열
	대상	begin, end	35, 37	정수
출력	8가지 감정에 대한 분석		{"joy": "False", "anticipation": "False","trust": "False", "surprise": "False", "disgust": "False", "fear": "False", "anger": "True", "sadness": "False"}	딕셔너리(dictionary)
평가	F1 점수

데이터 세트의 구성

구분	훈련	검증	시험
문장 수	16,580	2,073	2,072

평가 지표: F1 점수

기준 모델(베이스라인 모델): xml-roberta-base 기반 학습 모델

- https://github.com/teddysum/korean_AU_baseline

대회 참가 규정

- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.

- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다.

- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다.

- 라이선스에 문제가 없는 모델을 개발하여야 한다.

- 외부 API를 통해 호출하는 모델(OpenAI API 등)은 제출할 수 없다.

시스템 사용 방법: 알립니다 → 사용 안내 참고

문의: 진행 중 과제 → 문의

과학기술정보통신부 WA(WEB접근성) 품질인증 마크, 웹와치(WebWatch) 2024.08.12 ~ 2025.08.12