화면 로딩중입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기
인공지능(AI)말평>진행 중인 과제>과제 개요

 과제 개요

 
 자연어처리 분야에서 혐오 발언 탐지(Hate Speech Detection) 과제는 주어진 문장이 혐오(hate) 표현이나 공격적(offensive) 표현에 해당하는지 아닌지를 분류하는 과제이다. 최근 소셜미디어 등의 콘텐츠가 급속히 증가함에 따라 혐오 표현 탐지에 관한 연구가 활발하게 이루어지고 있으며, 기술개발 및 상용화의 수요도 증가하고 있다. 영어의 Kaggle의 Hate Speech and Offensive Language Dataset, HateXplain 데이터 세트가 대표적이며, 텍스트(문장 혹은 문서)가 혐오 표현인지, 공격적 표현인지, 혹은 혐오나 공격적 표현이 아닌 문장인지를 구분하는 과업으로 정의되어 있다.

과제 정의
 
 혐오 발언 탐지 과제는 국립국어원에서 ‘비윤리적 표현 말뭉치 연구 분석 및 시범 구축’ 사업을 통해 구축한 결과물을 활용한다. 이 사업을 통해 구축된 결과물의 비윤리성 범주는‘욕설, 비난, 혐오, 선정, 범죄, 차별’ 등으로 정의되어있으나, 본 과제에서는 이 중 ‘비난’과 ‘혐오’ 범주를 활용하여 자료를 재구축하였다. ‘비난’ 혹은 ‘혐오’에 해당하는 문장은 ‘혐오 발언 문장’으로 분류하였으며, 기존 말뭉치의 비윤리 클래스(욕설, 비난, 선정 등)에 해당하지 않는 문장들을 혐오 발언이 아닌 문장으로 분류한다. 또한 4글자 미만의 짧은 발화(예: “ㅠㅠ”)나 비속어로만 이루어진 문장은 데이터 세트에서 제외하였다.
 본 과제는 입력 문장에 대해 ‘혐오 발언 문장’에 해당하는지 혹은 ‘혐오 발언이 아닌 문장’에 해당하는지를 분류하는 이진 분류 문제(Binary Classification)로 정의되었고, 혐오 발언이 아닌 문장인 경우 정수 0으로, 혐오 발언에 해당하는 문장인 경우 정수 1로 클래스를 정의하였다.  

 

 분류

내용 

예시 

비고 

 입력

문장 

"멍청한 소리하지마라" 

문자열 

 출력

정수 

0: 혐오 발언이 아닌 문장, 1: 혐오 발언 문장 

정수

(0 혹은 1) 

 평가

F1 점수 

 


   본 대회에서는 평가데이터의 각 입력 문장에 대해 0 혹은 1로 분류하는 것을 과제로 정의하며,F1 점수를 평가 점수로 제공한다. 평가는 정답 데이터 세트와 예측 데이터 세트의 annotation을 문장 단위로 비교하여 F1 점수로 측정한다.

- 정답이 1일 때 1로 예측하는 경우: 1에 대해 True positive, 0에 대해 True negative
- 정답이 1일 때 0으로 예측하는 경우: 0에 대해 True negative, 1에 대해 False negative

대회 참가 규정 및 제출 방법 

(1) 팀 구성
- ‘모두의 말뭉치’ 회원만 참가할 수 있다.

(2) 답안 제출
- 참가자(팀)는 대회에서 제시한 과제를 해결한 결과를 샘플 파일과 동일한 형식으로 작성하여 제출한다.

(3) 시스템 사용 안내
- 참가 신청(팀 구성)
 - 과제 목록 선택 후 참가 신청을 눌러 신청서를 작성한다.
 - 신청서는 ‘모두의 말뭉치’ 회원만 작성할 수 있고, ‘모두의 말뭉치’ 회원의 전자 우편 주소를 입력하여 팀을 구성할 수 있다(회원이 아닌 경우 팀원이 될 수 없음에 유의할 것).
 - 과제 참가 신청서에 작성한 팀원에게 과제 참가 신청 동의서가 발송된다.
 - 신청자가 구성한 팀원 모두가 전자 우편을 확인하고 과제 참가에 동의하면 신청서 접수가 완료된다.
- 제출 관리 
 - 참가 신청을 완료한 후 ‘제출 관리’를 통해 예측 결과를 제출한다.
 - 모델명 및 모델 설명 작성, 모델 예측 결과 등록(jsonl 파일)
 - 하루에 10회까지 추가 제출할 수 있으며, 제출 결과는 모두 순위표(리더 보드)에 반영된다.
- 순위표(리더 보드)
 - '제출 관리'에서 등록한 예측 결과 중 일정 비율(예 70%)을 무작위 추출하여 평가한 후 순위표(리더 보드)에 평가 점수 및 순위를 제공한다.
 - 제출한 결과 중 가장 높은 평가 점수가 순위표에 제공된다(좌측 화살표 버튼을 누르면 다른 결과물의 점수 및 순위 확인 가능)
- 참여자 게시판
 - 현재는 국립국어원 과제 운영용으로 활용하며, 추후 일반 공개 예정
- 과제 개설・운영
 - 현재는 국립국어원 과제 운영용으로 활용하며, 추후 일반 공개 예정

(4) 기타
- 라이선스에 문제가 없는 모델 및 외부 데이터 추가 사용 가능(라이선스의 검토 책임은 참가팀에게 있음)
- 시험 데이터의 정답은 공개 계획 없음