태극기 이 누리집은 대한민국 공식 전자정부 누리집입니다.

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

확인

인공지능(AI)말평>지난 과제>과제 개요

일상 대화 요약(가 유형)

과제 목록 보기

과제 개요 자료 받기 순위표(리더보드) 공지 문의

제출 관리

과제 개요

‘일상 대화 요약’ 과제는 다자간 대화에서 발생하는 여러 주제를 식별하고 각 주제에 대한 요약문을 생성하는 것을 목표로 한다. 이 과제의 데이터는 일상에서 이루어지는 대화를 대상으로 하며, 대화 내 각 주제의 핵심 내용을 효율적으로 추출하여 요약 정보를 제공한다. 주제별 요약 기술은 정보의 분류와 검색, 지식 관리, 의사 결정 지원 등에 유용하게 활용될 수 있다.

주제별 대화

키워드

주제별 요약문

화자1: 우리 그때 처음에 나 데리고 가 줬던 초밥집 기억나?

화자2: Company-name 상암동에 있는 데?

화자1: 어 나 진짜 깜짝 놀랐잖아. 나는

화자2:그때까지 초밥은 그냥 회전 초밥집? 너가 데리고 가 줘서 오마카세 처음 알았어.

화자1: 그때 나는 얘는 초밥이 뭔지 모르나 보다라는 생각이 들어서 데리고 갔지

화자2: 무시하는 거야?

(...)

초밥집

이 대화에서 화자 1과 2는 초밥집에 대해 이야기했습니다. 1은 2에게 자신을 데리고 가 줬던 초밥집에서 오마카세를 처음 알게 되었고 신세계였다고 이야기했습니다. 그리고 음식은 배 채우려고 먹는 게 아니라 맛있는 음식을 먹어야 한다고 생각했다고 이야기했습니다(...)

과제 정의

이 과제의 참여자는 여러 화자가 포함된 대화에서 주제 전환을 정확하게 파악하고, 각 주제에 대한 주요 논의 사항을 요약해야 한다. 요약문 생성 시 주제별 결론, 중요한 의견, 주요 사건 등을 포함한다.

생성된 요약문의 품질은 정량적 평가와 정성적 평가를 종합하여 판단한다. 요약문에 대한 정량적 평가는 요약 성능 평가에 활용되는 여러 평가 지표 중 일부를 사용한다. 본 과제에서의 정량적 평가는 정답과 생성 요약문 간 단어 일치도를 측정하는 루지(ROUGE), 그리고 딥러닝을 기반으로 하여 측정을 수행하는 버트스코어(BERTScore), 블루트(BLEURT) 세 지표의 평균으로 수행된다.

정성적 평가는 정량적 평가에서 상위를 차지한 팀들에 대해 수행한다. 정성 평가 시에는 생성된 요약문에 대해 다수의 전문가의 절대 평가 및 상대적 비교 평가를 통해 순위를 매기게 된다. 시상을 위한 최종 점수는 정량적 평가, 정성적 평가, 발표 평가 종합 점수로 평가한다.

데이터 세트의 구성

데이터 세트는 훈련(train), 검증(validation), 시험(test) 데이터로 분할하여 제공한다.

*시험 데이터 공개 계획 없음

	훈련	검증	시험
자료 수	506	102	408

평가 지표: 루지-1(ROUGE-1), 버트스코어(BERTScore), 블루트(BLEURT)의 평균

- 순위표 기준 평가 지표 점수 상위 5개 팀이 정성 평가 및 발표 평가 대상

- 정성 평가 시, 생성 결과물(요약문)에 대한 국어 전문가의 평가를 병행

- 순위표 점수 및 정성 평가, 발표 평가 결과를 합산하여 수상작 선정

기준 모델(베이스라인 모델)

블로섬(Bllossom) 기반 학습 모델로, 아래 주소에서 모델 및 과제 수행 코드 확인 가능
- [기준 모델] https://huggingface.co/MLP-KTLim/llama-3-Korean-Bllossom-8B
- [코드] https://github.com/teddysum/Korean_DCS_2024

대회 참가 규정

- 인공지능의 한국어 능력 평가에 관심 있는 누구나 팀을 구성하여 참가할 수 있다.

- 팀 구성원은 국립국어원 언어정보나눔터 회원이어야 한다. (회원 가입 바로 가기)

- 팀장은 팀원의 전자 우편 주소(회원 가입된 전자 우편 주소)를 입력하여 팀을 구성할 수 있으며,

모든 팀원이 참가 신청에 동의하면 팀 구성이 완료된다.

- 참가자는 접수 기간 중 여러 개의 팀에 참여할 수 있으며, 팀 구성 인원 제한은 없다. 다만, 접수

기간 종료 후 정성 평가 대상이 되는 팀이 여러 개라면 참가자는 과제별 하나의 팀을 소속 팀으로

결정하여야 한다.

- 참가 팀은 과제를 해결한 결과를 정해진 양식에 맞추어 제출한다(1일 5개까지 제출 가능).

- 라이선스에 문제가 없는 모델을 개발하여야 한다.

- 외부 API를 통해 호출하는 모델(OpenAI API 등)은 제출할 수 없다.

- 개발한 모델은 RTX 4090 24GB 1개에서 구동 가능하여야 한다.

- 외부에 공개된 데이터는 사용이 불가하며 과제 데이터(말뭉치)를 초거대언어모델(LLM) 등을 활용해 변형 및 증강하여 사용할 수 없다. 모델 입력을 위한 형식 및 형태 변형만이 허용된다.

- 순위표 기준 정성 평가 신청서를 제출한 상위 5개 팀을 정성 평가 및 발표 평가 대상자로 선정한다.

(해당 팀에게는 별도 안내 예정).

- 최종 수상자는 정량 평가, 정성 평가, 발표 평가를 종합하여 선정한다.

시스템 사용 방법

- 인공지능(AI)말평 → 알립니다 → 사용 안내 메뉴 내 동영상 참고

문의

- 진행 중 과제 → 일상 대화 요약 클릭 → 문의(들어가기 후 작성 가능)

과학기술정보통신부 WA(WEB접근성) 품질인증 마크, 웹와치(WebWatch) 2024.08.12 ~ 2025.08.12