점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기
모두의 말뭉치>말뭉치 소개>말뭉치 소개

말뭉치 소개

미래를 준비하는 소중한 우리말 자원

말뭉치(코퍼스, corpus)란 평소 우리가 쓰는 말이나 글을 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료입니다.

말뭉치를 구축하려면 신문 기사, 책, 일상 대화, 메신저 대화, 블로그나 게시판의 글 등의 언어 자료를 모아서 원저작자의 저작권 이용 허락 동의를 받은 후 컴퓨터가 읽을 수 있는 형태로 입력합니다. 그리고 이 언어 자료의 종류나 제목, 작성자, 출처 등 언어 자료의 특징이나 성격을 알려 주는 정보와 문단이나 문장의 경계를 알려 주는 형식 정보 등을 컴퓨터가 읽을 수 있도록 입력하면 말뭉치의 기본이라고 할 수 있는 원시 말뭉치가 됩니다.

원시 말뭉치에 품사 정보, 의미 정보, 문장 구성 정보 등 다양한 한국어 분석 정보를 입력하거나 하나의 글 안에서 같은 대상을 다른 표현(지시어 등)으로 나타낸 것을 연결하는 등의 과정을 거쳐서 고품질의 분석 말뭉치를 만듭니다. 말뭉치는 언어 연구·언어 교육뿐만 아니라 인공지능 기술 개발의 자원으로 활용됩니다. 특히, 인공지능 기술이 발전하면서 말뭉치에 대한 요구가 높아졌습니다.

1998년부터 '21세기 세종계획'이라는 국어 정보화 중장기 사업이 추진되어 국어 정보화 분야가 국어 정책의 한 축으로 자리 잡은 바 있습니다.

국어학과 컴퓨터공학 분야 연구자가 10년 동안 함께 모여 국어 정보 기반을 구축하였고, 그 당시 2억 어절 규모의 말뭉치를 구축·공개하였습니다. 그러나 21세기를 맞이하면서도 컴퓨터의 획기적인 성능 향상은 이루어지지 않아 데이터 구축도 주춤한 모습을 보였습니다.

그러던 중 2015년에 우리에게 익숙한 ‘알파고’로 대변되는 심층 학습(딥러닝) 기술이 발전하면서 인공지능 분야의 기술 발전이 급격히 이루어졌습니다. 또한 한국어 처리 분야에서도 컴퓨터가 학습할 수 있는 대량의 한국어 자료 확보가 중요해졌습니다.

한국어-한국수어 병렬 말뭉치는 민원 행정, 관광 등 다양한 분야에서 사용되는 한국어를 수어로 번역한 말뭉치입니다. 한국어와 이에 대응하는 한국수어 번역 영상, 수어의 의미 정보를 분석한 것으로 구성되어 있습니다.

특히 수어 문장에서 중요한 문법적 역할을 담당하는 입 모양, 눈썹의 움직임 등의 비수지 정보를 담고 있습니다. 한국어-한국수어 병렬 말뭉치는 한국어와 한국수어 간의 인공지능 번역 기술 개발을 촉진하여, 농인과 청인 사이의 의사소통의 장벽을 허무는 데 이바지할 것입니다.

말뭉치를 보면 알 수 있는 것들

  • 한국인이 가장 많이 쓰는 단어는 무엇인지?

    말뭉치를 보면 알 수 있는 한국인이 가장 많이 쓰는 단어 모음 이미지
  • 그 빈도는 시기적으로 어떻게 변화해 왔는지?

    말뭉치를 보면 알 수 있는 한국인이 가장 많이 쓰는 단어의 빈도 2020년~ 2023년 그래프 이미지
  • 해당 단어는 어떤 단어와 가장 관련이 높은지?

    말뭉치를 보면 알 수 있는 해당 단어와의 관련성에 관한 이미지
  • 국립국어원의 말뭉치 구축 사업은 우리나라가 인공지능의 한국어 처리 기술을 혁신하여 선도할 수 있도록 ‘한국어 말뭉치 상시 공급·활용 체계 구축’을 목표로 추진되었습니다. 2018년 기초 연구를 시작으로 2019년부터 말뭉치를 체계적으로 구축하고 있으며, 그 결과물을 배포 시스템인 ‘모두의 말뭉치(kli.korean.go.kr/corpus)’를 통해 2020년 8월 25일부터 공개하고 있습니다.
    최근에는 거대언어모델(LLM), 생성형 인공지능의 발전으로 한국언어문화를 잘 이해하고 한국어를 잘하는 인공지능을 개발하는 데 필수적인 고품질 말뭉치에 대한 요구가 높아졌습니다.
    국립국어원은 인공지능의 한국어 이해와 생성 능력을 키움으로써 우리 언어문화 자산의 경쟁력을 강화하도록 인공지능의 한국어 처리 기술 발전과 더불어 한국어 연구 및 인공지능 연구를 지원하는 품질 좋은 말뭉치를 <모두의 말뭉치>를 통해 지속적으로 공개할 계획입니다.
국립국어원2019-04-03 당신의 말과 글, 소중한 언어 자원입니다. '오늘 한글이랑 자전거 타고 박물관가기로 했는데 ...',''오늘 날씨 좀알려 줘','오늘 서울은 아침에는 흐렸다가 오후부터 맑아질 거에요. 최저 기온은 6도 ,최고 기온은 15도까지 올라갈 예정인데요. 미세먼지농도가 높으니 바깥 활동을 하시려면 마스크를 쓰시는게 좋겠어요.','안녕,난 말뭉치라고해! 특별전 안내좀 해 줄 수 있어?','반갑습니다 우리 박물관에 오신것을 환영합니다. 제가 안내해 드릴테니 따라오세요',요즘 우리는 인공지능에게 날씨를 물어보고, 박물관 전시 안내를 부탁할 수도 있어요! 인공지능이 우리의 말을 어떻게 알아듣고 소통할 수 있는걸까요? 인공지능이 우리 말을 이해하고 구사할 수 있게 된것은 바로'말뭉치'때문이랍니다! 지금부터 저와 함께 인공지능 기술 속에 숨어있는 비밀자료'말뭉치'에대해서 알아볼까요? 말뭉치란 무엇일까요?실물치 말뭉치? 솜뭉치 '말뭉치'는 언어학 용어인 코퍼스(corpus)를 우리말로 번역한 말이에요 '실뭉치','솜뭉치'에서 '뭉치'는 '한데 뭉치거나 말거나 감은 덩이'를 말하죠.그렇다면 '말뭉치'는 말[언어]을 한데 모아 놓은 덩어리가 되겠네요. 말은 왜 모을까요? 언어에 어떤 원리가 있는지, 사람들이 어떻게 언어를 쓰는지 알려면 어떻게 해야할까요? 뇌를 들여다봐야할까요? 사실, 뇌를 열어봐도 알 수 없어요. 언어를 연구하기 위해서는 우리가 말하거나 글로써 써놓은 일부를 분석해서 전체 언어의 모습을 유추할 수 밖에 없지요. 이렇게 언어가 어떻게 쓰이는지를 분석하기 위해 언어 자료의 일부를 표본으로 모아놓은 것이 말뭉치랍니다. 말을 모아두기만 하면 될까요? 신문을 모으면 신문 말뭉치, 소설을 모으면 소설말뭉치, 대화를 모으면 대화 말뭉치라고 할 수 있겠죠. 그런데 보통 쌓아 둔 종이 신문이나 책꽂이에 꽂힌 소설책들을 말뭉치라고 하지는 않아요 단순히 모으기만해서는 활용할 수 없거든요. 말뭉치는 컴퓨터로 분석하고 처리할 수 있도록 입력되어 있어야 합니다. 다시말하면 말뭉치는 컴퓨터가 읽을 수 있도록 다양한 분야의 언어 자료를 모아 놓은 것이라 할 수 있어요. 말뭉치는 어떻게 생겼을까요? 말뭉치 -> 신문말뭉치,병렬말뭉치,수어 말뭉치, 음성 말뭉치 말뭉치는어디에 쓰일까요? - 사전 편찬.말뭉치를 분석해서 우리 국어의 모습으로 오롯이 담아낸 국어사전을 만들수 있어요.예전에는 사전을 편찬할 때 사전 편찬자의 직관에 의존하여 단어의 뜻을 기술하거나 용례도 사람이 일일이 수집했지요. 그러나 말뭉치를 활용하면서 부터 많이 쓰이는 단어를 올림말로 결정하고 뜻을 객관적으로 풀이하며, 많이 사용하는 자연스러운 용례를 말뭉치에서 쉽게 찾고 분석해서 사진에 수록할 수 있게 되었어요.'1980년대에 영국 버밍엄대가 콜린스 출판사와 2천만 어절 규모의 말뭉치를 구축하고 이것을 토대로 코빌드(COBUILD)영어사전을 편찬했어요. 우리나라의<국립국어원 표준국어대사전>,<연세 한국어 사전>,<고려대 한국어 대사전>도 모두 말뭉치를 활용했답니다. 말뭉치는 어디에 쓰일까요? - 언어교육.말뭉치는 언어 교육에도 유용한 자료에요.외국어를 가르칠때 말뭉치를 활용하면 가장 많이 쓰는 자연스러운 표현들을 뽑아 가르칠 수 있어요. 외국어를 배우는 사람들의 언어를 수집해서 말뭉치를 만들기도 해요. 이 학습자 말뭉치를 활용하여 외국어를 배울때 자주 들리는 문법,어휘,표현 등을 분석할 수 있어서 효과적인 교수법을 찾거나 교재를 만드는데 도움이 된답니다. 말뭉치는 어디에 쓰일까요? - 언어 연구 및 어문 정책수립.말뭉치는 언어를 연구하고 어문 정책을 수립할때에도 꼭 필요해요. '복숭아뼈','복사뼈'라는 말을 하세요? 말뭉치를 분석해서 두단어의 사용빈도를 측정해보니'복사뼈'와 함께 '복숭어뼈'도 많이 쓰인다는 것을 알 수 있어요. 이러한 언어현실을 반영하여 2011년에 두단어 모두 표준어가 되었어요.말뭉치를 분석해서 언제 부터 그 단어가 쓰이기 시작했는지, 어느때에 그 단어가 많이 쓰였는지, 시대에 따라 단어의 형태와 의미가 어떻게 변화되어 왔는지 등도 확인 할 수 있답니다. 대확행 송리단길 맛세권 객리단길 혼행족 혼골족 소비용정 2020신어 4차 산업 혁명 시대에 들어서면서 말뭉치는 기존의 언어 연구 분야 외에도 인공지능 기술 개발에 꼭 필요한 자원으로 관심이 모아지고 있어요. 인공지능 시피커나 로봇등에는 음성인식,언어 이해 번역등의 다양한 언어처리 기술이 포함되는데 이러한 언어처리 기술은 최근에는 컴퓨터가 말뭉치를 학습하는 방식으로 발전하고 있어요.'학습할 수 있는 말무이가 많을 수록 컴퓨터가 인간의 말과 글을 제대로 이해하고 반응할 수 있기 때문에 인공 지능의 발전을 위해서는 많은 양의 말뭉치가 필요하답니다! 컴퓨터가 말을 학습한다고요? 세상에 태어나 한마디 말도 하지못하던 아이들이 주변의 말과 글을 듣고 보면서 차차 말과 글을 배우고 그말과 글속에 담긴 의미를 이해하면서 지식을 쌓아나갑니다. 컴퓨터 (인공지능)가 아이처럼 언어를 듣고 이해하고 말하며 정보를 찾아내려면 무엇이 필요할까요? 인간의 두뇌에 해당하는 알고리즘과 언어 학습 자료인 말뭉치가 필요합니다. 말뭉치는 어떻게 만들까요? - 언어 자료 수집 저작권 이용 허락.말뭉치를 만들려면 말뭉치의 재료가 될 언어 자료를 수집해야 합니다. 신문기사 ,책,일상대화,메신저 대화,블로그나 게시판의 글 등 다양한 언어 자료가 모두 말뭉치의 재료가 됩니다. 수집한 언어 자료를 말뭉치로 만들어 사용하려면 저작권에게 이용허락을 받아야합니다. 말뭉치는 어떻게 만들까요?-언어자료와 메타 정보입력.저작권이용허락동의까지 마친 언어 자료는 컴퓨터가 읽을 수 있도록 입력해야합니다. 일상대화와 같이 글이 아닌 말로 된 언어를 자료는 말을 글로 바꾸어 입력합니다. 여기에 언어 자료와 종류나 제목 작성자 출처 등 언어 자료의 특징이나 성격을 알려주는 정보와 문단이나 문장 경계를 알려주는 형식 정보등을 컴퓨터가 읽을 수 있도록 입력하면 말뭉치의 기본이라고 할 수 있는 '원시 말뭉치'가 됩니다.언어자료->언어 자료와 메타정보입력[언어자료정제->언어자료정보입력->형식정보입력]->원시 말뭉치 말뭉치는 어떻게 만들까요? - 분석정보입력.원시 말뭉치에 품사 정보 의미 정보 문장구성정도등 여러가지 분석정보를 더하여 분석말뭉치를 만듭니다.이때 분석정보는 컴퓨터가 읽을 수있는 특별한 형식으로 덧붙입니다. 형태분석 말뭉치-단어가 어떻게 구성되어 있는지,그것의 품사정보는 무엇인지에 대한 정보를 붙여만듭니다. 어휘의미분석말뭉치-형태는 같지만 의미가 다른 단어를 구별할 수 있도록 (우리말샘)등 사전을 기준으로 의미 번호를 더하여 만듭니다. 개체명 분석 말뭉치 - 인명,단체,지명,수량 날짜 등 특정한 의미를 나타내는 단어나 어구에 대한 정보를 더하여 만듭니다. 그떄는 나 어릴때는 아무것도 몰랐네 그 다리위를 건너가는 기분을 어디시냐고 어디냐고 여쭤보면 아버시/CV_RELATION는 항상 양화대료/AE_BUILDING,양화대교/AF_BUILDING 이제 나는 서있네 그 다리 위 그다리에 - 자이언티 양화대교-상호참조해결말뭉치 하나의 글안에 같은 대상을 다른 표현으로 나타낸 것들을 찾아 서로 연결한 말뭉치를 말합니다. 구문분석 말뭉치-문장을 분석하여 문장이 어떻게 구성되는지 문장을 이루고 있는 단어들의 관계는 어떠한지에 대한 정보를 더해만듭니다. 감성 분석 말뭉치-영화관람후기나 상품평과 같은 글에서 내용이 긍정적인지 또는 부정적인지 등을 분석하거나 글을 쓴 사람이나 말하는 사람의 감정을 분석하여 만듭니다. 문서를 자동으로 분류하거나 어떤 문제에 대한 여러 사람의 의견을 파악할때 사용될 수 있습니다. 대역 말뭉치-한언어를 다른 언어로 번역하여 쌍으로 만든 말뭉치입니다. 자동번역기를 만들기 위해서 필요합니다. 국립국어원에서는 소중한 언어 자원 말뭉치를 만듭니다. 원치말뭉치 구축-국립국어원에서는 여러가지 모습의 우리말을 담아내는 말뭉치를 만들고 있습니다. 신문기사 책 잡지 기타문서등 신문 외의 단행본 TV 라디오 인터넷 방송등의 강연 발표 도론 인터뷰대화 메신저 대화자료 일상 대화 녹음 자료 누리 소통망(sns)블로그 웹게시판 일기 편지등 일상 생활 글쓰기 자료. 분석 말뭉치 구축-국어국어원에서는 우리말이 담고 있는 여러가지 정보를 분석한 말뭉치를 만들고 있습니다. 형태 분석 말뭉치 어휘의미 말뭉치 구분분석 말뭉치 개체명분석말뭉치 당신의 말과글 소중한 언어자원입니다. 발행일:2019년 12월31일,발행인:국립어원장,발행처:국립국어원 WWW.KOREAN.GO.KR,기획구성:서혜진 오은비 이현주 홍혜진,삽화:최은영,디자인인쇄:한국장애인상생복지회,이책의 저작권은 국립국어원에 있습니다,문화체육관광부 국립국어원 문화체육관광부 국립국어원