모두의 말뭉치>말뭉치 활용>활용 지원 자료

모두의 말뭉치>말뭉치 활용>활용 지원 자료

home

말뭉치 활용: 말뭉치 신청; 말뭉치 소개; 알립니다

활용 지원 자료: 활용 사례; 결과물 공개 신청

활용 지원 자료

AI 활용 번역 품질 고도화 동향, 산업계 활용 현황 및 미래 번역 기술 동향

국립국어원 모두의 말뭉치 국제 학술 대회(2024.12.4.(수), 대한상공회의소) 강연 영상입니다.

[주제 발표 3: AI 활용 번역 품질 고도화 동향, 산업계 활용 현황 및 미래 번역 기술 연구 동향]
네 반갑습니다.
지금 소개받은 시스트란의 김유석입니다.
앞에서 되게 좋은 내용을 많이 말씀을 해주셔서 조금 중복되는 내용들은 빼고 조금 산업계에서 정말 고민하고 있는 부분들 위주로 조금 말씀을 드리도록 하겠습니다.
먼저 이제 시스트란이라는 회사에 대해서 소개를 드리면 시스트란이라는 회사는 1968년도에 설립이 된 회사입니다.
냉전 시대가 끝나자마자 미국에서 러시아어를 뭔가 영어로 탁탁 번역했으면 좋겠다라고 해서 만들어진 회사이고요.
아시는 EU 쪽 그리고 아폴로 소유즈 우주선 이런 걸 하는 과정에서도 번역기를 계속 공급해왔던 회사입니다.
아까 설명을 여러분들이 해주셨던 RBMT, SMT 그런 것들에 대한 원천기술을 계속 연구했던 회사이고요.
2000년도 쯤에 스타트업이 저희한테 와서 지분 5%를 줄 테니까 번역기를 맘대로 쓰게 해달라 그걸 한방에 거절을 했는데 그게 구글이었습니다.
그래서 구글이 2008년까지 저희 번역기를 쓰다가 SMT로 독립을 하게 된 사례도 있습니다.
전전오너의 일생일대 최대의 실수라고 그럽니다.
이제 그러다가 저희가 이제 올 1월 달에 시스트란이 다시 챕스비전이라는 프랑스 회사로 인수가 되었습니다.
그래서 저는 이제 챕스비전에 있는 전부 솔루션을 갖고 한국에서 영업하는 그런 쪽에 사업을 운영을 하고 있습니다.
글로벌 언어처리 데이터를 잠깐만 이제 뭐 동향을 조금 짚어보면 결국은 첫 번째 아무리 LLM이 소버린 AI나 그런 이슈들이 나오기도 하기 때문에 그러려니와 데이터의 수요가 증가하고 있는 것은 분명합니다.
그렇기 때문에 국내에서도 데이터에 대한 것들이 굉장히 무료다 공짜다라고 생각했었지만 그런 데이터를 생성해서 사업을 잘 영위하고 계시는 플리토 같은 회사도 굉장히 글로벌 레퓨테이션이 늘어나고 있는 상황인 거고요.
5번과 같이 이제 맞춤형 데이터 구축 이런 서비스 같은 경우가 이제 LLM 모델을 산업계에서 써가면서 점점 더 중요해지는 포인트가 됩니다.
어떤 얘기냐 하면 구글이 번역기를 만들고 네이버가 번역기를 만들 때마다 저희가 매번 시스트란이 받았던 질문은 곧 망하는 거 아니냐는 질문이었어요.
왜냐하면 거대 자본이 들어와서 기술을 리딩하고 있기 때문에 하지만 그럴 때마다 산업계는 특이한 현상이 발생을 합니다.
내 걸 쓰고 싶은 거죠.
하지만 공개하고 싶지 않은 상태에서 그런 그 소유에 대한 그리고 데이터 시큐리티에 대한 이슈가 증가를 하면서 산업계 내에서는 또 다른 기술 현상들이 일어나게 됩니다.
그래서 이제 시스트란이라는 회사가 저 오른쪽 위에 최근에 인수된 현황으로 나와 있는데요.
팔란티아라고 하는 미국 회사라면 많이 들어보셨을 거예요.
CIA나 연방수사학과도 많이 쓰고 있는 솔루션을 하고 있는 회사인데 팔란티아에 대한 솔루션을 유럽에서도 굉장히 많이 사용을 했습니다.
그런데 유럽 정부가 이게 무슨 식민지랑 다를 게 없지 않냐 왜냐하면 옛날에는 나라를 점령해서 뭔가를 뺏어갔지만 이렇게 데이터를 가져가는 것에 대해서는 식민지와 다를 바가 없다라고 해서 아그노스라고 하는 솔루션을 프랑스에 있는 기업에 시켜서 만들게 된 기업 이름이 챕스비전이라는 회사입니다.
챕스비전이 인수를 한 솔루션들은 뒤에 설명을 드리겠지만 데이터 취득, 정제 그리고 지금 설명 주셨던 LLM 처리 등등에 대한 모든 솔루션을 다 인수를 했고요.
시스트란이라는 회사도 70년이 됐고 한 천여 개의 고객을 저희가 가지고 있는데 모두 여기 로고가 있는 회사들이 저희와 같은 히스토리를 갖고 회사들을 인수를 한 겁니다.
오른쪽에 아직 로고조차 만들어지지 않은 시네큐어라는 회사는 ML 기반 LLM을 하는 회사이고요.
아시는 넷플릭스나 나사가 저기 걸 써서 자기들의 자체 데이터를 가지고 설명 주셨던 형태의 기업용 라지 데이터를 처리하기 위한 시스템을 구축해주는 회사라고 보시면 됩니다.
이런 얘기를 왜 하느냐 시스트란은 그동안 최종 솔루션의 공급자였습니다.
문서를 번역하는 솔루션을 공급을 했었고 그리고 텍스트를 넣으면 텍스트, 음성을 넣으면 음성으로 번역하는 회사였는데 이런 다양한 솔루션들이 이루어지는 과정에서 시스트란이 미들웨어단으로 내려가기 시작했습니다.
여태까지 우리가 만들었던 기계 번역 모델, 저희가 잘했던 건 이걸 솔루션화를 오래 했었다라고 하면 이제 이런 모델과 솔루션들이 산업의 워크플로우 내에 들어가서 미들웨어 역할을 하는 시대로 변화하고 있다는 의미입니다.
조금 더 언어에 대한 커버리지를 우리가 한국어 영어가 번역이 잘 되냐에 대한 시대가 2017년부터 2022년까지 확 화두가 됐었던 부분이고요.
지금부터는 얼마나 많은 데이터를 효과적으로 잘 처리해서 지식화할 수 있느냐가 이런 솔루션 처리의 핵심이다라고 볼 수 있을 것 같습니다.
저기 왼쪽에 보시는 것 같은 솔루션들은 맨 왼쪽에 보시는 2밀리언, 60밀리언 관련된 뉴스나 SNS가 관련된 데이터들을 다 끌어들이고요.
심지어는 비디오 카메라에서 오는 데이터들을 다 개더링하기 위한 솔루션들을 가지고 있습니다.
중간에 있는 것들은 이제 저희가 시스트란이라고 하는 번역기를 가지고 있는 것이고요.
데이터 활용 측면에서는 이제 LLM을 구축하기 위한 모델을 3개 회사를 인수했습니다 NER 기반의 구축, 그리고 온톨로지 기반의 구축, 머신러닝 기반의 구축이 각기 다른 회사로 인수를 해 갖고 있는 상태이고요.
오른쪽은 하다 보니까 딥 웹과 다크 웹이라고 그러는 것도 지금 추적이 됩니다.
여러분들 골치 아파하시는 텔레그램 같은 데 아바타를 키워서 심어 놓고 모니터링하는 솔루션들을 가지고 있습니다.
결론적으로 산업계가 원하는 거는 이제 통합입니다.
통합이고 그 중심에는 언어 데이터가 있다는 거죠, 그 중심에는 또 솔루션이 있어야 되는 거고 그 솔루션의 코어에는 잘 언어를 이해할 수 있는 무언가가 들어가야 된다는 의미입니다.
이런 기업들이 활용을 하고 있고요.
그래서 이제 오늘 갑자기 발표 결의랑 조금 상의하기 전에 순서를 바꾸고 넣은 부분이 아까 말한 NER 기반, 온톨로지 기반, 머신러닝 기반을 가리켜서 기업들이 하고 싶은 거는 우리 기업 데이터를 줄 테니까 좀 이렇게 만들어가지고 탁 한번 나오는 걸 해줘 근데 이거를 공개된 데이터는 아니지만 좀 보안 데이터가 있어라는 겁니다.
그럼 이제 아까 여러분들이 말씀하셨던 뭔가가 있어야 되거든요.
그래서 유럽에서는 그동안 연구가 끊기지 않았었기 때문에 유럽 기반 온톨로지나 유럽 기반 NER들이 최신성을 유지하면서 온 연구가 굉장히 많습니다.
좀 국내 한국인으로서는 부러운 부분이죠.
저희가 그래서 몇 개월부터 이제 그나마 국립국어원과 네이버 그리고 클로에 있는 여러 가지 데이터들을 가지고 NER을 이제 한번 트레이딩을 좀 해봤습니다.
이걸 한 이유는 그냥 연구나 R&D 목적이 아니라 정말 저게 아까 저희가 보여드렸던 솔루션에 들어왔을 때 산업계에 즉시 활용할 수 있는 무언가가 되기 때문에 그렇습니다.
현재 이제 NER 데이터는 이제 모두의 말뭉치에 가장 많이 있고요.
한 250만 건 가량이 있고요.
이거를 가지고 이제 처음에는 다 저거 4개 섞어 가져보려고 그랬는데 오른쪽에 보시는 거가 분류 체계가 굉장히 다릅니다.
그렇기 때문에 아까 전에서도 말씀해 주셨던 표준화 이런 얘기들이 많이 나왔던 것이죠.
결국은 이제 그 분류가 다른 것들은 혼합해서 사용할 수가 없기 때문에 이제 모두의 말뭉치를 주로 활용을 했고요.
이 데이터가 좀 더 많아졌으면 좋겠는데 그 이후에는 약간 아직까지는 데이터 수량이 적기 때문에 문장 중에서 상당수는 다이알로그 기반이 이제 84% 정도 들어와 있고요.
문장 길이도 조금 다릅니다.
그러다 보니까 이제 뭔가 기업에서 솔루션화를 시켜서 뭔가를 할 때 문장 길이에 조금은 제약이 걸리는 그런 문제도 일단은 발견할 수가 있었습니다.
그래서 저희가 그 모두의 말뭉치를 가지고 버트(BERT) 기반 베이스 모델을 가지고 한번 트레이닝을 시킨 결과를 보면 왼쪽에 보시는 그래프가 이제 모두의 말뭉치만 갖고 실험을 한 건데 리콜 프리시젼 애큐로시(recall precision accuracy) 값들이 나온 게 보이실 것 같고요.
저기다가 한 번 조금 저희가 일부의 legal 데이터만 넣어가지고 델타 값을 보자 해서 이제 저희가 최근에 legal 데이터를 넣어서 한 바는 굉장히 많이 델타 값이 향상되는 것을 오른쪽에서 보실 수가 있습니다.
불과 50만 건의 데이터를 트라이를 해봤는데 저게 이제 어느 정도 수치가 올라갔다는 거죠.
그래서 이제 결론적으로 보면 NER이나 이런 그 아까 교수님들이나 각 산업계에서 연구하셨던 그런 지식그래프에 기반된 데이터들을 만들어야겠는데 얼만큼 수량을 만들면 좋겠느냐에 대해서 실험에 델타 값은 도메인별 50만 건에서 100만 건 정도가 아마 의미 있지 않을까라고 좀 보여지는 부분이 있고요.
그럼 뭐 이런 NER 데이터는 그냥 팍 만들면 되는 거 아니냐, 그렇지 않습니다.
원문 데이터가 있어야 되고 저작권 문제를 풀어야 되고 NER 데이터를 뽑아내야 되기 때문에 그것도 여태까지 구축했던 언어 데이터의 처리 과정과 거의 동일하다고 보면 됩니다.
이거를 저희가 추정한 바는 법률과 같은 거를 10에서 15개 도메인 정도를 만들면 올 도메인화를 좀 할 수 있지 않을까라는 좀 기대를 하게 되고요.
산업계에선 분명히 이제 여러 가지 회사들이 SLLM을 써가지고 기업용어를 만들고 있지만 이런 기업들이 더 많이 생겨날 겁니다.
그런 기업들이 여러 가지 베이스 방법론으로 이제 어프로치를 할 텐데 거기에 대한 근간 데이터 중에 하나가 이런 데이터가 될 수 있다라는 얘기를 일단 드리고 싶어서 순서를 조금 바꿨습니다.
그런데 이제 명색이 시스트란이라는 회사는 기계 번역을 주로 하는 회사이기 때문에 그동안 저희가 트렌드가 변하면서 기계 번역을 했던 그런 사례들을 조금 설명을 드리고자 합니다.
먼저 이제 그 LLM과 좀 이렇게 섞어서 해볼 수 있지 않겠느냐라는 논문들을 저희가 시스트란이 했던 일은 솔루션을 첫 번째로 만드는 거고요.
그 솔루션을 만들기 위해서 논문들을 계속 분석하는 팀이 따로 있습니다.
그 논문 분석하는 팀들이 의미가 있다라는 거라고 이제 증명이 되면 그걸 이제 R&D에서 솔루션화를 시켜나간 기업이기 때문에 지금부터 소개해 드릴 내용은 솔루션에 들어간 것도 있고 아직 그 테스팅하는 중인 것도 있는 것입니다.
아까도 말씀하신 뭐 원샷 투샷 뭐 제로샷 이런 얘기를 했는데 결국은 이제 제로샷 러닝과 원샷 러닝을 비교해 봤을 때 좀 어떻게 의미있게 변하느냐를 좀 논문을 보고 저희가 테스트를 해봤는데요.
결론적으로 제로샷은 아무것도 안 했을 때 그리고 원샷은 뭔가 컨텍스트를 하나 주고 이렇게 해봐라고 조금 이게 가이드를 얘한테 준 겁니다.
저희는 이제 독자적인 번역 모델을 가지고 있지만 LLM이라는 거에다가 한번 저희가 자문을 구해본 거죠.
쉽게 말하면.
그랬더니 블루(BLEU) 값을 비교를 해보면 제로샷에서는 결론적으로는 그 제너릭 도메인은 제로샷이 가장 우수한 것을 볼 수 있었습니다.
당연히 이제 느낌에는 가장 많은 데이터를 넣어서 뭔가를 했기 때문에 제로샷이 가장 우수하다라고 보여지는 부분이 있고요.
특정 도메인을 이제 원샷으로 돌려서 뭔가 그 법률에 대한 조금 백그라운드 그리고 특화에 대한 백을 조금씩 줬을 때는 얘가 성능이 상당히 올라가기는 합니다 그럼에도 불구하고 아예 그 솔리 도메인 특화된 데이터를 많이 넣은 그런 번역기와는 조금 차이를 보이는 것을 영한 한영 모델에서 볼 수 있었습니다.
결론을 말씀을 드리면 LLM 거대 모델에서는 LLM에 대한 번역 언어처리가 상당히 우수할 겁니다.
그런데 이게 산업계로 들어오면서 특화 모델로 갈수록 산업계는 첫째 그런 거대 비용을 써가면서 하드웨어를 도입할 수가 없고요.
그만한 데이터를 갖고 모델을 라이센스비로 쓰기가 굉장히 어렵습니다.
그렇기 때문에 아마도 연구하고 있는 특화 도메인 모델들로 점점 더 분화할 거라고 생각을 하다 보면 여태까지 국립국어원에서 병렬 말뭉치를 굉장히 많이 만들어 주셨죠.
특히나 아까 언어 트렌드에서 본 소수 언어들에 대한 부분은 사실 어디 가서도 저희가 찾을 수 없는 데이터를 많이 만들어주셨는데 그런 데이터들이 활용이 되어야만 기업에서 타겟팅하는 언어처리 그리고 거대 모델을 포함한 뭔가를 처리하기 위한 데이터 처리에 대한 산업계 활용이 높아질 거다라고 생각을 하고 있습니다.
조금은 예제인데요, 보시기에는 큰 차이가 없을 것처럼 보여요.
문맥에 대한 부분은 그래서 제로샷이나 원샷 같은 경우는 상당히 플루언시 관점에서는 좀 뛰어나지만 특정 용어로 갔을 때는 비음도를 비성어로 비성도를 비음으로 잘못 번역한다든지 하는 어떻게 보면 업계에서는 치명적일 수 있는 그런 에러들이 나오는 것을 확인할 수가 있었습니다.
그리고 사실은 더 큰 문제가 있죠.
속도 비교도 계속 저희는 솔루션을 하기 때문에 속도 비교를 하게 됐는데 지금 아마 조금 속도가 다를 수 있습니다.
그런데 이게 LLM이라는 모델을 라지 랭귀지 모델을 특히 정말 큰 모델을 쓸 경우에는 속도에 대한 부분에 대한 처리가 조금은 챌린지한 부분이 아직까지는 있다고 보여지고요.
결국은 이제 SLLM이 그런 모델 성능을 특정 도면에 따라가면서 이런 속도는 캐치업할 거라고 보여지지만 그럼에도 불구하고 아직까지 이런 속도에 대한 이슈는 발생을 하고 있습니다.
산업계의 활용 측면은 성능이 좋냐 나쁘냐에 대한 문제뿐 아니라 이게 속도가 맞느냐 그리고 비용이 적절하느냐를 같이 볼 수밖에 없거든요.
여태까지 말씀하셨던 거대 모델이 잘한다라는 거 외에 그리고 왜 우리가 쟤가 잘하는데 데이터를 추가적으로 만들어서 뭔가를 해야 되느냐.
도대체 한국어 말레이시아와 한국어 인도네시아 베트남을 왜 만들어야 되느냐를 봤을 때는 그런 데이터가 있어야만 최적화 모델들이 나갈 수 있고 산업계에서 ROI 관점에서의 접근을 용이하게 할 수 있는 유즈(use) 케이스가 나올 수 있기 때문에 그렇습니다.
마지막은 이렇게 ONE-SHOT까지 돌린 다음에 텀을 줘버리면 오른쪽에 보이는 아일릿을, 오른쪽 아래와 같이 아일릿과 투어스를 용어로 잘 처리하는 그런 기능도 확인을 할 수가 있었습니다.
그 다음에 테스트해본 게 Self-Reflection을 한 번 테스트를 해서, LLM을 Self-Reflection으로 쓰면, 어떻게 되나를 한번 본 거죠.
글자가 작은데 개념은 그렇습니다 일단 얘한테 번역된 결과를 주고, 이거를 고쳐 봐가 아니라, 일단 평가해 봐로 일단 주는 겁니다.
그럼 중간에 보이는 것과 같이, 이거는 Text Classification하고 Quality Estimation의 관점에서는 어때라는 결괏값을 주게 됩니다.
Medium 정도 되는 것 같고, 한 60점이야.
좀 별론 것 같아.
그럼 이런 거를 기반으로 해서 네가 그럼 그렇게 평가했으니까 네가 해봐.
우리 직장에서 제일 싫어하는 거죠.
내가 뭐 말하면 네가 해봐 그러잖아요.
이렇게 시키면 얘가 뭔가를 만들어냅니다.
그걸 추론 Self-Reflection이라고 하는데 이 Reflection을 돌릴수록 조금 성과가 좋아지는 걸 확인할 수 있습니다.
그동안 번역기 회사 입장에서는 여러 가지 데이터 정확도 이런 걸로 수량 이런 걸 조율을 했다 그러면 어느 정도 Self-Reflection으로 일부 성능 개선을 노릴 수 있는 그런 기반이 마련됐다고 보는 거고요.
여기 보시는 왼쪽이 컬러링 해놓은 거 그리고 ParroT, Bayling, MT-Full, MT-FixEmb 같은 걸 쭉 비교해 봤을 때 결국은 FixEmb-TC라고 하면 아래 79.
53 저기 왼쪽으로 나온 그 부분 Self-Reflection을 돌려서 퀄리티에 대한 평가까지 상당한 벤치까지 같이 바라보였을 때 평가 결과가 일부 모델들에 대해서 좀 구체적이게 나왔다는 것을 지금 확인해 보자.
그러면 이제 뭐 번역기 이런 게 필요 없고 LLM 같은걸 쓰면 Self-Reflection이 다 되어 있는 거라고 얘기할 수 있지만 사실은 거기에는 적어도 기본적인 데이터 수준이 깔려있는 것이고 아무 데이터 없는 상태에 대한 데이터라고 할 수는 없어서 그 특정 언어 데이터에 대한 기본 데이터가 깔아져 있는 상태에서 구동이 된다라는 거를 염두해 두시면 될 것 같습니다.
네, 그거를 이제 Chain of Thought 그리고 In-Context Learning하고 비교해 본 거죠.
그래서 Chain of Thought의 방법을 가지고 비교한 로그가 자리하고 있고 오른쪽에 보시는 2-shot, 3-shot, 4-shot을 돌렸을 때보다도 특정 도메인에 대해서는 Self-Reflection의 learning이 효과가 괜찮았다는 것을 알게 됩니다.
다시 한번 강조드리지만 이 방법론이 나오기까지는 이 방법론에는 기본 데이터들이 상당 부분 들어가 있는 상태에서 이게 이제 실험적으로 설명이 되는 것이고요.
이거라고 해서 저희가 불치 비싼 한국어-베트남어, 한국어-인도네시아어를 똑같이 등분해 이루는 거라고 설명을 했다고 하면 아마 되게 상이한 결과가 나올 거라고 생각을 할 것 같습니다.
위의 것까지는 아직 저희 시스트란 솔루션에 반영은 안 되어 있고요.
이제는 Formality에 대한 저희가 연구를 많이 하고 있는데 자료에는 4개 진행 중이라고 되어 있는데 현재 7개가 다 완성이 돼서 Formality를 저희가 연구를 해서 반영을 해놓은 상태입니다.
Formality는 결국은 이런 격식체나 비격식체에 대한 것들을 분리해서 조금 번역 엔진에 대한 것들을 좀 이렇게 좀 정말 사람같이 그리고 얘가 너무 싸가지 없지 않게 만들기 위한 번역 엔진 그런 거죠.
그래서 저희가 썼던 방식은 격식체의 높임말과 비격식체의 높임말을 합치고 그리고 낮춤말끼리 합쳐 가지고 훈련을 해 본 거죠.
그래서 합쇼체, 하오체 같은 경우는 높임말로 분류가 당연히 되는 것이고요.
평서형, 의문문부터 감탄형까지 분류를 해서 훈련을 해 본 겁니다.
높임말, 낮춤말 그리고 여기 포함되지 않은 음슴체라고 하는 게 있죠.
그래서 뭐 그랬음, 뭐 했음 하는 체가 있는데 결국은 이제 훈련을 데이터를 갖고 시키니까 굉장히 테스트 결과에서 높은 정도의 퍼센티지가 나온 것이 중간에 있는 그래프이고요.
외부 번역기 같은 경우는 당연히 이런 formality를 트레이닝을 전문적으로 안 했기 때문에 저렇게 나올 수밖에 없습니다.
그래서 여기서 시사하는 바는 저희가 국립국어원에서 주신 자료들 그리고 외부에서 수집한 자료들을 갖고 만들었는데 이런 formality에 대한 부분도 상당히 의미 있게 번역기로써 그리고 언어처리에 대한 어떤 기술로써 의미가 있어진다라는 것들을 보여드리고 있는 것입니다.
그래서 ‘있어’, ‘있어요’ 그리고 ‘들었어요’, ‘들었니’ 같이 조금 오류가 있는 게 ‘들었어요’ 같이 공손하게 나온다던가 그리고 낮춤말은 ‘있어’로 나와야 되는데 ‘있어요’로 나온다든가 이런 것들을 명확히 구분을 해주는 거죠.
사실은 별 게 아닐 수도 있는데 외국인들이 한국말 번역할 때 가장 어려운 게 우리 회식하고 헤어지면 ‘들어가세요’, ‘수고하셨습니다’, ‘내일 뵐게요’, ‘안녕히 가세요’ 다 bye거든요.
이거를 bye, bye, bye, bye로 해석하면 이상하니까 계속 대체 표현을 찾으려고 하는 게 안 되는 거거든요.
결국은 언어에 대한 뭔가를 조금 더 풍부하게 이해를 하려면 언어만이 갖고 있는 특징들을 분할을 시켜서 이해를 해야 되는 부분이 지금 정도 속도로 올라온 다음에는 지속적으로 아마 연구가 될 것 같고 저희도 이거는 솔루션화를 시켜서 현재 고객들에게 영업을 하고 있는 상태입니다.
또 기술로 들어간 게 NFA라고 하는 Neural Fuzzy인데요.
간단히 말하면 조금 이렇게 통계적으로 비슷한 걸 갖다가 보여주는 거예요.
참조로 해서 A를 B를 번역할 때 B 같은 번역 패턴이 Fuzzy 관련된 데서 이런 패턴 문장이 있으니까 너 그거 좀 참조해봐 라는 게 마치 우리가 여태까지 얘기한 RAG 같은 거랑 비슷한 형태의 기술인 거죠.
이걸 이제 저희는 Fuzzy 매칭이라고 부르는데 그걸 이제 Fuzzy 매칭을 통해서 기계 번역을 올리는 기술들도 현재 솔루션 내에 탑재가 되어 있습니다.
그래서 이제 뭐 MT를 번역을 한 거를 이제 Fuzzy를 통해서 참조 모델을 주며 오른쪽같이 Select to use같이 이제 조금 더 명확한 표현을 하게 되는 그런 형태의 기술들이 들어가 있는 상태입니다.
시스트란은 오른쪽 아래와 같이 솔루션화를 해 놓은 거죠.
그래서 데이터에 대한 전처리 그리고 모델학습 모델평가 배포에 대한 것들을 솔루션화를 시켜 놓은 거고요.
아까 제가 첫 장에 보여드렸던 굉장히 많은 솔루션들이 그런 각각의 Use case와 그리고 Function 위주로 기능들이 다 구현되어 있는 상태입니다.
그래서 이제 그 저희가 만드는 거는 Generic 모델을 만들고 그리고 이제 오른쪽 아래 보시는 동그란 원들이 각 번역 모델이 분화된 것들인데 저런 것들을 내가 이런 데이터 넣으면 Formality에 경어체가 나오고 경어체가 안 나오고 이런 것들을 솔루션까지 끌고 가서 상용화를 하는 그런 회사이고요.
고객들이 ModelStudio라고 하는 솔루션을 쓰시게 되면 회사 내에서 자기 데이터 부어 가지고 계속 모델을 만들 수 있습니다.
만들어 가지고 배포해 보고 그래서 자동차 회사 같은 경우는 R&D에서는 미션을 변속기라고 번역을 해야 되는데 전략팀에서 미션을 변속기로도 번역을 해야 되지만 문맥에 따라서는 사실은 뭐 임무 미션, 실제로 그냥 미션이라고도 그냥 음차해서 써야 되는 경우도 있거든요.
그런 다양성에 대한 번역기를 줘서 혼합해서 사용하게 하는 기술들을 만들고 있는 그런 회사입니다.
구조이고요.
그것만 갖고 있지 않고요.
API나 유저 툴들도 많이 가지고 있고 텍스트나 스피치, 파일, 여러 가지 웹에 대한 커넥터들 가지고 있고 트라도스나 XTM 같은 여러 가지 TMS 관련된 커넥터들도 만들어서 공급을 하고 있습니다.
시스트란이 지난 70년 동안 고민했던 게 평가 지표를 0.
1점 올리냐 0.
2점 올리냐에 대한 부분인데 이제 조금은 더 미래를 보고 있습니다.
그럼 과연 뉴럴 다음은 뭘 거냐에 대한 고민들을 시작을 했고요.
그거에 대한 R&D를 조금씩 진행을 하고 있습니다.
기존 AI가 갖고 있는 NLP 기술의 한계가 일단 명확히 있죠.
그래서 데이터가 너무 많이 요구된다, 비용이 많이 든다 맨날 하고 있는 얘기고요.
해석 가능성이 안 나온다, 요즘 AI 기본법 최근에 통과돼서 이제 본 회의 앞두고 있는 것 같은데 거기서 2번, 3번에 대한 걸 골치 아프게 보고 있는 거죠.
그래서 AI 신뢰성에 대한 검증을 해봐라 하는 얘기들이 나오는 거고 컨텍스트에 대한 understanding이 안 된다라는 것도 굉장히 큰 문제입니다.
근데 이거를 이제 우연치 않게 퀀텀이라고 하는 양자 분야에서 해결할 수 있는 이론들이 나오고 있습니다.
그래서 저희는 현재 QML, Quantum Machine Learning이나 Quantum Machine Translation 두 가지 분야를 연구를 시작한 단계인데요.
일단 데이터 비율성은 양자는 이제 우리가 컴퓨터에서 0과 1로 처리했던 것들을 그 사이의 무한한 데이터들을 처리할 수 있는 것이죠.
사실 이해가 안 되지만 받아들여야 되는 겁니다.
왜냐면 광합성 개념도 양자 반응인데 광합성은 일어나고 있는 것이거든요.
그래서 효율적 표현은 0과 1 사이의 Qubit 데이터로 활용이 가능하다.
그리고 얽힘을 쓰게 되면 이게 왜 이렇게 나왔는지에 대한 해석 가능성을 빠르게 볼 수 있다.
그리고 환경문제는 모호성에 대해서 얘네는 굉장히 중첩적으로 동시에 뭔가를 볼 수 있기 때문에 제가 여러분들 하나 한 명 한 명을 보는 게 지금 현재 컴퓨터의 방식이라고 그러면 동시에 딱 보는 게 양자적 반응, 양자의 중첩입니다.
마치 GPU가 처리를 한번 해서 RNN 같은 것을 발전시킨 거랑 비슷한 컨셉을 가지고 있는 거죠.
그리고 간섭 같은 경우도 패턴 관련된 인식 부분에서 간섭이라는 현상을 활용을 하면 이게 책을 찾아보면 굉장히 많은 이론이 나오는데 그거를 문맥적 이해를 풀 수 있다라고 합니다.
조금 뜬금없는 얘기 같지만 사실은 오른쪽에 보시는 게 무어의 법칙(Moore’s Law)이거든요.
그런데 무어의 법칙이 깨지기 시작합니다.
왜냐하면 왼쪽에 있는 유리관에 있는 것들을 조금 조금 조그맣게 만들어서 트랜지스터 1, 0은 알잖아요.
컴퓨터 사이언스 전공을 안 해도.
그걸 만든 게 기존에 저 왼쪽 아래에 보시는 트랜지스터입니다.
쟤를 이제 더 작게 만들어야 되는데 더 작게 만들려고 그러니까 전자나 원자 단위까지 뭔가를 가야만 쟤가 더 작아집니다.
두 가지 문제가 발생을 해서 반도체 업계에서 이슈가 발생을 했는데 첫 번째는 열이 엄청나게 많이 납니다.
지금도 데이터 센터 열 문제 때문에 굉장히 골치가 아프잖아요.
두 번째는 전자 단위까지 가면 간섭 반응이 일어납니다.
1은 1이고 0은 0이어야 하는데 얘가 헷갈리기 시작합니다.
그래서 이제 기존 컴퓨터가 해야 되는 굉장히 중요한 연산 같은 경우는 양자 컴퓨터가 일부 대체를 해야 된다는 얘기들이 나오고 있고 그래서 미래형 데이터 센터는 CPU, GPU, 슈퍼컴, 그리고 양자컴이 교류를 해야만 이게 완전한 형태의 데이터 센터가 된다고 합니다.
저희가 연구를 하고 있는 방식은 결국은 저기 왼쪽에 보시는 OpenNFT 기반이 그동안 시스트란이 해왔던 OpenNFT 기반의 뭔가 트랜스포머 기반의 처리라고 하면 저기다 그동안 아까 말한 이론들을 올렸던 게 솔루션화를 했던 거죠.
여기를 조금 버튼하고 아래 보시는 양자 게이트라고 하는 처리를 저희가 보고 있습니다.
저게 어떻게 설명하기가 굉장히 어렵지만 결국은 언어 데이터 처리에서 얘가 어려워하는 부분 데이터가 엄청나게 늘어난다든가 처리의 속도가 특별히 너무 많이 걸린다고 하는 부분의 특정 영역을 양자 게이트에 처리를 하게 하는 겁니다.
그걸 통해서 합쳐서 결과를 내는 형태의 논문들을 참조를 해서 지금 외국에 있는 양자 컴퓨팅 회사와 저희가 얘기를 하고 있고요.
이게 왼쪽에 있는 게 실제 그쪽에서 만든 양자 컴퓨터이고요.
보시면 오른쪽에 보시는 게 퀀텀에서의 서비스 중에 언어가 있어요.
파이썬 기반의 언어가 있는데 그걸 쓰게 되면 양자 컴퓨터 점수 이론을 한번 시뮬레이션해 볼 수가 있습니다.
그래서 지금부터 다른 산업계를 다 일반화시킬 수는 없겠지만 저희가 고민하는 부분은 기계 번역을 오래 잘해왔고 기계 번역에 대한 코어 기술을 아까 같이 만들고 있습니다.
R&D 하고 있고 그런데 기계 번역이라는 언어 데이터가 미들웨어로 가면서 폭넓은 데이터를 처리하기 위한 그런 솔루션과 연계도 고민을 하고 있고요.
그리고 언어가 이제 가게 되면서 나올 수밖에 없는 미래형 기술에 대한 부분도 지속적으로 연구를 하고 있는 상태입니다.
여기까지 발표를 마치겠습니다.
감사합니다.

더 보기

작성일

2025-02-05

조회수

529
한국형 AI 구현을 위한 한국 언어-문화 지식그래프

국립국어원 모두의 말뭉치 국제 학술 대회(2024.12. 4.(수), 대한상공회의소) 강연 영상입니다.

[주제 발표 2: 한국형 AI 구현을 위한 한국 언어-문화 지식그래프]
안녕하세요.
방금 전에 소개받은 주식회사 이르테크 곽용진입니다.
먼저 이런 좋은 자리에 초대해서 발표할 기회를 주시고 재미있는 연구를 던져주신 학술 대회 주관 및 주최하신 분들과 국립국어원에 감사드립니다.
저는, 이제 제 소개를 간단히 하자면 저는 국어학을 전공하기도 했고 어려서부터 프로그래밍을 하기도 했고 후에 전산학을 하기도 했고 지금은 회사를 해서 여럿 하고 있습니다.
제가 이 지식그래프 과업을 덜컥 맡게 된 것은 제가 아직 회사를 다니고 있는 회사원일 때 검색엔진, 자연어처리 기반의 검색, 그다음에 AI 쪽을 계속적으로 일로, 또는 연구로 해왔고요.
그런 AI를 만드는 데 필요한 데이터를 만드는 일들을 아무래도 조금 더 많이 했습니다.
이 지식그래프가 앞에서도 소개를 하셨겠지만 한 15년쯤 전에 굉장히 지금의 LLM만큼 핫한 주제로 이런 콘퍼런스 자리에 자주 왔던 기억이 나는데요.
그때 뵀던 분들이 오늘 또 뵙기도 하고 반갑습니다.
오늘 제가 말씀드릴 내용은 어쩌면 어떤 책의 제목인 오래된 미래 같은 얘기일 것 같아요.
이전에 우리가 관심을 갖고 많이 연구를 했다가 트렌드 흐름이 바뀌면서 또 잠시 잊혀졌는데 새롭게 되살아난 지식그래프의 얘기거든요.
제가 자료를 만들면서 혹시 같은 내용이 많으면 어떨까 이런 고민들을 굉장히 많이 했는데 다행히 좀 비켜나간 것 같아서 조금 기술적인 것보다는 제가 소개해드리는 내용들을 보시고 제가 느끼는 인사이트 같은 것들을 여러분도 함께 같이 가지시고 여러분 새로운 주제로, 더 발전된 주제로 이야기해나가실 수 있으면 보람 있는 자리가 될 것 같습니다.
지식그래프 역사는 이 지식그래프에 담긴 내용들을 학술적으로 연구했던 건 생각보다 굉장히 오래된 부분입니다.
앞에서 김학래 교수님도 얘기를 해주셨고 조금 전에 정상근 교수님도 얘기를 해주셨지만 저희가 많이 얘기하는 분야는 널리지 리프레젠테이션(knowledge representation)이라고 하는 지식을 어떻게 표현할 건가 하는 방법 중에 하나였고요.
그런데 이 지식그래프라는 용어가 정작 유명세를 탄 건 2012년에 구글이 검색에 자신들의 한계를 느끼고 지능적인 검색이 필요하다라는 얘기를 꺼내면서 자신들의 나아갈 방향의 기술로 얘기를 했던 그 발표 내용이 이후에 지식그래프라는 이름으로 많이 나왔고 이게 지금도 네이버 블로그에 있습니다.
그런데 당시에 굉장히 구체적인 내용도 아니었고요.
이 히스토리를 조금 더 얘기하자면, 당시에는 구글이 어떤 얘기까지 했냐면 우리는 인공지능 안 한다.
검색만 잘하겠다.
이렇게 얘기를 했었거든요.
그리고 검색의 한 축에 시멘틱 검색, 시멘틱 웹 혹은 의미기반 검색 같은 문서의 빈도를, 단어의 빈도를 가진 것들이 아니라 찾고자 하는 의도와 내용을 파악을 해서 해주는 이런 부분들하고 조금 대립적인 구도에 섰습니다.
구글이 결국 다 이겨서 AI에 찬바람이 부는 데 굉장히 큰 역할을 했습니다.
제가 대학원 박사 과정을 마칠 때쯤인데요.
그런데 그 얼마 지나지 않아서 2012년에 굉장히 전격적으로 저게 자료도 별로 없는데 이슈가 아직까지도 되고 있는 거는 전격적으로 돌아서서 우리 이제부터 지능을 의미를 연구한다는 태도로 바꿨고 이때 연구 최고 책임자가 커즐 AI라는 AI와 다양한 문화, 한국에는 피아노 자동 건반으로 많이 알려졌는데 그분들이 창의적인 지능 연구를 위해서 팀을 꾸리면서 많이 알려졌습니다.
이때 했던 내용이 뭐였냐면 그림들을 많이 학습을 해서 고양이라는 개체를 스스로 컴퓨터가 알아냈다 이래서 전 세계 뉴스에 대서특필이 된 이후로 유명해지고 있고 그때부터 사실 구글이 이제 AI를 이끌어왔다고 해도 과언이 아닐 것 같습니다.
지금 말씀드린 이 구글의 내용과 별개로 그 이전에도 혹은 그 이후에도 지식그래프라는 말은 지식을 표현하고 나름의 AI를 만드는 한 방법으로 계속적으로 연구되어 왔었습니다.
저는 데이터를 많이 다루고 취급하는 사람으로서 데이터에 관한 디지털화라는 거에 훨씬 더 관심을 많이 갖고 이런 관점에서 자료들을 많이 보고 있습니다.
여기도 앞에 하셨던 연구들하고 좀 겹치는 부분이 있는데요.
사실 우리가 얘기하는 인공지능은 1950년대 60년대에 이번에 노벨상을 받은 민스키 선생님 통해서 아티피셜 인텔리전스(artificial intelligence)라는 말이 쓰기 시작을 했는데요.
그 이전에 아까 김학래 교수님이 영상으로 보여주셨던 그거는 애플의 광고 같은 내용이었던 것 같은데 그 책상 기억나시죠? 그 책상 글이 지금 현재 PDF의 원형이고요.
그 책상의 이름이 바네바 부시라고 얘기하시는 분이 1945년에 특허를 제안한 메멕스 메모리 익스텐션 인간의 뇌의 기능 중에 하나인 저장 부분을 외부로 옮겨서 연결을 하는 기술이고요.
이게 지금 현재 우리가 쓰고 있는 스마트폰, 인공지능 그다음에 AI 에이전트 같은 것들을 떠올리게 하는 굉장히 이 바닥에서 굉장히 유명하신 분입니다.
이분이 만들었던 우리의 머릿속에만 저장되어 있는 지식을 외부로 꺼낸다라는 이 컨셉 혹은 우리가 그런 지식들이 어떻게 뇌에서 관리되고 처리되는지에 대한 그런 것들에 대한 고민이 뒤에 하이퍼텍스트 우리가 쓰고 있는 인터넷이죠.
사실 인터넷에 영감을 준 분도 바네바 부시라는 분입니다.
팀버튼 리가 그런 얘기를 했는데요.
근데 재미있게도 지금 현존하는 기술의 거의 대부분이 여기서 출발해서 연결되고 있는 느낌이 있습니다.
제가 가져온 거는 가운데 있는 시맨틱 웹 이전의 인터넷이 하이퍼텍스트가 있었기 때문에 시맨틱 웹이 나오기 시작하게 되는데요.
이 지식에 대한 연구는 이전부터 있었고요.
저희는 이것들을 한꺼번에 모아서 온톨로지, 지식그래프, 시맨틱 웹 이런 것들을 한꺼번에 다루게 됐었는데 그때 온톨로지를 또 이 웹과 디지털과 연결함으로 해서 기존의 철학적인 개념적인 지식들이 디지털화되기 시작했습니다.
그리고 이 가장 마지막에 있었던 건 링크드 데이터라는 건데 아직도 많이 쓰고 있습니다.
이거는 그 이전에 이런 컨셉이 완전히 대중화되기 전에 있었던 레거시 데이터들을 다시 시멘틱 웹에 연결하기 위해서 굉장히 대규모로 크게 연구를 했던 부분인데요.
저는 이런 것들을 한마디로 다 디지털화라고 보고 있습니다.
이것들이 2012년에 나리지 그래프라는 용어들이 나오면서 조금 더 디지털화되고 추상화된 세계로 옮겨갔다라고 저는 보고 있습니다.
앞에 소개시켜드렸던 내용인데 여기서 재미있는 것은 이 앞에 정상근 교수님이 얘기하신 문자 언어 기호로 돼 있다라는 부분을 구글은 이때 기호가 아니다.
어떤 것이다.
그리고 그것들을 연결하는 관계를 찾는다.
그 앞에 발표에서 얘기해 주셨던 그 컨셉의 처음 모태가 되는 부분이에요.
그때 당시에는 저게 잘 안 들어오고 저런 얘기를 하면 당시에는 IoT라는 Internet of Things를 많이 얘기를 했었는데요.
지금은 저게 저는 LLM에 어찌 보면 지금 생성 AI라는 말에 잘 맞는 옛날 말에 떠올렸다는 아이디어지만 지금 미래를 위해서 보고 있는 그런 표현이라고 생각이 됐습니다.
구구절절 늘어놨지만 사실 이 지식그래프가 다시 대두가 되니까 이게 굉장히 다른 관점에서 보는 경향들이 좀 많이 있는 것 같습니다.
그런데 저는 이 지식그래프하고 인공지능이 비슷하다고 보고 있고요.
사실 학계에서도 제가 표현한 것보다 더 잘 돼 있는 표현이 있습니다.
인공지능 LLM과 지식그래프의 장단점 상호 보완 등을 하는 한 장의 좋은 그림들도 있는데 제가 이렇게 가져온 거는 비슷한 점을 좀 구체적으로 말씀드리면 이 지식그래프하고 인공지능이 결국에 마지막에 하려고 했던 것들은 공통됩니다.
구축된 데이터 혹은 학습된 데이터를 통해서 학습되지 않은 것, 구축되지 않은 것을 잘 추론해내려고 하는 거고요.
이 목적이 LLM이 더 잘 만들어져서 지금 LLM이 더 유행을 하고 있는 거라고 볼 수 있고요.
반대로, 이 지식그래프를 구축했을 당시에도 지금 LLM에서 나오는 이슈하고 비슷한 이슈들이 있었습니다.
많은 데이터를 대규모로 구축을 해서 추론을 잘할 수 있게 만들었는데 이 오추론이 계속 생깁니다.
지금 AI 같은 경우도 비슷한 경우도.
이미 데이터나 컴퓨팅이 꺾어졌다는 얘기들을 많이 하셨는데 이 얘기는 무슨 얘기냐면 아무리 많은 데이터를 넣어도 이 환각 현상이 없어질 것 같지는 않아 보인다는 얘기기도 하다고 생각이 듭니다.
이런 이유 때문에 당시에도 지금도 막대한 연구비나 비용들을 넣을 때 늘 이슈가 됩니다.
데이터의 검증, 또 그게 한계가 아닌지 그리고 또 자동화된 방법들.
이런 두 개의 같은 흐름을 지금 또 보이고 있는 것 같습니다.
반대로 이 두 개 기술의 차이점이 있는데요.
첫 번째는.
LLM 같은 경우에는 가공된 데이터에만 의존하지는 않습니다.
학습한 거에 반드시 직접적으로 연결되는 이런 모습이라고 보이기는 어려운데요.
이거는 앞에서 얘기하신 생성의 확률 모델이라는 확률 베이스인 특성이 있기 때문이고요.
두 번째 지식그래프 같은 경우에는 지식그래프 자체의 개념은 굉장히 콘크리트하고 논리적인 추론이나 연역적인 추론이 가능하도록 그런 것들을 목적으로 만들어졌기 때문에 사실 이게 논리적이고 사실적인 팩트 데이터로 연결되어 있다고 생각되지만 사실 그렇지 않다는 점이 있겠습니다.
이런 지식그래프가 재조명되는 것은 앞에서도 얘기를 하셨을 거라 이해하시기 편할 것 같습니다.
LLM이 잘 못하는 부분을 소위 얘기하는 RAG 방식으로 보완을 해주는 거고요.
이거는 추상화라는 표현도 앞에서 LLM을 설명할 때 말씀해주셨는데요.
확률 모델로 고도화되어 있는 추상화가 되어있는 모델이기 때문에 당연히 구체성에 해당하는 부분이 누락되어 있거나 저빈도로 내려앉아 있을 수 있습니다.
이런 부분들은 사용자가 이용하는 순간에 추가적인 정보를 통해서 구체화하고 메워주는 거죠.
그렇게 메워졌을 때 그렇지 않았을 때보다 환각 현상이 줄어드는 경우도 있고 응답을 못했던 것들을 응답하는 현상도 보이기 때문에 RAG가 각광을 받고 있습니다.
이 부분은 앞에 김학래 교수님이 두 가지로 말씀을 드렸던 것 같아요.
지금 보시는 게 쿼리 기반의 서치 기반의 RAG이구요.
먼저 그래프 기반의 RAG인데 같은 원리를 따진다고 하면 훨씬 더 적고 간결한 비용으로 검색을 기반으로 한 RAG의 효과를 지식그래프로 볼 수가 있습니다.
결국 하고자 하는 부분은 확률 모델화하면서 혹은 LLM화하면서 빠져있는 부분을 인젝션해주는, 넣어주는 부분이기 때문에 사실은 지식그래프 같은 정적인 데이터가 더 잘 맞는다고 얘기할 수 있겠습니다.
이것들이 실제로 굉장히 현업에서는 많이 이미 쓰고 있는 상태입니다.
한국에서는 조금 다른 도메인적인 특성이 있어서 조금 활용이 낮은 편이지만 실제로 구글이 코파일럿을 만드는데 혹은 IBM이 자체적인 서비스나 솔루션들을 만드는데 거의 대부분 RAG를 사용하고 있습니다.
이미 서양에서 링크드 리스트나 과거 데이터 구축을 통해서 굉장히 큰 규모의 지식그래프들이 만들어졌었고 그것들을 도메인 자체 데이터로도 축적을 해왔고 또 이미 가지고 있는 레거시 데이터를 빠르게 지식그래프로 적용할 수 있는 것들이 이미 15년 전에 다들 팽창해서 나갔습니다.
당시 그때 부족했던 것은 추론들 우리가 원하는 만큼 자유롭고 자연스럽게 해주느냐, 유연하게 해주느냐 이런 부분이 있었는데 이게 RAG가 등장함으로 인해서 보완할 수 있게 되면서 거의 대부분의 현업에 있는 AI 서비스를 만드는 곳에서는 지식그래프를 사용하고 있습니다.
저도 그렇고 앞에 설명하신 분들도 대부분 LLM의 환각 현상을 보조하기 위해 RAG를 쓴다.
이렇게 장표들을 만들고 꾸렸는데요.
저는 조금 반대입니다.
그런 입장이라는 생각이 자료를 준비하고 나서 들었습니다.
기존의 지식그래프에서 제한을 가졌고 한계가 있었던 부분을 이제 RAG를 이용을 해서 보완하게 된 게 이렇게 표현이 된 게 아닌가 지금은 LLM에 포커싱이 많이 가 있어서 좀 그 반대 현상이 생긴가 아닌가 하는 생각이 듭니다.
저도 그렇고 AI 쪽으로 오래 하신 분들이 공통적으로 얘기하는 이 AI의 특성 중에 하나를 정체성 중에 하나를 도구라는 얘기를 많이 합니다.
근데 반대로 지식그래프는 도구는 아니고 표현의 기술적인 방법이거든요.
이 기술적인 문제를 푸는데 LLM이 지금 굉장히 좋은 도구가 되고 LLM 입장에서는 LLM이 갖고 있는 한계점을 보완하는데 지식그래프가 유용한 데이터로 사용될 가능성이 있는 이런 관계라고 보시는 게 좋을 것 같습니다.
이렇게 얘기를 하고 좀 엉뚱한 주제를 꺼내서 말씀을 드리게 준비를 했습니다.
최근 생성형 AI가 거의 챗지피티라는 오픈 AI사로 굳어지면서 다른 곳들도 많이 있지만 저희가 사업이나 이런 비즈니스 서비스상에서 보면 경쟁이 되는 구도는 아니거든요.
예전에 구글과 다른 검색엔진들하고 비슷한 상황이라고 지금 보여집니다.
이런 이슈 때문에 최근에 올해 들어서 많이 언급되는 주제 중의 하나가 소버린 AI, AI의 주권이라고 얘기를 하는 거고 바로 지난주에도 관련한 AI 혁신위원회에 계신 분들이 토론들을 한 내용들이 기사에 나온 적이 있습니다.
아직도 명확하게 소버린 AI를 해야 된다 이렇게 쓰진 않았지만 대부분의 오픈소스 진영들, 미국계 쪽을 제외하고 나머지 거의 대부분은 자체적인 AI를 특히, 독자적인 언어가 있는 곳들은 대부분 소버린 AI를 염두에 두고 있는 상황입니다.
저는 저거는 필수 불가결한 일이라고 생각을 하는데요.
물론 AI의 범주가 생성형 AI의 대표인 LLM에만 있는 게 아니기 때문에 이거에 관한 여러 가지 논의가 복잡하게 되는 것은 기술적인 입장에서는 어쩔 수 없는 일이라고 생각이 듭니다.
그런데 앞에서 정상근 교수님이 얘기하신 거랑 약간 대척점이 되기도 하지만 지식을 표현을 하고 우리가 인류의 역사를 쌓는데 거의 대부분의 것들은 언어를 통해서 전달되고 내려왔습니다.
역사라는 말 자체가 문자로 기록을 했다는 말이잖아요.
그렇기 때문에 AI에서도 이 LLM 언어처리가 가지고 있는 부분은 굉장히 큰 영역일 수밖에 없습니다.
그래서 저는 그중에서도 소버린 AI라는 말을 인상 깊게 받은 이유가 그 정체성이 뭔데 소버린 AI가.
그런 것들은 인공지능도 결국 한국의 정체성을 가져야 된다는 겁니다.
앞에 정상근 교수님이 얘기하셨죠.
우리가 만드는 AI 기술의 가장 큰 특징은 사용자가 사람인 것과 사람하고 소통하는 걸 전제로 합니다.
그래서 AI 기술은요.
AI 기술들을 인터페이스라는 말을 많이 쓰는데요.
그렇다고 하면 그 인터페이스가 응답을 해줄 때 과연 어떤 정체성을 가지고 얘기를 해줘야 되느냐.
지금 예로 세 개 든 게 가끔 인터넷에서 핫이슈가 되는 건데요.
독도는 어느 나라 땅입니까? 이렇게 물어봤으면 지금 검색을 해보셔도 해외에서 나온 것들을 보면 영토 분쟁이 있는 대한민국과 일본 사이에 있는 섬입니다.
이런 AI를 비즈니스 하시는 분들이 한국에서 서비스를 한다고 하시면 바로 다음날 문 닫으셔야 돼요.
한국에서는 비슷한 사례로 실제로 생긴 거는 챗지피티보다 먼저 출시를 했던 MS의 테이가 유색인종 얘기로 발언 한 번 잘못해서 출시한 지 일주일 만에 수백억을 들인 프로젝트가 단 일주일 만에 폐쇄돼 버렸거든요.
이런 이슈들이죠.
김치는 한국의 전통 음식이다.
이거에 대해서 객관적인 어떤 지표를 내기 위해서 다른 답을 한다라고 하는 것들은 한국에서는 받아들이고 서비스되기 어렵습니다.
이런 것들이 지식적인 관점에서 보면 이게 객관적이고 팩트라고 얘기들을 논쟁을 할 때는 많이 할 수도 있지만 이 팩트가 영원 분명한 과학적인 사실은 아니거든요.
그렇지만 우리에게 있어서는 두 번 생각할 필요 없는 명확한 얘기고요.
일단 반론을 하더라도 저 사실은 인정을 하고 뒤에 반론들을 꺼내야 되는 것들이죠.
그런데 이런 것들 그렇기 때문에 객관적인 사실보다 상식이라는 거는 공유적인 어떤 우선순위의 문제라고 할 수가 있겠습니다.
그런데 기존의 LLM이 학습하고 있는 아까 보셨던 셀프 슈퍼바이지드 러닝 같은 방식은 결국 문서의 양이 절대적으로 영향을 줄 수밖에 없게 되고요.
그렇게 되면 학습한 문서의 양과 출처가 문제가 되기 때문에 환각 현상이나 지금 현업에서 직접적으로 쓰기에 어려운 이슈들이 계속 발굴되게 됩니다.
그렇다면 이런 정체성을 가지도록 하는 어떤 데이터적인 수단, 기술적인 수단이 만들어지는 게 인공지능 기술이 더 고도화되는 것보다 상용화 측면에서는 더 중요한 일이라고 저는 생각을 하고 있습니다.
LLM의 환각 현상은 너무 많이 알려져 있어서 그런데 그 환각 현상의 본질을 한 번 더 보자고 이렇게 가져왔습니다.
조선왕조실록에 기록된 세종대왕의 맥북 프로 던짐 사건에 대해서 알려줬습니다.
말도 안 되는 이런 질문도 스스로 말을 만들어서 저렇게 엉뚱한 얘기를 하죠.
저도 몇몇 찾아온 것들이 많이 있는데 이만큼 재밌는 케이스를 못 본 것 같습니다.
사실 위에 있는 질문은 우리가 잘 하지 않습니다.
저런 질문들은.
그렇기 때문에 일반적으로는 잘 눈에 띄지 않지만 이게 근본적으로 LLM이 갖고 있는 본질입니다.
여기에 우리가 사실로 믿고 있는 거, 변하지 않아야 될 거를 어떻게 안착시키느냐 하는 이슈이고요.
그것들이 가장 눈에 잘 띄는 거는 지금 저렇게 기술과 역사와 사실과 거짓이 섞인 저런 거에 잘 어울리는 한국의 언어 문화라고 제가 생각을 한 건 아니지만 과업을 받았을 때 굉장히 재밌고 훌륭하고 좋은 타겟이다라고 생각을 했습니다.
이것들을 바로 잡는 거 굉장히 쉽기도 합니다.
여러 군데 보셨겠지만 저기서 보시는 세 개의 단어 수로왕설화, 감생설화, is 이렇게 하면 앞에서 말도 안 되는 얘기를 했던 게 정말 제대로 뽑아집니다.
이게 LLM하고 지식그래프가 궁합이 굉장히 잘 맞을 수밖에 없는 이유이기도 하고 사실 아까 얘기하신 수학적이나 이런 부분으로 보면 이렇게 되는 게 자연스러운 일이라 다들 이견으로는 놀라워하지 않으시기도 합니다.
단 3개, 6개 정도의 키워드로 이렇게 드라마틱한 결과의 변환을 가져올 수 있다면 이 형태의 데이터를 잘 살리는 거는 굉장히 중요하고 지금처럼 굉장히 많은 비용과 자원이 들어가야 되는 AI 연구 시대에서는 효용성이 높으리라고 판단을 했습니다.
그래서 저희가 만든 한국 언어문화 지식그래프는 사실 기술적이나 테크닉적으로 굉장히 높은 수준에 있지는 않습니다.
오히려 굉장히 심플하게 만들고 이것들을 이후에 확장하고, 재검토를 충분히 할 수 있도록 왜냐하면 굉장히 단단한 데이터였기 때문에 이런 과정으로, 그래서 다들 지식그래프 잘 알다시피 두 개의 노드와 한 개의 간선으로 이루어진 데이터입니다.
그래서 두 개의 노드가 되는 거는 표제어 혹은 출발어라고 하는 거고요.
나머지 한 축에 있는 노드는 관계어입니다.
이 둘 사이를 어떻게 짓느냐 서술어라고도 하고 릴레이션이라고도 하는 이걸 통해서 데이터를 표현을 하는 것이죠.
그래서 보시는 것처럼 훈민정음의 여러 가지 우리는 한 가지로 믿고 있지만 사실은 여러 가지 개념의 설명이 될 수 있습니다.
이것들을 한 개 한 개 쪼개서 여기는 책으로서의 훈민정음이고요.
그다음에 언어로서의 훈민정음 이렇게 각각 관계들을 릴레이션으로 이어서 총 1만 5천 개 정도의 트리플을 만들었어요.
굉장히 큰 구조는 아니고요.
그리고 이런 걸 만드는데 기존의 LLM이나 정보 검색이나 이런 것들이랑 잘 합치될 수 있도록 근거문에 기반한 관계 표현으로 메타 관계 릴레이션들을 만들었습니다.
그런 것들을 데이터에 같이 구조해서 넣었고요.
보시는 것처럼 데이터만으로 보면 그렇게 복잡한 데이터는 아닙니다.
표제어는 사전에 백과사전 안에 들어있는 것들이고요.
그다음에 출발어 관계어 그다음에 술어가 되는 것을 메타 관계라고 표현을 했고요.
이 메타 관계는 추상성을 가진 것이기 때문에 구체적인 설명의 어휘와 그거에 대한 근거 문장들을 작성을 했습니다.
시각화를 하게 되면 작은 데이터에도 이렇게 복잡하고 많은 연결이 보이게 되는데요.
이 한국 언어문화 지식그래프의 특징을 몇 가지 말씀드리면 첫 번째가 공공 데이터를 바탕으로 만들었습니다.
그렇기 때문에 어느 정도, 적어도 여기 계시는 분들의 여러 가지 이슈가 있기는 해도 첫 번째로 전제하는 데 크게 문제가 없는 우리 대한민국의 전체의 입장을 나타내는 데이터, 대표 데이터라고 할 수 있을 거고요.
그 데이터를 바탕으로 그중에서 민족문화 대백과 사전이라고 하는 한국 언어문화 쪽에 있는 자료들을 사용을 했고 제일 큰 두 번째 특징은 온용어라고 하는, 국어원에서 사실 이게 아직 조금 덜 알려졌기 때문에 소위 얘기하는 전문용어 사전에 있는 용어들을 바탕으로 관리하는 시스템에 연계된 시스템 중에 하나이고 그 데이터들을 바탕으로 만들었습니다.
이 관계가 사실 굉장히 중요한데요.
이후에 확장이나 이런 걸 할 때 앞에서도 보셨다시피 이 지식그래프 자체가 개념을 표현하는 지식 표현 방법의 일종이라 여기에 들어가는 데이터들이 결국 개념과 용어명 그다음에 그거에 대한 사용 예시 같은 개념을 표현할 수 있는 방법으로 구성되어 있습니다.
그런데 이것과 비슷한 형태를 많이 가지고 있는 게 사전에 있는 어휘의 정보이고요.
그중에서도 전문용어에 해당하는 것들은 전문용어가 담아내고자 하는 전달하고자 하는 정보 자체가 이런 용어의 개념, 정의, 어떻게 쓰는지에 대한 사용 예시로 되어 있습니다.
그래서 지금은 언어문화를 바탕으로 구축을 했지만 이 표현 방식이나 데이터의 활용 방식은 일반 전문 지식이나 우리가 기존의 지식그래프를 통해서 혹은 최근에 간편화되어 있는 지식 데이터를 이용해서 사용하고 싶은 그런 데이터들과 잘 맞춰져 있고요.
이런 것들을 시범적으로 탄탄하게 잘 구축하기 위해서 분야, 깊이, 넓이를 제안했습니다.
이게 기존의 지식그래프를 확장하고 만드는데 굉장히 어려움이 있었던 부분이었기 때문이고요.
또 이 지식그래프가 생각보다 하시는 분들이 적었던 영역이기도 합니다.
그래서 간결하게 트리플 형태로만 구현을 했고, 했습니다.
그리고 이렇게 연구하는 것들이 맞느냐.
이게 10년 전에 15년 전에 저희가 할 때는 한 개의 답을 찾기 위해서 굉장히 노력을 많이 했습니다.
지식그래프로 데이터를 만들고 표현해서 AI를 완성하기 위한 이런 목적이었기 때문에 올바른 답을 찾기 위한 노력과 논쟁들을 많이 했는데요.
최근에 연구들을 확인을 해보니까 이걸 굉장히 다양하게 쓰고 있는 것 같습니다.
앞에 말씀드렸던 LLM과의 상보적인 관계가 되면서 활용의 폭이 굉장히 넓어진 것 같습니다.
작은 형태의 데이터를 구축하는 것은 실제로 사용한 거에 COVID 치료법을 만드는데 문서 데이터들과 펍메드라고 하는 의료 쪽에 데이터들이 올라오는 것들을 바탕으로 만든 걸 가지고 COVID 치료제를 만드는 데 사용을 했고요.
그다음에 오늘 발표하신 분인데 어떤 데이터의 품질을 검증하는데도 이런 지식그래프를 사용하는 걸 보고 굉장히 확장의 영역이 넓어졌구나 하는 걸 느꼈습니다.
그리고 비즈니스 쪽에서는 지금 삼성에서 하고 있는 초개인화 부분에도 지식그래프가 활용되고 있습니다.
삼성이 그런지 모르겠지만 다른 곳의 연구들에서는 퍼스널 데이터 관리에 지식그래프를 사용하고 있습니다.
빅 데이터로 많이 했던 것은 사이버 보안에 관한 지식, 법률 지식에 관한 기초 데이터도 굉장히 풍부하고 어느 정도 패턴화가 돼 있는 이런 데이터를 많이 사용을 하고요.
그다음에 qa가 많이 돼 있던 것들, 그다음에 멀티모달을 만드는데도 LLM 지식그래프들을 사용을 하고 있습니다.
이 두 개가 항상 지식그래프가 왔다 갔다 한데요.
작은 데이터와 큰 데이터.
검증하는 데이터와 설명하는 데이터, 그다음에 기술 개발 데이터 이렇게 많이 나누고요.
지식그래프에서 이를 잘 활용하기 위한 특징 중에 하나는 이게 앞에서 말씀드린 것처럼 팩트로서의 데이터, 사실 과학기술 데이터를 많이 다뤘기 때문에 팩트 데이터가 사실 굉장히 많습니다.
그런데 선언적이고 앞에 보셨던 정책성을 위한 지식적인 데이터, 상식적인 데이터를 만드는 데도 유용하게 사용될 수 있고 이것들이 기존에는 부딪혔지만 지금은 양립할 수 있는 이런 단계가 됐다고 할 수 있겠습니다.
물론 저는 AI 자체가 아직도 갈 길이 꽤 많이 남아있다고 생각이 됩니다.
마찬가지로 오랜만에 돌아온 지식그래프의 새로운 관점은 다시 예전의 문제들을 소환을 하는데요.
표준화와 호환성에 관한 부분들이 제일 먼저 이슈가 될 것 같습니다.
그리고 이런 이유는 연계하고 확장을 해야만 지식은 가치가 있다고 많은 사람들이 얘기하시고 저도 그렇게 믿고 있는데요.
이런 연계 활용의 단계까지 나아가야 될 거고요.
사실 이런 일들은 특히 저희가 제시하려고 했던 한국의 언어문화, 한국 AI의 정체성을 위한 데이터들은 정책적이나 협력적인 부분들이 바탕이 되지 않으면 앞으로 나가기가 쉽지 않습니다.
그리고 그 끝에는 늘 예산하고 관련된 규모와 범위를 어떻게 할 것인가.
다 크고 넓고 많으면 좋은 것들이지만 늘 한계와 제한이 있기 때문에 여기 오늘 참석해 주신 많은 분들이 관심을 가지고 더 많은 데이터를 요구하시고 또 오늘 같이 본 많은 내용들을 더 많은 테스트와 실험을 해주시는 이런 기회로 삼으면 오늘 저는 이 자리가 굉장히 뜻깊은 자리가 될 것 같습니다.
이상으로 발표는 마치겠습니다.
감사합니다.
[질문] 안녕하세요.
시스트란의 정지은입니다.
먼저 말씀 잘 들었습니다.
재밌는 이야기 해주셔서 감사드립니다.
제가 궁금한 것은 지식그래프를 이용해서 LLM의 할루시네이션을 보정할 수 있다고 말씀을 해주셨는데요.
완벽하게 안정적인, 안전한 LLM 결과를 얻기 위해서 그래프를 사용한다고 한다면 몇 퍼센트 정도 이게 보완이 된다고 제가 이해를 하면 괜찮을까요? [대답] 지금 얘기해 주신 부분은 구축된 지식그래프를 가지고 생성된 LLM을 통해서 생성된 응답들을 다시 체크하고 저희는 사실 반대의 작업도 같이 하고 있습니다.
이런 것들을 해서 실험을 잡아야겠지만 앞에서 여러 가지 테스트를 해본 것은 다들 아시겠지만 현재 LLM이 굉장히 우수합니다.
작은 모델이라고 해도 기존에 저희가 2000년 겨울의 시대에 했던 거에 아까 그 익스포네이션을 했던 그 그래프가 정말 잘 보여주는 것 같은데요.
이전에 있고 없고가 차이가 날 만큼 차이가 나고 있기 때문에 사실상 제 개인적인 판단으로는 거의 대부분의 언어를 통한 지식의 추상화는 완성이 되어 있는 상태라고 생각이 됩니다.
그렇기 때문에 저 테스트해 본 것은 아주 작은 두세 개 정도의, 두 개의 트리플 정도만으로도 환각 현상이 거의 없어진다고 볼 수 있을 것 같아요.
한 90% 정도 아까 보셨던, 지금 보시는 게 좀 한 5월쯤에 했던 것 같은데요.
감생설화라는 말을 아마 우리 한국 사람도 잘 모르실 텐데 저도 몰랐으니까요.
저게 이제 부모가 없이 태어난 존재에 대한 설화이고요.
그래서 박혁거세는 알에서 태어났거나 이런 난생설화 이런 건 들어보셨을 거예요.
그런 표현인데 이거를 GPT한테 던졌을 때 나왔던 응답은 감나무 이야기나 감생 이야기 이런 얘기들을 했습니다.
뒤에 설화라는 키워드만 잡아서 그런 거에 관련된 이야기다라는 표현을 했었거든요.
그래서 누가 봐도 이상하다라는 한국 사람이면 다 이상하다라는 얘기를 할 수 있는 건데 지금 보셨다시피 위에 세 개 정도의 트리플 정도만 제 문장으로 바꿔서 바로 프롬프트에 같이 집어넣은 겁니다.
보시면 여기서 이상한 것들이 하나도 없습니다.
주인공의 특별한 부분을 강조하는 역할을 합니다.
이런 부분까지도, 초자연적인 출생 이런 표현까지도 거의 완전하죠.
이후에 나오는 모델들은 사실 의도하든, 의도하지 않았든 더 큰 언어들을 대상으로 할 거기 때문에 이런 현상 이렇게 바로잡아지는 것들은 더 훨씬 비중이 높을 거라고 생각이 되고요.
다만 이런 이슈는 있습니다.
지금 언어 모델들이 결국 추상화군요.
영어 데이터가 압도적으로 많긴 하지만 결국 여기 언어학계에 계신 분들은 다 아시는 촘스키가 얘기했던 인간의 언어 능력이 역시 수학적인 모델화 된 것 같은 이런 모습으로 저는 인상을 많이 받습니다.
그런데 그렇기 때문에 언어 공통적으로 있고 모든 언어들이나 문화에 공통적으로 있지 않아도, 동일하진 않아도 어느 정도 기저가 되는 부분들에 해당하는 것들은 이렇게 단 몇 개의 데이터만으로도 극적인 효과를 볼 수가 있고요.
이게 더 밑으로 내려가는 과학적인 사실이나 이런 쪽에 갔던 것들은 이 정도의 데이터로는 그리고 아마 정상근 교수님이 수학 쪽 이런 설명 풀이해 주시는 것 같은 그런 것들은 굉장히 엄밀한 절차들이 요구되기 때문에 지식그래프로도 굉장히 충분한 양이 있어야 될 거라고 생각이 됩니다.
정리해서 말씀드리면 보편성이 있는 지식에서 구체화된 것들은 그것도 이제 언어 문화 같은 유해들은 좀 적은 양으로도 충분한 표현이 교정이 가능할 것 같고요.
기술적이고 사실성이 높은 데이터들은 조금 더 구체화되고 데이터의 양이 많이 필요할 것으로 예상하고 있습니다.

더 보기

작성일

2025-02-05

조회수

587
생성형 LLM은 세상의 문제를 어떻게 해결하는가?

국립국어원 모두의 말뭉치 국제 학술 대회(2024.12.4.(수), 대한상공회의소) 강연 영상입니다.

[주제 발표 1: 생성형 LLM은 세상의 문제를 어떻게 해결하는가?]

네, 안녕하세요.
점심 맛있게 드셨습니까? 저도 잘 먹었습니다.
자, 우리 오늘 할 내용은 저는 이제 컴퓨터 쪽에서만 공부한 사람이고 특히나 자연어 처리 쪽에서만 인공지능을 연구했던 사람이라 국어 하시는 분들이나 언어 자원 쪽은 제가 많이 잘 모릅니다.
그래서 오늘 어떤 주제로 여러분들께 소개를 해드릴까 하다가 최근 여러분들 ChatGPT 혹은 생성형 AI 관련해서 너무 많은 이야기가 들리시잖아요.
근데 아마 이게 많이 듣다 보면 내가 이거 아는 것처럼 여기게 되실 수도 있지만 조금 더 들어가 보면 이게 도대체 왜 작동하나 인공 지능이 그리고 이 생성형 AI라는 게 우리 삶에 깊숙이 들어오게 되면 앞으로 어떤 것까지 우리가 상상해 볼 수 있을 것인가 이런 것들이 좀 궁금하실 것 같습니다.
그래서 제가 어찌 됐든 이쪽 관련된 연구를 하고 있는 사람이기도 하고요.
많은 경험도 있기 때문에 그것을 좀 재미있게 풀어서 이야기를 드리도록 하겠습니다.
간단히 제 소개를 드리자면 저는 충남대학교 부임한 지는 한 5년 됐고요.
그 전에는 삼성전자 그다음에 ETRI(한국전자통신연구원) 그리고 SK텔레콤에서 인공 지능, 특히나 자연어 처리를 어떻게 상용화할 것이냐, 어떻게 연구할 것이냐를 오랫동안 하다가, 최근에 학교에 와서는 조금 더 깊게 연구를 하고 있습니다.
그래서 오늘 설명드릴 내용도 그것과 관련해서 몇 가지 재미있는 이야기들을 좀 많이 전달해 드리려고 하는데 주제 발표 끝나고 나서 여러분들 마음속에 ‘아 나 이제 왜 생성형 인공 지능이 작동되는지 이해했다.
’ 라는 느낌과 그 다음에 이것을 내가 알게 되면 앞으로 어디까지 더 추가적으로 발전시켜 볼 수 있을 것 같다라는 그런 아이디어의 실마리라도 좀 드리는 것이 제 목표입니다.
세 가지 이야기를 할 거예요.
왜 인공 지능이 작동되는지 첫 번째는 표현 학습과 앞으로 표현 학습에 의해서 우리의 문명이 어떻게 바뀌어 나갈 것인가에 대한 좀 거창한 이야기를 할 거고요.
그 다음에 이것을 가능케 하는 두 가지의 발견이 우리가 있었습니다.
하나는 Self-Supervised Learning이라는 기법과 또 하나는 데이터와 모델의 사이즈가 어떻게 인공 지능을 바꿨느냐 그거에 대한 이야기를 할 거고요.
나머지 이제 Large Language Models와 그 뒤에 내용은 이런 것들을 바탕으로 제가 일종의 앞으로의 제언, 어떻게 바뀔 것인가에 저의 의견을 전달해 드리는 방식으로 진행을 하겠습니다.
생성형 인공 지능 많이들 보셨죠? 이게 보시면 이 예쁜 강아지 사진 하나 갖다 주고 나머지 것을 완성해 줍니다.
자연스럽죠? 여기서 제가 오늘 자연스럽다, 그럴 듯 하다.
영어로는 Likelihood가 높다라는 이야기를 계속 반복해 드릴 겁니다.
우리가 만들고 있는 모든 생성형 인공 지능은 그것의 소비자가 사람이거든요.
기계와 기계를 위해 만든 것도 있지만 대부분은 기계가 사람을 위해 만듭니다.
그러면 사람이 이걸 받아들였을 때 자연스럽게 받아들여져야 돼요.
그 말인즉슨, 사람이 볼 때 얘가 개연성이 있어야 된다는 얘기입니다.
지금 보시면 개연성이 꽤 높죠.
또 다른 영상도 보겠습니다.
여기 보시면 왼쪽의 이미지가 오리지널 이미지예요.
근데 이것을 내가 어떤 광고 시안이라든지 이런 걸 만들기 위해서 간단하게 프롬프트를 날립니다.
여기 자동차가 있고 하늘의 구름도 자동차 모양이다.
그러면 이제 이렇게 그려주는 것들이 이미 상용화돼서 나오고 있습니다.
보시면 위화감을 느끼지 않죠.
굉장히 자연스럽고 굉장히 매력적이다 이렇게 느끼실 수 있을 것 같아요.
단순히 이렇게 이미지나 영상 같은 것뿐만이 아니고 그 외에도 다양한 사례에서도 우리가 생성형 인공 지능을 써볼 수 있습니다.
저는 철학에 관련해서 전혀 몰라요.
역사도 잘 모릅니다.
오로지 컴퓨터만 아는데, 그런 저도 이런 궁금증은 있는 거죠.
도대체 우리의 긴 역사 동안에 역사관이라는 게 어떻게 바뀌었느냐 이것을 내가 책을 써보고 싶다 혹은 내가 좀 자세히 알고 싶다.
그럼 이걸 해볼 수 있는 도구가 우리가 이제 들어오게 된 거죠.
지금 이게 ChatGPT한테 제가 저번 달에 물어본 겁니다.
여기 보시면 과거로부터 현재에 이르기까지의 다양한 문화와 국가에서 변해온 우주관에 대한 책을 쓰고 싶다.
그래서 개요를 좀 작성해 달라 그러면 이제 이렇게 쫙 만들어주는 거예요.
그러면 저는 이거를 가지고 좀 더 깊게 공부할 수 있거나, 또 더 물어봐서 챕터를 구성하면 되겠죠.
저같이 모르는 사람도 이제 이런 것들을 깊게 알 수 있는, 어떻게 보면 선생님이 생긴 겁니다.
그럼 이런 생성형 인공 지능이 어떻게 만들어졌느냐 그리고 왜 작동되느냐 이것을 제가 좀 가능한 좀 쉽게 설명을 드리도록 하겠습니다.
총 3가지입니다.
하나는 표현 학습, 반 교수 학습 그 다음에 Large-Scale의 Data와 Model의 역량.
이 세 가지가 핵심 스토리인데요.
첫 번째 표현 학습부터 좀 소개를 해드리겠습니다.
대부분의 여러분들이나 저 같은 사람도 인공 지능의 결과물들에 굉장히 집중을 많이 하세요.
얘가 작곡할 수 있다.
자율주행할 수 있다.
그런데 그 모든 마지막 단의 애플리케이션 응용의 가장 밑단에는 이 기술이 들어가 있습니다.
이것이 가장 핵심이라고 볼 수가 있어요.
그래서 이걸 좀 설명해 드릴 텐데, 조금 과장해서 설명을 드려 보자면 인류의 역사는 심볼, 기호의 역사와 그 궤를 같이 한다 라고 봐도 괜찮다고 저는 생각합니다.
여기 보시면 이게 뭐죠? 여러분들 식사들 하셨죠? 코뿔소입니다.
누가 봐도 코뿔소예요.
이게 무려 4만 년 전에 그러니까 우리가 발견한 벽화들 중에 가장 오래됐다고 판단되는 벽화 중에 하나예요.
이거 누가 봐도 코뿔소입니다.
이게 우리가 사람이 잘하는 겁니다.
아까 우리 김학래 교수님께서도 말씀하신 것처럼 사람이 정말 잘하는 거는 추상화예요.
일반화 능력입니다.
이거 보시면 코뿔소를 그려놓은 거죠.
그러면 저거가 딱 벽에 정보화됨으로써 저 동시대 사람들과 후손들도 ‘아, 저 지역에 코뿔소가 살았겠구나.
’ 알 수가 있는 거예요.
이렇게 단순한 수준의 추상화를 넘어서서 어느 순간 이제 문자가 나타납니다.
각 문화권별로.
예를 들면 이집트 같은 경우는 돌이 많으니까 돌에 파는 식으로 문자가 발달했을 것이고요.
다른 나라에서는 이렇게 다른 식으로 발달되고 이런 식으로 문자가 나타나게 되면 이제 단순한 사물이 있다, 없다 정도를 넘어서서 스토리를 생각을 프로세스를 남길 수가 있게 돼요.
이게 흔히 말하는 이제부터는 역사 시대라고 볼 수 있는 거죠.
역사 시대가 지나고 나서 어느 정도가 되면 우리가 일상생활에 다루지 않는 것들도 기호화되기 시작합니다.
여러분들 아까 전에 아름다운 음악이 점심 시간에 들렸죠.
200~300년 전에 돌아가신 모차르트나 베토벤의 노래를 지금 음악을 듣고, 여러분이 감상할 수 있는 이유는 그 사람들, 그 작곡가들이 자신의 악상과 음악을 담아낼 수 있는 인코딩 시스템과 그것을 연주하는 연주자들의 디코딩 시스템이 같기 때문이에요.
이 모두가 기호의 발전 때문에 가능한 겁니다.
이렇게 기호가 우리의 아날로그나 이런 것들을 다 담아내기 시작하면 어느 순간 더 이상 현실 세계에 발을 붙이고 있지 않은 기호만 가지고도 세상을 읽어낼 수 있게 됩니다.
그것을 우리는 다른 이름으로 뭐라고 그러냐면 과학이라고 불러요.
대표적으로 여러분들 화학 같은 거 아시죠? 예를 들면 a라는 용액과 b라는 용액이 섞으면 무슨 일이 벌어질까? 옛날 분들은 이거 직접 섞어 보셔야 될 거예요.
기계적으로, 물리적으로.
그러나 지금은 우리가 화학 분야에서 만들어놓은 고도화된 연산 체계를 이용해서 책상에서 저렇게 두 개의 물질을 합쳐보면 어떤 물질이 나오겠구나 예상할 수가 있습니다.
이게 우리가 해놓은 거예요.
좀 과장을 섞어보면 우리의 과학 문명 지금 과학문명이죠.
과학문명의 궤는 인공적으로 만든 심볼 시스템에 무게 중심을 많이 두고 있다.
이렇게 이해하셔도 괜찮습니다.
결국은 요약하자면 우리가 해온 일은 이 세상에 있는 모든 사물들을 개념들을 어떻게든 뜯어내서 우리가 다룰 수 있는 형태대로 정보화해왔어요.
그 정보의 도구는 바로 여러분들도 잘 아시는 기호가 되죠.
언어가 되는 겁니다.
그런데 이 시스템들이 깨져나가고 있다라는 게 표현의 패러다임이 바뀌고 있다는 얘기입니다.
제가 퀴즈 하나 드려볼게요.
여러분들 이거 뭡니까? 사다리입니다.
역시 훌륭하십니다.
여러분들 이거 보자마자 사다리가 사다리인지 바로 알 수 있죠.
나중에 조카나 자제분들 중에 말 못하는 친구들이 있으면 집에 가서 해보십시오.
이거 딱 던져주고 “이거 뭐야?” 그러면은 사다리란 말을 모르더라도 비슷한 사다리 몇 장 던져주고, 다른 사다리 던져주잖아요? 사다리라고 알 수 있어요.
자, 도대체 우리 인간은 어떻게 이렇게 가능할까요? 이거 어떻게 이렇게 잘할 수 있을까요? 이 질문이 저처럼 인공 지능 연구했던 사람들의 오래된 질문이었어요.
애초에 얘가 사다리인 거를 기계가 알아먹어야 사다리에 올라가든지 옮기든지 할 거 아닙니까? 그러니까 이거를 세상에 있는 사물을 어떻게든 기계한테 알게끔 하겠다.
이거가 굉장히 중요한 주제거든요.
그러면 우리가 늘 해왔던 것처럼, 다른 모든 분야가 그랬던 것처럼 이렇게 세상을 읽어주는 방법을 기호화로 접근하는 게 우리가 당연히 했던 일입니다.
그래서 이걸 어떻게 접근했냐면 일단은 예전에 규칙 기반, 논리 기반으로 접근하는 거예요.
예를 들면 사다리는 2개의 세로축이 존재하고 2개의 세로축 사이에 사람이 오르거나 내릴 수 있는 간격으로 가로의 구조물이 있는 것.
이런 식으로 대강 정의를 하는 거예요.
그런데 그런 사다리는 먹힐 수 있는 사다리가 있고 안 먹히는 사다리가 있습니다.
예를 들면, 여러분들.
삼각사다리 아시죠? 그럼 그 방금 했던 정의에는 이건 안 맞아떨어지는 거예요.
그렇게 내가 연구실 안에서 만들었던 기호체계 안에서의 어떤 사물들은 실험실 밖을 나가면 다 깨져나가는 겁니다.
적용이 안 되는 거예요.
그러니까, 흔히 말하는 인공 지능의 겨울.
“어, 나 잘 만들었어.
” 해 가지고 바꿔놨더니 성능이 안 나오고.
이게 반복되는 거죠.
그러던 것들을 최근에, 2010년도부터 어느 정도 이거를 풀어내 가는 실마리를 저희가 찾은 것 같아요.
어떻게 풀었느냐? 자, 구멍을 뚫었습니다.
여러분들은 이 구멍 다 메꾸실 수가 있어요.
그렇죠? 여러분들은 어떻게 이 구멍을 메꾸실 수가 있죠? 여러분은 그냥 알기 때문에 메꾸는 거예요, 그렇죠? 사다리를 사다리로 규정하는 뭔가를 여러분들은 본능적으로 알고 있는 거예요.
그렇기 때문에, 어 저기 비었네.
딱 메꿀 수 있습니다.
자, 그럼 제가 지금부터 하나의 스토리를 말씀드릴 텐데, 이게 말이 되는지 한번 보세요.
어느 순간 제가 하나의 컴퓨터를 갖다 놓습니다.
여기다가.
이 컴퓨터한테 제가 1억 장의 사다리를 던져줘요.
그리고 1억 장의 사다리한테 매번 저렇게 랜덤하게 프로그램을 통해서 구멍을 뚫은 다음에 “야, 너 딴짓 아무것도 하지 말고 저 구멍을 메꾸는 짓만 해봐.
” 1억 장의 사다리를 반년이 됐든 1년이 됐든 주구장창 구멍 뚫린 걸 메꾸는 거예요.
어느 순간 이 기계가 자기한테 부여된 1억 장의 사다리에 어느 부분이 구멍이 뚫리더라도 다 메꿀 수 있는 기계가 만들어졌습니다.
자, 그러면 그 기계는 사다리를 사다리라고 알고 있는 기계일까요? 아까 전에 메꿀 수 있으면, 안다면서요.
어색하죠.
자, 그러니까 내가 알고 있다면 메꿀 수 있는 건 맞아요.
근데 메꿀 수 있다면 알고 있는 건가? 이 역은 살짝 어색하죠.
이건 아직도 풀리지 않았어요.
그런데 일단 그 역은 생각하지 말고 메꿀 수 있는 파워가 있다면, 거기서부터 AI를 올려 태우자 라는 거예요.
지금 모든 AI가 깔고 있는 기본 전제는 내가 어떤 데이터를 던져주든 그 데이터를 얘가 어느 정도 복원할 수 있거나 구멍 뚫는 것을 복구할 수 있다면 그거는 그 데이터를 어느 정도 알고 있겠지 라는 믿음을 갖고 그 위에다가 고도의 기술을 쌓아 올리는 방식이라고 볼 수 있습니다.
그 방식이고요.
그러니까 그 중간에 복원한다, 생성한다라는 테스크를 집어넣어서 사다리를 구성하는 핵심 정보를 기계가 알게끔 하겠다라는 거죠.
여기 보시면 여기 그림에 중간에 가운데 거 있죠.
이 가운데 부분.
가운데 부분이 기계가 알고 있어야 그 이후 걸 복원할 수 있겠죠.
그렇기 때문에 중간에 있는 부분을 우리는 보통 말하는 표현이라고 그럽니다.
기계가 스스로 사물로부터 특징을 뽑아내서 기계가 이해할 수 있는 포맷으로 만들어 놓은 것 그것을 Representation.
과거의 우리 Representation이 기호였다면 기계는 Representation이 숫자가 되게 되는 겁니다.
그래서 간단히 좀 비교를 드리자면 사과라고 해볼게요.
우리가 사과를 가지고 서비스를 한다.
그러면 이제 보통 사과 전문가들을 예전에 모셨어요.
원예학 교수님, 박사님들 다 모셔 가지고 우리가 이러이러한 사과와 관련된 사업을 하려고 하는데 사과를 좀 정의해 주십시오.
그럼 이제 사과 전문가들이 달라붙어 갖고 사과란 말이죠 색깔, 당도 이런 식으로 딱 정의한 겁니다.
왼쪽에 있는 이 표가 제가 이걸 보여드릴게요.
여기 있는 형태가 우리가 잘 다룰 수 있는 형태가 되는 겁니다.
여러분들 이런 형태의 데이터 맨날 다루실 거예요.
어디서 많이 다루시죠? 엑셀입니다.
엑셀.
여러분 엑셀을 열어보시면, Column이 Prop, 색깔, 당도 이렇게 쭉 있고 사과 하나마다 행으로 쭉 연결되잖아요.
우리가 그 엑셀이라는 도구가 괜히 편한 게 아니에요.
왼쪽의 방식이 우리가 정말 잘 다루는 데이터 형태이기 때문에 그것을 UI로 만들어 놓은 거 우리가 편하게 느껴지는 겁니다.
그런데 더 이상 이런 식으로 세상을 담아내지 않을 거라는 거예요.
방금 말씀드렸던 것처럼 1억 장의 사다리를 이해하고 있는 기계는 그것을 이렇게 기호로 표현하는 방식이 아니고요.
사과를 읽어들여서 숫자로 만들어내진 저 오른쪽 같은 표현 형태로 만들어낼 것입니다.
이것이 전문 용어로 인코딩이라고 부르기도 하고요.
임베딩이라고 부르기도 합니다.
그래서 어떤 식으로 세상의 사물을 담 안에서 숫자로 만드는 기술 이것을 우리는 임베딩 기술이라고 불러요.
결국 정리하자면, Representation Learning이라고 하는 건 뭐냐면 어떤 우리가 살고 있는 세상이 있다면 그 세상에 있는 생각이든 사물이든 개념 같은 것들을 뜯어내서 숫자로 만들어낼 수 있는 모든 기술들은 다 Representation Learning이라고 볼 수 있는데 거기에서 하나의 가정은 내가 거기에 사람이 많이 관여하지 않을 거다.
나는 데이터나 테스크만 던져주고 기계가 스스로 그 표현 방법을 배우도록 하겠다.
즉, 표현을 학습하는 거죠.
Representation을 Learning하는 것.
그것이 우리가 지금 쓰고 있는 모든 Chat GPT를 둘러싼 다양한 AI 기술들의 가장 밑에 깔려 있는 기술이라고 보시면 되겠습니다.
자, 이제 두 번째 이야기를 좀 할게요.
두 번째 이야기는 반교사, Self-supervised Learning이라고 하는 컨셉입니다.
아까 전에 표현 학습에 대한 이야기를 좀 했었는데 표현 학습의 특징은 사물의 특징을 기계가 스스로 파악하는 거거든요.
그럼 도대체 어떻게 그게 가능하게 할 것이냐예요.
그래서 이것을 많은 연구자들이 연구를 했었는데 초창기 버전의 연구는 다음과 같은 방식으로 하는 겁니다.
표현 자체를 배우는 게 목표가 아니고요.
여기 보시는 것처럼 사과를 던져주고 나서 이거는 사과를 사과라고 인식하는 분류기를 만드는 거예요.
예측기를 만드는 거죠.
예를 들면 자동차 주차 시스템이라고 한다면 앞에 주차 번호를 보고 이 주차에 대한 숫자를 맞추는 거잖아요.
그런 식으로 수많은 Labeled Data 그러니까 흔히 말하는 데이터 자원을 부어 넣어서 얘가 이 사다리는 사다리를 인식하고 저 사과는 사과라고 인식하는 테스크를 열심히 하다 보면 여기 보시면 파란색 보이시죠.
이 파란색 안에 사과를 구성하는 정보가 담겨 있어야만 얘를 사과라고 인식할 거잖아요.
이 과정에서 여기 나오는 숫자들 덩어리가 유의미한 숫자들의 형태로 변형이 될 거다.
라는 식으로 발전했던 거예요.
초창기에는 그러면 이게 작동되려면 어떻게 되냐면 수많은 사다리를 사다리라고 누가 라벨링 해줘야 되고요.
사과를 사과로 라벨링 해줘야 되는 그런 Annotation 노력이 필요한 거죠.
그런데 생각해 보세요.
이 Annotation이라고 하는 것 자체가 문제가 좀 있습니다.
왜냐하면 결국 이 Annotation을 해주는 작업 자체가 사람이 하는 거잖아요.
그런데 사람이 라벨링을 해주는 거잖아요.
그러면 결국은 이거 다시 세상의 사물을 기호화해주는 것까지 가는 거예요.
그런데 여기에 좀 괴리가 있습니다.
제가 하나 예를 들어볼게요.
제가 식사하고 나서 너무 많은 퀴즈를 드리나요? 이거를 우리 한국어로 한 번 표현해 보시겠어요? 주먹이죠.
어떤 분들은 막 정지 이러시던데요.
이건 뭘까요, 그러면? 손바닥이죠.
자, 그러면 이것도 아니고 이것도 아니고 이런 거.
이거 한국어에 있습니까? 태국어나 일본에 있을지 모르겠지만 저는 모릅니다.
자, 이거예요.
우리는 기호로 떨구지 않은 것들은 표현할 수가 없어요.
자, 우리가 지금 이 Representation Learning의 핵심은 사물을, 세상을 기계한테 읽히게끔 하려고 하는 거잖아요.
그런데 이거를 사람이 라벨링을 해버리는 순간, 세상의 모든 사물을 기호화하는 체계 자체를 만들어야 되는데 이거는 사실 불가능한 일이라는 거죠.
이렇게 해버린 순간 예전에 했던, AI의 겨울이 또 반복되는 겁니다.
왜냐면 다 깨져나가기 때문에.
자, 그러면 어떻게 풀 거냐에 대한 얘기를 할 겁니다.
여기에 대한 구세주로 나타난 게 Pre-training과 Fine-tuning 그리고 Self-supervised Learning이라는 컨셉이에요.
어떻게 했냐면요.
저도 마찬가지지만 제가 학위를 하고 한 2017년도까지의 AI 연구를 보통 어떻게 했냐면 각각의 도메인에 대한 Small Scale의 Annotation 데이터가 있습니다.
예를 들면 법률이라고 할게요.
법률 관련해서 판례와 라벨링 해가지고 굉장히 비싼 데이터를 만들어서 내가 나만의 네트워크를 딱 만들어요.
신경망을 만들어서 문제를 풀어내서 논문을 냅니다.
그래서 지지고 볶고 해서 올릴 수 있는 성능의 끝 정도가 한 이 정도라고 해볼게요.
그러면 그렇게 하지 말고, 일단은 그런 비싼 데이터 말고 인터넷에 널려 있는 Crawling 데이터.
그니까 위키피디아라든지 기사에서라든지 바깥에 있는 어떤 데이터든 가지고 와서 그러니까 Large Scale의 Raw data죠.
Annotation이 없는 겁니다.
그 데이터를 부어서 일단 AI를 훈련시켜 보자.
아까 전 사다리랑 똑같아요.
복원시키는 연습을 시키는 거예요.
그래서 끌어올릴 수 있는 어떤 기계 이해도가 이 정도면 그렇게 만든 신경망을 내가 널 줄게.
공유해 줄 테니까 넌 거기에 올라타서 배워봐 라고 하는 거죠.
그렇게 해서 배워서 내가 다시 Low scale, 그러니까 작은 스케일이지만 Small scale의 데이터인 법률 데이터를 태우면 기존의 성능을 아득하게 넘어설 수 있더라 라는 게 우리가 발견한 거예요.
이걸로 굉장히 유명해진 게 여러분들이 한 번 정도 들어보셨을 BERT입니다.
BERT.
BERT라고 하는 언어 모델이 이거를 NLP 분야에서 증명해 보였어요.
그래서 지금도 여러분들 BERT 같은 경우는 구글이 만들어서 이 프로세스를 통해서 만든 걸 배포한 걸 쓰고 계시는 거죠.
자, 그래서 이걸 하려면 어떻게 해야 될까? 사람들이 많이 연구를 했는데, 하나만 예를 들어 볼게요.
여기 보시면 돼지가 있습니다.
이 돼지 이미지는 여러분들 공짜로 얻을 수 있죠.
인터넷에 구글링을 하든 뭘 하든 공짜로 얻을 수 있습니다.
그러면 이 하나만 가지고도 과거에는 돼지 누가 라벨을 달아줬어야 돼요.
그런데 그렇지 않더라도 학습시킬 수 있는 방법을 저희가 고안을 할 수 있습니다.
어떻게 하면 되냐면 이렇게 랜덤하게 하나의 이미지, 셀프 이미지를 두 개로 쪼개요.
그러면 X란 이미지와 Y란 이미지의 관계성이 만들어집니다.
왜냐하면 이 돼지의 오른쪽 눈 부분과 아래쪽 다리 부분은 항상 이 관계에 있어야 되겠죠.
이게 어긋나면 돼지가 아니잖아요? 그런 식으로 모델링 해볼 수 있는 겁니다.
조금 더 구체적으로 고양이라고 한다면 고양이 하나의 이미지를 고양이 가운데 얼굴 떼고 왼쪽에 귀를 떼게 되면 기계한테 물어보는 거죠.
두 장의 이미지를 던져주면서.
야 이거 귀가 너 얼굴에서 어디쯤에 있어야 돼 물어보면 하나 둘 셋 넷 다섯 여섯 일곱 여덟 개.
여덟 개의 가지 중에 하나를 맞추는 문제로 바뀌게 돼요.
그러니까 팔지선다 문제인 거죠.
그러면 모든 고양이에 대해서 저걸 맞출 수 있다는 거는 이 기계가 고양이의 어떤 구조를 알아야만 맞출 수 있잖아요.
그렇게 출발하자는 겁니다.
우리가 하나하나 세밀한 걸 가르쳐 줄 수는 없지만 그 데이터 자체 그러니까 셀프 데이터 자체만 가지고도 뭔가를 학습시킬 수 있을 거다.
예를 들어서 상상을 통해서 이런 고양이뿐만 아니고 사다리, 자동차, 자연, 사람 얼굴 다 이런 식으로 노출시켜보면 세상을 어느 정도 이해하게 될 거라는 거죠.
이게 바로 Self-Supervised Learning입니다.
비슷하게 굉장히 많은 태스크를 만들 수 있을 거예요.
여러분들이 강제로 앞과 뒤를 바꾼다든지 회전시켜 놓는다든지 직소 퍼즐처럼 엉클어 놓고 나서 다시 복원시키려고 한다든지 이런 걸 다 풀 수 있다면 코끼리를 이해할 수 있을 거라는 거죠.
자연어 처리도 마찬가지예요.
여기 보시면 BERT가 이렇게 훈련된 건데 BERT 같은 경우에는 I am going outside라는 문장과 I will be back after 6라는 문장이 두 개의 문장이 연속된 문장인지 연속되지 않은 문장인지를 물어봐요.
이 연속된 문장을 갖고 오는 건 간단하죠.
위키피디아에서 연속된 문장을 두 개 뜯어오면 되잖아요.
그리고 랜덤하게 아무런 상관도 없는 페이지에서 다른 문장을 갖고 와서 섞어 놓는 거죠.
그러면 기계가 이 두 개의 문장을 줬을 때 이거는 이 말과 다음 말에 연속되는군요를 이해하려면 맥락을 파악하지 못하면 안 될 거예요.
자동으로 맥락을 배우게끔 해주는 거죠.
이런 식의 약간은 똑똑한 아이디어들이 엄청나게 나와 있습니다.
그래서 지금의 모든 AI 밑에는 이런 식으로 공짜 데이터, 인터넷에 있는 데이터를 활용해서 세상을 배우게끔 하는 것이 기반으로 깔려있다.
이렇게 이해하시면 돼요.
자 정리하자면 Self-Supervised Learning이라는 것은 결국엔 세상을 별도의 태깅 비용 없이 담아낼 수 있는 강력한 도구다.
이렇게 이해해 볼 수가 있는 거죠.
자 그러면 세 번째 이야기를 시작해 볼 겁니다.
아까 우리가 어디까지 얘기했냐면 세상을 담아내겠다.
표현학습.
세상을 담아내려면 비용이 드네? 비용을 어떻게 줄일 수 있지? Self-Supervised Learning을 쓰면 되겠다.
그러면 이 두 가지를 딱 조합했을 때 우리가 어디까지 갈 수 있지? 세상을 얼마나 잘 이해할 수 있지? 그 질문이 남은 거죠.
그 질문에 대해서 몇 가지 재미있는 연구가 있습니다.
이게 2017년도입니다.
2017년도는 지금 여러분 한 번 정도 들어보셨을 아마 첫 번째 시간에도 나왔을 트랜스포머.
트랜스포머가 발표된 해예요.
트랜스포머가 발표된 그 해에 나온 논문인데 바이두에서 나온 논문이거든요.
바이두에서는 어떤 실험을 한 거냐면 여기에 잘 안 보이시겠습니다만 파란색 선이 흔히 말하는 파라미터.
그러니까 비유하자면 뇌의 크기가 작은 거고요.
이 친구가 뇌의 크기가 큰 겁니다.
딱 두 배를 키워놓은 거예요.
그랬더니 여기 보시면 이게 낮으면 낮을수록 좋은 겁니다.
보시면 아무리 많은 데이터를 붓더라도 작은 뇌를 가진 친구는 큰 뇌를 가진 친구보다 학습률이 떨어진다라는 걸 발견한 거고요.
첫 번째.
그리고 동시에 뭘 발견한 거냐면 이 사람들이 그런데 그 학습률이라는 것도 결국에 로그 스케일에서 딱 그려보면 선형 관계가 만들어지더라라는 거예요.
선형이라는 건 어려운 게 아니고 Y=aX+B 같은 거예요.
하나의 직선 안에서 딱 만들어진다는 거죠.
그러면 이게 어떤 걸 말하는 거냐면 내가 지금 70점을 맞는 친구를 100점을 맞게 하려면 얼마큼 데이터를 부어야 되지? 그러니까 예측 가능하다는 게 이 논문이 주장하는 거예요.
Predictable하다는 거죠.
여기까지 나오고 나서 비슷한 연구를 여기저기서 해본 겁니다.
특히나 여러분들이 잘 아시고 쓰고 계시는 Chat GPT를 만든 Open AI라는 회사가 GPT-2를 만들고 GPT-3를 만드는 그 사이에 어떤 걸 발표하냐면 이 논문을 발표합니다.
여기 보시면 아까랑 맥락은 비슷합니다.
보시면 여기 Test Loss가 작으면 조금 좋은 거예요.
이거는 얼마나 계산을 많이 했느냐.
이 친구는 얼마나 데이터가 큰 걸 부었느냐.
얼마나 뇌가 크느냐.
이겁니다.
결국은 조금 비유를 설명드리자면 얼마나 에너지를 많이 쏟았느냐로 이 세 가지를 퉁쳐서 설명드릴 수 있을 것 같아요.
그러면 얼마나 에너지를 많이 쏟았느냐에 따라서 무조건 똑똑해지더라라는 걸 발견한 거예요.
동시에 여기서 보시면 여기 있는 노란색 선이 뇌가 굉장히 큰 친구고요.
여기 있는 보라색 선이 뇌가 작은 친구입니다.
그러면 처음에는 똑같이 출발하더라도 데이터를 많이 부으면 부을수록 이 까만색 선은 가다가 덜 배우죠.
못 배우는 거예요.
그런데 얘는 계속 밑에까지 배울 수 있다라는 걸 발견한 겁니다.
이게 언제냐면 2020년이에요.
2020년이니까 GPT-3, 지금 Chat GPT가 나오기 2년 전에 이걸 이 사람들은 발견한 거예요.
그러면 여러분들이 Open AI 회사 사장이라고 보겠습니다.
사장 입장에서 우리 회사가 AI로 승부를 보려는 회사인데 어떻게 우리 회사가 인공지능에서 탑을 찍을 수 있지? 간단한 거예요.
이걸 보시면.
누군가 똑똑한 사람을 고용해야 되나요? 그것도 필요하겠죠.
하지만 가장 핵심인 것은 데이터와 기계를 늘리면 되겠구나.
이런 깨달음을 얻은 거죠.
그래서 흔히 말하는 GPU 레이스가 벌어지게 됩니다.
여기 보시면 여기는 BERT, GPT-1 이게 2018년도 얘기고요.
GPT-2가 2020년도에 나오고 있습니다.
그렇던 차트가 2020년도에 GPT-3에서 이렇게 올라가요.
exponential하게 올라가죠.
지금의 GPT-4가 이거보다 한 100배가 더 크다고 해요.
대략 퉁쳐가지고.
그러니까 얼마나 모델이 커진, 뇌를 얼마나 크게 하고 있는지의 경쟁이 벌어지고 있다 보시면 되죠.
아까 전에 잠깐 나왔습니다만 뇌가 커지면 무조건 똑똑해진다는 게 이 당시의 믿음이었고 그게 서서히 꺾어지고 있다 정도가 최근의 분위기 정도.
이렇게 이해하시면 될 것 같아요.
여러분 이 차트 보시면 뭐가 떠오르시나요? 저는 이 차트를 볼 때마다 NVIDIA의 주가가 떠오릅니다.
저는 알고 있었어요.
저 당시에 SK텔레콤에 다녔기 때문에.
그런데 그 당시에 우리 AI 이렇게 잘하려면 회사에서 GPU 좀 사주십시오.
이렇게 하고만 다녔어요.
그 노력의 100분의 1만 제가 저를 위해 썼더라도.
그러면 이렇게 모델이 커지게 되면 도대체 무슨 일이 벌어지냐는 거죠.
어떤 일이 벌어진지를 GPT-3에서의 논문을 보여드리겠습니다.
GPT-3가 어떤 메시지를 던져주냐면요.
보시면 이렇게 SKICTS equal 여기까지가 기계한테 넣어준 거예요.
그러면 기계가 딱 보자마자 이거 좀 잘못된 철자인데요? STICKS라는 걸로 바꿔줍니다.
이게 아무런 예제도 주지 않고 물어봤기 때문에 Zero-shot learning이라고 불러요.
그리고 두 번째는 CHIAR이라고 넣어주고 이렇게 CHIAR로 바꿔주는 모범 예제를 넣어주고 이걸 넣어주면 하나의 모범 예제를 넣어준 거니까 One-shot learning이 되는 거죠.
그래서 이런 식으로 여러 개의 흔히 말하는 모범 답안을 던져주고 물어보는 거예요.
이렇게 이렇게 내가 문제를 풀었거든.
너는 어떻게 생각해? 딱 물어보면.
답을 할 수 있는 것을 뭐라고 부르냐면 Few-shot learning이라고 부릅니다.
이 용어 자체를 Open AI에서 만든 거예요.
이 사람들이 발견한 거죠.
이거 발견해서 어떤 걸 해놨느냐.
보시면 여기 녹색부터 파란색으로 올라가는 게 뇌의 크기입니다.
녹색인 친구들은 10의 0승이니까 1개인 거예요.
그러니까 모범 답안을 1개 던져주나 10개를 던져주나 똑같이 못하더라.
그런데 딱 10배를 키웠어요.
1.
3Billion짜리를 13Billion으로 키웠더니 못하던 친구가 좀 잘하게 되던데 example을 좀 많이 넣어줬더니 그리고 나서 175빌리언이 GPT-3 사이즈입니다.
지금 GPT-4는 훨씬 더 크죠.
GPT-3 사이즈를 갔더니 나는 한 번도 알려주지 않았지만 내가 10개 정도의 과거의 사례를 던져주고 물어보면 한 60에서 70점까지를 맞출 수 있다라는 걸 발견한 거예요.
누가? Open AI라는 회사가.
이 회사가 그걸 발견하고 나서 이걸 가지고 딱 묶어서 내놓은 게 바로 지금의 Chat GPT입니다.
과거의 머신러닝은 내가 부어준 데이터만 가지고 문제를 풀었던 거예요.
그러니까 데이터를 키웠어야 되는 거죠.
그런데 지금 어떻게 했냐면 내가 알려주지 않은 것도 모델이 커지니까 내부에서 추론 가능해지더라 라는 걸 이제 발견하게 된 겁니다.
그게 바로 지금의 거대 언어모델이 탄생하게 된 배경이죠.
그래서 보통 얘기하기를 70Billion 조금 요즘 좀 낮아졌습니다.
30Billion 이쪽 저쪽이면 추론 능력이 생긴다.
이렇게 보통들 많이 얘기를 하십니다.
GPT-4가.
이렇게 컸다는 얘기고요.
그래서 세 가지 스토리에 대해서 정리를 해드렸습니다.
표현을 배워야 되겠다.
어떻게 배운다? Self-Supervised Learning을 배운다.
그랬더니 어느 정도 배워야 된다? 굉장히 큰 사이즈를 배운다.
과거 10년을 요약하면 결국 스케일이거든요.
스케일을 키웠더니 좋은 것도 다 배우게 되더라 라는 거죠.
그러면 이거가 어떻게 세상을 바꿀 거 있을 것인가 어떻게 문제를 풀어내는 것인가 좀 정리해드리겠습니다.
지금 보시면 이 세 가지 스토리가 잘 엮어서 만들어진 것이 바로 Language Model인데 거대 언어 모델이죠.
근데 저는 이 거대 언어 모델의 말 자체를 별로 좋아하지는 않아요.
왜냐하면 언어란 말이 우리의 상상력을 제한해 버리거든요.
근데 사실은 얘를 구현해 놓은 구현체는 굳이 언어에 국한될 필요가 없습니다.
일단 하고 있는 스토리를 좀 정리해 드리자면 우리가 현실 세계에 있는 커다란 것들을 다 기록화해 놓은 좋은 책이 있습니다.
우리가 갖고 있는 책.
그 책을 우리는 인터넷이라고 부를 거예요.
인터넷에 있는 모든 것들을 기계한테 다 넣어가면서 표현 학습을 시켜 놓은 그 결과물은 우리가 언어 모델이라고 부르지 말고 World Model이라고 부르는 게 맞다는 거죠.
왜냐하면 우리가 역사시대 이래로 남아 놓은 모든 정보는 다 인터넷에 있으니까 역사를 배운 거가 맞거든요.
조금 더 상상력을 자극해 드리려고 저는 가끔씩 언어 모델이라고 표현하지 않고 어떻게 표현하냐면 문명 모델이라고 부르는 게 더 낫다라고 생각합니다.
그러니까 이 세상에서 있을 법한 일들은 다 인터넷에 있겠죠.
그러면 인터넷에 있을 내용들을 그대로 말할 수 있다면 우리 문명을 그대로 시뮬레이션 할 수 있는 게 아닌가 라는 생각까지 해 볼 수 있는 거죠.
실제로 이건 제 말이 아니고 Open AI에서 발표한 소라라고 하는 vision generation video generation 툴이 있는데요.
이 툴을 자기들이 블로그에 올릴 때 이렇게 표현해 놓고 있습니다.
자기들은 video generation을 기술적으로 바라보지 않고 world simulator라고 부르겠다 라고 아예 자기들이 선언해 놨어요.
지금 보시면 왼쪽부터 제가 다시 귀여운 개를 다시 보여드리겠습니다.
왼쪽의 거가 데이터와 연산량을 베이스만 쓴 거고요.
이거는 4배 쓴 거고요.
오른쪽 거가 32배 쓴 겁니다.
기술이 완벽히 똑같아요.
전혀 다른 거 없고요.
똑같은 트랜스포머 기반인데 연산량 아까 전에 설명드렸던 비유드렸던 에너지를 32배 더 쓰게 되면 저렇게 자연스러운 게 시뮬레이션 된다는 거죠.
이 상상력을 가지시고 3년 후 4년 후 5년 후에 언어 뭐 금융, 과학 모든 분야에 적용해 보시면 조금 더 쉽게 이해가 되실 거라고 생각이 됩니다.
그러면 마지막 얘기로 조금 더 기술적인 얘기를 좀 드려 볼게요.
도대체 어떻게 그게 가능하게 하는 겁니까? 실제로 지금 가장 끝에 올라와 있는 기술은 Chat GPT 같은 기술하고 LLAMA 같은 기술들인데 이 친구들은 딱 까놓고 보면 딱 이거밖에 없어요.
Auto Regressive Language Model이라는 컨셉하고 Transformer Decoder 두 개밖에 없습니다.
Auto Regressive Language Model이라는 건 다른 게 아니고요.
내가 지금 How를 던져주면 are을 생성하는 거죠.
Likelihood가 높게끔 가장 그럴듯하게 나오는 게 are니까 are을 생성하고 나서 How are을 던져주면 you를 생성하고요.
How are you를 생성하고 이걸 던져주면 Doing이 나오게끔 하는 확률을 배워내는 거예요.
그럼 확률 모델을 만들어내는 테크닉이고요.
그걸 가능하게 하는 구조는 Transformer Decoder라는 구조로 지금 거의 정리가 됐습니다.
그래서 Start Symbol을 넣어주면 How가 나오고요.
그 How를 집어넣어서 are을 만들고 이런 식으로 왔다 갔다 하는 거죠.
그래서 이거는 결국은 학술적으로 보게 되면 딱 이 수식 하나입니다.
어떤 게 Query를 던져주면 그 Query에 맞는 가장 그럴듯한 다음번의 토큰, 다음번의 단어를 찍어내는 거예요.
이게 우리가 쓰고 있는 기술입니다.
그런데 이걸 조금 더 포장해서 설명드리자면 단순히 내가 질문만 던져야 되니까 프롬프트를 던지는 게 아니고 이 프롬프트 앞쪽에다가 도움이 되는 걸 던져주면 더 생성을 잘하겠죠.
왜냐하면 우리가 조건부 확률이라는 걸 하는 것은 앞뒤로 뭔가 많이 붙여줬을수록 곱하기로 연결되기 때문에 확률이 작아지잖아요.
그래서 우리가 원하는 방향으로 유도할 수 있습니다.
그래서 이렇게 사람이 유도하는 텍스트나 정보 블록을 넣어주는 테크닉을 우리는 Prompt Engineering이라고 불러요.
우아하게 표현할 것도 없이 수학으로는 이게 답니다.
또 하나는 이렇게 그럼 앞뒤로 달라붙어 있는 블록들을 꼭 사람이 디자인해야 되나요? 아니죠.
기계가 넣을 수도 있습니다.
기계한테 검색을 시키든 기계가 디자인을 하든 기계가 제너레이션 시키든 이렇게 갖다 붙이는 걸 테크닉을 우리는 요즘 최근에 뭐라고 부르냐면 Retrieval Augmented Generation이라고 불러요.
RAG라고 부르죠.
결국은 이 하나의 수식으로 다 되고 있다는 겁니다.
조금 더 상상력을 제가 드릴게요.
지금 우리가 말하고 있는 것들은 어떻게 해야 세상의 사물들을 자동 완성할 거냐 이런 얘기를 하고 있는데요.
이게 지금 제가 마지막에 있던 회사 SK텔레콤에서 썼던 T맵 서비스에 있는 로그입니다.
여기서 보시면 삼성동에서 스타벅스 한번 보여줘라고 하는 이런 문장을 실제 사용자들이 말을 했겠죠.
이런 로그가 우리가 엄청나게 많을 겁니다.
1억 개든 2억 개든 있겠죠.
그거를 다음과 같이 모델링 해볼게요.
X와 Y로.
그리고 나서 우리가 어떻게 이걸 찢냐면 X를 넣어줬을 때 Y가 생성되도록 학습시켜 볼 수 있는 거예요.
그러면 삼성동에서 스타까지만 얘기하면 벅스 한번 보여줘가 생성이 되겠죠.
우리는 그렇게 생성한 모델을 만들 수가 있습니다.
Transformer Decoder로.
이걸 조금 더 정리해 보면 이런 식으로 왼쪽의 문장을 던져주면 왼쪽의 문장에 어울리는 가장 그럴듯한 문장을 완성해주는 기술이 지금의 Transformer Decoder가 하고 있는 거예요.
지금의 Chat GPT가 하고 있는 기술인 겁니다.
자, 이 사고를 많이 많이 키워볼게요.
사고를 많이 확장해 보시면 이제 문장이 아니고 문서까지도 가볼 수 있습니다.
우리 이게 인터넷에 있는 거 모두 문서 베이스일 거잖아요.
HTML이니까.
그 문서들을 죄다 학습시키는 겁니다.
그래서 야, 내가 볼 때, 문서 앞쪽에 이만큼 찢어주고 너 이거 찢어진 걸 바탕으로 뒤에 파트 완성해봐 라고 시키는 거죠.
이거를 수십억 장에 대해 시키게 됩니다.
그럼 어느 순간 내가 앞장에 찢어진 문서만 던져주면 뒷장에 찢어진 걸 완성할 수 있겠죠.
이게 지금의 LLM이 세상의 문제를 풀어내는 방식입니다.
음악 전체의 앞에 두 토막만 들려주면 나머지 토막을 완성하는 생성형 AI가 나오는 거예요.
동영상의 앞에 1분만 보여주면 뒤에 거를 예측해 주는 거예요.
그거가 생성형 AI가 세상을 풀어내는 방법이라는 거죠.
자, 그러면 이런 AI가 어떤 식으로 과거의 AI와 생성형 AI가 다르냐 좀 설명을 드려 보자면 과거의 AI는 간단히 설명드리자면 개발자나 머신러닝 전문가들이 세상을 읽어내는 방법을 제안한 다음, 뜯어낸 다음에 그거를 AI한테 넣어주는 방식입니다.
그래서 AI가 의사결정을 해서 우리가 해석하는 방식이죠.
근데 지금의 LLM 기반의, 흔히 말하는 Foundation Model 기반의 AI는 어떻게 된 거냐면 자동 완성이에요.
다른 거 하나도 없습니다.
그냥 앞쪽에 이만큼의 정보량을 넣어주면 이 정보량에 가장 어울릴만한 뒤에 부분을 완성해 주는 겁니다.
여러분이 궁금한 게 있잖아요.
질문하시면 답이 나오는 게 자연스러운 거예요.
어떤 상황에 어울리는 소설을 쓰고 싶어요.
상황을 넣어주면 상황에 맞는 소설이 나오는 게 자연스럽기 때문에 생성해 주는 겁니다.
사실 내부적으로 보면 그 딱 하나밖에 없어요.
데이터와 스케일 가지고 이걸 하는 겁니다.
그래서 지금은 언어 모델이라고 표현하고 있지만 조금 더 나아가 보자면 얘는 Foundation Model이란 말을 이제 조금 학술 쪽에서 많이 쓰고 있죠.
모든 것의 근간 모델이다라고 설명을 하고요.
이 근간 모델이 있으면 다양한 어플리케이션들이 이거에 바탕으로 나오게 된다는 거죠.
intel inside 아시나요? 이거 아시는 분 제 또래입니다.
우리 어릴 때 보시면 486 586 컴퓨터 나올 때 마지막 TV 광고에 딱 이거 하나 1초 동안 나오고 사라져요.
이게 있으면 왠지 믿음직한 컴퓨터 같고 빠를 것 같다는 느낌이 있잖아요.
이제 이게 머지않아 나올 겁니다.
우리의 인공지능이 이 정도 수준이야.
나는 대학교 4학년이야.
박사 수준이야.
인증을 받아야 되는 시대가 올 거예요.
그 인증된 걸 가지고 우리가 갖다 쓰는 시대가 오게 되겠죠.
그래서 간단히 요약하자면 앞으로의 미래는 굉장히 바뀔 거다.
왼쪽에 보시는 게 흔히 말하는 소프트웨어 기반 Software Stack이라고 한다면.
이제 이 오프라인 시스템과 하드웨어 부분은 다 바뀔 겁니다.
이제는 Foundation Model로 밑에 깔리게 될 것이고요.
그 위의 것들은 다 그 Foundation Model을 기반해서 작동되는 구조로 가게 될 겁니다.
이제 마지막 메시지를 좀 드리고 싶은데요.
우리가 얼마 전에 수능을 치렀죠.
여지껏 제가 공부할 때도 마찬가지지만 지금도 우리나라의 인재들을 뽑는 기준은 누가 문제를 잘 푸냐예요.
그런데 문제를 잘 풀어내는 거는 앞으로 5년 안에 사람이 내는 모든 문제는 기계가 다 풀어낼 겁니다.
잰슨 황이 그렇게 이야기했죠.
저도 그렇게 동의합니다.
그렇게 됐을 때 우리한테 필요한 경쟁력은 뭐냐.
저는 결국에는 문제를 정의하는 능력이라고 생각합니다.
요즘 말로 하면 어떤 프롬프트를 던질 수 있느냐.
어떤 질문을 던지느냐에 따라서 그 사람한테 답해주는 기계의 답은 달라질 거라는 거죠.
그래서 내가 문제를 던지고 거기에 대한 문제 풀이는 기계가 해주고 거기서 나온 결과를 다시 세상에 적용하고 다시 문제를 던지고 이 선순환 사이클을 누가 잘 돌리냐에 따라서 조직이나 개인이나 국가의 경쟁력이 완전히 달라질 거다라는 생각을 하고 있고요.
잠깐 제 얘기를 드리자면 저는 이 관련해서 이런 LLM을 거대 언어 모델 같은 것들을 어떻게 삶에 녹여낼까를 많이 고민하고 있는데요.
첫 번째, 제가 요즘 하고 있는 걸 간단히 소개해드리자면 저는 이제 거대 AI가 들어오게 되면 앞으로 연구 프로세스 다 바뀔 거다라는 겁니다.
보통 리서치 1.
0, 2.
0, 3.
0을 얘기하는데 1.
0은 과거에 우리 뉴튼이나 이런 분들이 했던 시대이고요.
2.
0이 우리가 지금까지 하고 있던 연구 방식인 거고요.
3.
0은 AI와 타이틀이 coupled 돼서 내가 상호 협력해가면서 연구를 하는 그런 걸 가게 될 것 같고 그런 연구를 제가 열심히 하고 있습니다.
그 다음에 또 하나는 제가 손에 만질 수 있는 기술을 좋아하기 때문에 두 개의 회사를 공동 창업한 게 있습니다.
하나는 Drug Discovery라고 해서 자연어 처리의 문제들을 대부분 우리가 기호화할 수 있기 때문에 기호화된 기술들을 그대로 활용하면 신약 개발 같은 데 잘 쓸 수 있고요.
한 발 더 나가보면 아직도 낙후되어 있는 교육 환경 특히나 제가 지금 초등학교 4학년짜리 꼬맹이가 있는데 걔가 했던 학습지 방식의 공부 방법이 제가 했던 거랑 똑같거든요.
이게 몇십 년 지나도 변하지 않더라.
이걸 어떻게 보면 동적이고 창의적으로 교육할 수 있는지에 대한 새로운 형태의 교육에 대해서도 제가 열심히 AI 적용한 것들을 고민하고 있습니다.
이렇게 오늘 거대 언어모델을 둘러싼 궁금한 부분들이 제가 잘 전달하려고 노력했는데요.
잘 이해가 되실지 모르겠습니다.
감사드리고요.
혹시 질문 있으시면 질문 부탁드립니다.

더 보기

작성일

2025-02-05

조회수

378
인공 지능 시대, 지식그래프의 재발견

국립국어원 모두의 말뭉치 국제 학술 대회(2024. 12. 4.(수), 대한상공회의소) 강연 영상입니다.

[기조연설 2: 인공 지능 시대, 지식그래프의 재발견]

안녕하세요.
중앙대학교 김학래입니다.
오늘 저는 인공 지능과 관련한 주제이긴 한데, 사실 크게 관심을 가지고 있지 않다면 약간 잊혀져 갔던 기술 중에 하나거든요.
그 기술에 대해서 경희대 이정희 교수님께서 ‘재발견’이라고 하는 단어를 썼으면 좋겠다고 하셔서 제목이 저는 너무 좋았거든요.
이런 의미로 이제 발표를 할 거고요.
앞에서 필리프 쾬(Philipp Koehn) 교수님은 이론적인 내용들, LLM에 대한 이야기를 구체적으로 했는데 되게 다행이라고 생각하고요.
저는 여러분들이 듣기에는 기술적인 내용을 많이 언급하지는 않을 거고요.
근데 되게 머리는 아픈 그런 내용을 얘기를 할 거고요.
가능하면 제가 연구하고 있고 실제 어떻게 구축했는지 이런 사례 위주로 설명을 드리겠습니다.
네 가지 주제로 말씀을 드릴 거고요.
당연히 이제 지금 인공 지능이나 생성형 인공 지능 이런 이야기에 대해서 어떤지 설명을 드릴 거고 지식그래프하고 제가 연구했던 사례 실제 지식그래프를 어떻게 사용하는지를 보여 드리는 게 좋을 것 같아서 사례를 보여 드리고 마지막에 정리하는 순서대로 할 거고요.
제가 그동안 어디서 발표를 하거나 연구를 하거나 이런 분위기하고 되게 다릅니다.
국립국어원을 알면서도 왜 이렇게 거리가 멀었는지 잘 모르겠는데요.
저는 지금은 이제 잘 쓰지 않는데 Semantic Web(시멘틱 웹)이라고 하는 거에서 쭉 시작해서 지금의 지식그래프라는 단어로 넘어왔는데 제가 2002년에 석사를 시작했는데 석사를 시작할 때 제 기억은 입학하기 전 2월부터 정말 열심히 글을 써서 여기 있는 마이크로소프트웨어의 Semantic Web.
그래서 여기 타이틀이 보면 보이지 않는 곳의 혁명이에요.
웹의 어떤 넥스트를 설명했던 건데 제 기억으로는 우리나라에서 Semantic Web을 최초로 소개했던 글이기도 합니다.
3부로 썼던 글인데 생각해 보니까 이때부터 저는 계속 이 연구를 하고 있더라고요.
어떨 때는 흥했고요.
어떨 때는 그 ‘어떨 때는’이 지금 같아요.
그렇게 흥하진 않은데요.
그래도 계속 이 연구를 하고 있습니다.
중간에 있는 그림은 제가 자랑하려고 가지고 온 거고요.
디펜스 할 때요.
박사 디펜스 할 때 사진인데 저 사진 제 자랑이 아니라요.
저기에 있는 저 세 분이 Semantic Web이나 온톨로지 이런 분야에는 이름만 대면 좀 알만한 그런 분들이에요.
저같지 않지만 제 옆에 앉아있는 분이 Tom Gruber이고요.
낯설 수 있는데요.
온톨로지라는 정의를 찾으면 전 세계에서 가장 많이 인용되는 정의를 한 분입니다.
그거보다는 여러분들한테 조금 더 현실적인 이름은 애플의 시리(Siri)를 만든 사람이에요.
상당히 학자이지만, 상당히 프랙티컬한 어프로치를 한 분이고요.
그리고 중간에 하얀 와이셔츠 입은 분이 Stefan Decker고요.
Semantic Web의 거의 초창기 멤버죠.
그리고 옆에 있는 분이 John Breslin이라고 우리가 초창기에 ‘온톨로지’ 하면 거의 들어봤을 거예요.
커뮤니티 온톨로지의 대표적인 게 S.
I.
O.
C라고 SIOC 온톨로지를 만든 사람입니다.
그런 일을 저는 했었고요.
같이 그런 일을 하다가 국내에 와서는 저는 삼성전자에서 한 7년 정도 있었고요.
생각해 보니까 삼성전자 안에서도 저는 계속 지식그래프만 했더라고요.
결국 이렇게 꽃을 피우진 못했지만 그런 일을 했었고, 학교에 와서는 이렇게 책을 두 편을 쓰고 지금은 커뮤니티 활동을 많이 하고 있는 편입니다.
제가 이렇게 장황하게 제 소개를 드리는 이유는 이 커뮤니티가 워낙 낯설거든요.
그런데 이 구석구석에 당연히 저도 언어학적인 그리고 언어적인 그런 부분에 있어서 많은 것을 저도 차용하고 있고, 도움을 받고 있기 때문에 제 소개를 좀 길게 했습니다.
먼저 본격적으로 발표를 드리기 전에 사과의 말씀을 드리고 싶은 것은 발표 자료가 좀 바뀌어 있거든요.
데모를 좀 많이 넣어서 죄송하다는 말씀드리고요.
또 한 가지 의도는 저를 좀 잘 봐 달라는 의미도 됩니다.
발표 시작하겠습니다.
Chat GPT가 만들어져서 나왔을 때요.
다 비슷할 겁니다.
저도 워낙에 충격을 받았고요.
제 페이스북에 한 20일 정도 제가 써보고 나서 페이스북에 그렇게 써놨어요.
벼락 초딩이 된 것 같다.
특히나 온톨로지 지식그래프 이쪽 연구한 사람들의 충격은 훨씬 컸거든요.
제가 했던 게 전혀 필요가 없을 것 같다.
이런 생각을 할 정도로 큰 충격이었죠.
저만 있는 것 아니고, 여기 잘 보시면 이 그래프에 이게 ‘Stack Overflow’가 우리가 코드를 공유하는 웹사이트잖아요.
저도 요즘은 좀 아닌 것 같습니다.
저도 여기에 해당이 되는 것 같은데요.
저도 개발할 때 Stack Overflow에 들어가서 계속 물어보고, 코드 카피 페이스트하고 이런 거 많이 했거든요.
Chat GPT가 나타난 이후에, 이때 출시가 된 이후에 Stack Overflow는 어마어마하게 트래픽이 확 줄어버립니다.
거의 사이트의 존폐 위기라고 이야기도 하거든요.
이런 영향이 우리한테는 상당히 크게 왔죠.
반면에 ‘Reddit’이라고 우리가 여러 가지 뉴스나 기사를 토론하는 사이트는 큰 영향이 없습니다.
그런데 우리가 여기에 계신 분들 중에 연식이 되신 분은 공유할 수 있을 텐데요.
이 지점에 우리가 공유할 수 있는 사건이 하나가 더 있어요.
잘 보시면 저 마크를요.
만약에 위키피디아 로고를 저기에 딱 뒀다고 한번 생각해 보시면 저쪽으로 쭉 들어가는 것은 아마 백과사전을 만들었던 그 업계는 저 지점으로 거의 똑같은 영향이 있었을 겁니다.
그러니까 결국 뭐냐면 우리는 정말 어마어마하게 변화하는 어떤 키를 이제 보고 있는 거고 그 변화가 상당히 크게 오고 있다.
그리고 이 두 가지 그래프는 일자리가 빨리 변한다는 거예요.
우리는 일자리 소멸을 얘기하지만 사실은 소멸이 된다는 이야기도 있지만 일자리가 더 고급화될 거라는 역해석도 많이 합니다.
즉, 인공 지능이라는 것을 얼마나 내 업무에 잘 사용하느냐에 따라서 그 분야의 전문성이 높아질 수도 있고, 그러지 않을 수도 있다는 거죠.
오른쪽 차트를 보시면, 오른쪽 차트는 이미지 제너레이션 하는 거예요.
가장 충격을 많이 받았던 업종 중에 하나가 우리는 이런 얘기하거든요.
이미지나 혹은 비디오를 생성하는 그 업계가 없어질 거라고 하는 거고요.
아시겠지만 이 위에 제가 예로 든 건 Dropbox에서는 공식적으로 20%인데, 제 지인이 여기 해당은 안 될 거예요.
바로 옆에서 살아남았다고 하는데, 30%가 넘는다고 합니다.
그러니까 조직이 3분의 1을 줄였는데 이유가 “AI 기술로 대체할 수 있다.
” 이런 얘기를 실질적으로 한다는 거죠.
많은 분들이 영향을 받고, 저도 사실은 영향을 받고 있고요.
제 연구실에 있는 연구원들도 매우 큰 영향을 받고 있는데 앞으로는 우리가 문제 정의를 한 다음에, 코드를 개발하고 소프트웨어를 개발하는 전체 프로세스에서 문제를 이해하고 수립하고 코드를 작성하는 이 단계는 대체될 거라고 얘기를 합니다.
그리고 실제 저도 상당히 많은 코드를 Chat GPT나 Claude나 이런 것들을 이용해서 코드를 짜거든요.
단순히 제가 계산할 수는 없으나 제가 머리 쓰고 코드를 개발했던 시간에 비해서는 저는 10분의 1 이상 줄어든 것 같아요.
제 연구원들은 아예 붙어서 그냥 거의 동시에 개발하는 것처럼 아예 그냥 열어놓고 개발하거든요.
그러니까 분명히 바뀔 거라는 겁니다.
그리고 직업적인 부분에서는 우리는 이런 얘기 많이 해요.
그런데 재미있는 건 이건 이제 LG경제연구원에서 내보낸 건데 전문가나 관리자 쪽이 저위험이라고 얘기를 했어요.
처음에는 우리는 의사, 변호사가 많이 바뀔 거라고 했거든요.
대체될 거다.
여기에 해당이 되는지는 모르겠으나, 앞으로 우리가 볼 세상에서는 조금 더 AI라는 것을 툴(tool)로써 쓸 수 있는 사람이 경쟁력이 있을 것 같기는 합니다.
그래서 이런 것들을 우리는 경험하고 있고, 여러분들도 조금 멀리 보면 아직은 나하고 상관이 없는 것 같다고 하지만 실제 많은 걸 많이 저도 경험을 하고 있습니다.
특히 논문 쓸 때 학생들을 제가 지도를 어떻게 할지, 논문을 제가 어떻게 퍼블리쉬(publish)할지 고민되고요.
제가 일화를 하나 알려드릴게요.
얼마 전에 실습 수업을 하는 학생이 저한테 메일을 이렇게 보냈어요.
굉장히 공손한 메일이에요.
이름하고 날씨가 추워집니다.
이거 다 빼고요.
왼쪽에 있는 글을 한 번 읽어보세요.
이걸 읽고 여러분들, 저한테 어떤 요청을 하는지 잘 이해되세요? 제가 이메일을 받고요.
계속 읽어봤거든요.
제가 뭘 해줘야 되는지 이게 제 수업에 대한 대체를 요구했던 건지, 아니었는지, 알바에 대한 뭘 해주는 건지, 그래서 제가 한참을 봤거든요.
그래서 옆에 물어봤습니다.
Chat GPT한테 이게 뭘 어떻게 하라는 거냐 그래서 제가 이렇게 물어보니까 설명을 했다는 거예요.
그런데 사실은 창피하지만 사실 수정된 메일을 이렇게 준 예시를 보면 조금 더 이해하기 쉬웠던 것 같아요.
사실 이제 Chat GPT라는 게 되게 무거운 듯하지만 우리가 사람을 대체할 것이다.
사람보다 더 뛰어난 AI다.
이런 얘기하지만 우리는 직업적인 이런 얘기 말고도요.
우리 생활 안에서 이미 되게 많이 가 있거든요.
그래서 이런 것들을 우리가 어떻게 대응할 거냐 어떻게 수용할 거냐 적응할 거냐 이런 문제가 아주 현실적인 문제라는 거죠.
고마운 건 또 있죠.
이게 이제 Thanksgiving nerd humor인데 아주 정말 기술 기반으로 저 수식을 그런데 그런 거 있잖아요.
여기 이제 외국인들이 계시지만 저도 미드 같은 거 보는데 하나도 안 웃겨요 저는.
뭔지 모르겠는데 막 웃잖아요.
똑같아요.
이게 왜 웃기지? 저게 이렇게 웃잖아요.
그래서 Chat GPT한테 물어보니까 저걸 이렇게 풀었다는 거예요.
저 제곱근에 있는 건 허수고 그 다음에 8은 eight다 읽으면.
그래서 I 8 (eight=ate) 이런 얘기다.
사실 저걸 제가 누구한테 물어보고 이렇게 하면 되게 어려웠겠죠.
하지만 상당히 우리는 유머스럽게 갈 수도 있고요.
정말 진지하게 최근에 생성형 AI를 바라본다라는 겁니다.
근데 이런 걸 바라보면서 제가 발표할 주제로 넘어가 보겠습니다.
그럼 지식그래프가 왜 지금 다시 나오느냐 이 키워드가.
결국은 앞에서 Philipp Koehn(필리프 쾬) 교수님이 얘기한 것처럼 사실 시작점은 환각 현상이라는 것을 줄이고 싶은 거예요.
LLM에서 자꾸 환각 현상이 나타나기 때문에 이걸 줄이기 위한 방법이 지식그래프가 아니냐 이렇게 얘기를 했는데, 여러분들께 결론을 먼저 말씀드리면 사실은 저는 의문이 하나 더 있어요.
하나는 지식그래프라는 게 과연 환각을 확실하게 지울 수 있느냐 그게 첫 번째고요.
두 번째는 과연 LLM으로 쓰는 그 데이터베이스와 지식그래프에서 쓰려고 하는 그 데이터베이스에 우리가 이야기하는 팩트가 있냐는 거예요.
그게 환각을 지울 수도 있고요.
더 생산할 수도 있다는 겁니다.
그러니까 중요한 건 팩트에 대한 사실 우리가 얼마나 갖고 있느냐에 대한 부분이 키 포인트가 될 겁니다.
그래도 긍정적으로 생각을 해보면 사실 저도 그래프와 관련된 전공을 했지만 되게 고마워요.
수학적인 이론에서 만들어진 예가 없어지지 않거든요.
제가 죽을 때까지는 없어지지 않을 것 같아요.
이 구조는.
그리고 사진 보시는 것처럼 처음에는 그래프는 수학적인 모델로 시작을 했지만 트랜스포테이션이나 아니면 인공 지능, IoT, 네트워크 안 쓰는 데가 없죠, 그래프 구조는.
그리고 실제 저의 연구는 약간 맨 마지막 쪽에 가 있습니다.
현실 세계와 그리고 온라인 세상을 연결하려고 하는 그래프적인 시도를 저는 하고 있습니다.
문제는 우리가 생각하고 있는 그래프는요.
제가 여러분께 말씀드리는 “지식그래프는 이런 겁니다.
”라고 얘기할 때의 그 그래프 하고요.
그래프 Neural Net에서 얘기하는 그래프 그런 그래프의 성질은 조금씩은 다릅니다.
다 하나의 그래프로 부르긴 하지만, 조금씩 다르다는 거죠.
오늘 제가 여러분들한테 말씀드린 그래프를 하나로 이렇게 정의해서 말씀드리면 제가 말씀드리는 그래프는 수학적 이론에서는 똑같아요.
노드와 노드가 있고요.
그 노드를 연결을 했을 때 우리는 이걸 그래프라고 합니다.
그래프 구조라고 하고요.
조금 달라지는 거는 여기에 보시는 것처럼 연결을 시켰는데 만약에 제가 화살표를 그었어요.
노드 A에서 노드 B로 하면 이건 방향성이 있다라고 얘기를 합니다.
제가 “김학래는 BTS를 알아요.
”라고 하면 학생들이 되게 화냅니다.
모르면서 왜 안다고 하느냐 근데 제가 얘기한 건 뭐냐면 저는 안다고만 한 거예요.
제가 안다라고 얘기했지 BTS 멤버들이 저를 안다고는 안 한 거예요.
그럼 저는 사실은 팩트인 거죠.
그런 것처럼 방향성이 매우 중요하고요.
그리고 제가 말씀드려야 되는 지식그래프는 방향성이 있는데 그 방향성에 있는 화살표에 레이블이 붙습니다.
얘가 어떤 거다라는 걸 꼭 붙여요.
그래서 지식그래프는 우리가 일반적으로 어떻게 얘기하냐면 Bob은 모나리자에 관심이 있다.
우리가 말을 이렇게 하거든요.
그 표현을 할 때, “관심이 있다.
”라는 거를 이렇게 “is interested in”이라고 해서 설명을 한다는 거죠.
그래서 지식그래프의 가장 핵심은 뭐냐면 그래프 구조로 관계를 표현을 해주는데 관계에 대한 정확한, 사람이 생각하는 의미를 다 기술을 해주려고 하는 거예요.
그런 것들을 우리는 이제 지식그래프라고 얘기하고요.
그림이 잘린 것 같은데요.
우리는 이제 보통 지식이라는 얘기를 할 때는 정확하게 이게 이론은 아니거든요.
DIKW 이런 모델 얘기하는데 이론은 아니지만 그림이 이렇게 있는 걸 보시면 우리가 지식이라고 얘기할 때는 도시는 국가와 관계가 있고, 기상 리포트가 있으면 기상 조건하고 관계가 있다.
이런 거 알아요.
그런데 이런 걸 알기 전에 우리는 어떤 걸 연결하냐면요.
이런 식이에요.
오늘 아침 온도가 마이너스 3도였더라고요.
그럼 3도, 마이너스 3이라고 되어 있는 건 데이터죠.
아무런 의미가 없어요.
그런데 여기에 맥락을 집어넣으면 얘는 비로소 이런 식의 그림이 그려진다는 거죠.
마이너스 3 서울인 거고요.
서울은 지식하고 연결이 되어 있는데 그 지식에 가봤더니 서울은 도시고, 도시는 국가에 포함되고 이런 것들을 우리는 그래프 안에 이렇게 표현을 할 거고 이렇게 되면 “요즘 붕어빵 잘 안 판다고 하는데, 붕어빵 사러 가자.
” 이런 얘기 한다는 거예요.
그랬을 때 우리는 이런 것들을 이건 지식이고 지능이다.
이렇게 얘기를 할 수 있다는 건데 이런 거를 지식그래프로 그동안 한 20년 넘게 이런 작업을 많이 했죠.
지식그래프와 관련해 가지고 사실 가장 많이 쓰이는 이 기술을 어디다 사용했냐 하면 가장 많이 쓴 데는 Data Integration이에요.
서로 다른 데이터베이스 안에 있는 혹은 서로 다른 웹 공간에 있는 데이터를 어떻게 통합할 거냐 이런 분야에 가장 많이 썼고요.
두 번째가 Data Discovery예요.
검색하는 영역이었거든요.
그래서 여러분들이 지금은 좀 잊혀진 듯하지만 지식그래프라는 게 Semantic Web이라는 연구 커뮤니티에 있던 게 비로소 이제 커머셜 영역에 확 뜰 수 있었던 가장 큰 이벤트는 구글이 지식그래프라고 하는 거를 검색 엔진에 바로 연결하는 서비스를 2012년에 보여줬거든요.
그래서 그 내용이 Data Integration하고 Data Discovery라고 하는 거를 지식그래프의 메인 영역으로 삼았었고, 사실은 지금도 이게 포커스라고 저는 생각을 합니다.
다른 영역이 많이 있지만 그리고 이런 것들을 실제 응용한 사례는 많이 있습니다.
구글 같은 경우에는 구글이 만들어놨던 지식그래프에 더 많은 데이터들을 통합하고, Entity를 resolution하는 서비스를 상용으로 제공하고 있거든요.
이 서비스는 구글 클라우드에서 거의 핵심 서비스 중에 하나입니다.
밑에 있는 건 영국에서 제가 오늘 여러분들께 말씀드릴 건데 영국 같은 경우에는 영국에 있는 모든 건물들 건물과 관련된 프로퍼티(property)에 대한 어떤 재산, 세금 이런 것들을 하나의 그래프로 만들어서 서비스를 합니다.
이런 것들도 지식그래프의 한 가지 사례인 거죠.
하지만 우리는 계속 어떤 생각을 했냐면요.
2004년, 2003년에서 2008년, 2009년 이때까지 우리나라도 Semantic Web, 온톨로지 하면 과제가 어마어마하게 많이 있었어요.
컴퓨터공학과 교수님들은 온톨로지 하면 다 과제 받을 정도로 정말 많이 했거든요.
근데 그 시기가 지나면서 계속 우리는 이런 이야기를 했어요.
잘.
.
.
이거는 동작하지 않는다.
그러면서 패러다임을 이제 쫓아가기 시작했죠.
모바일 웹으로도 가보고 지금처럼 LLM이나 혹은 다른 어떤 형태의 기술에 우리는 많이 dedicate되는 모습을 보입니다.
제가 지금 결론은 아니지만, 말씀드리고 싶은 건 우리는 기술이나 어떤 패러다임에 대해서 일종의 회복 탄력성이 좀 있었으면 좋겠어요.
어떤 말씀이냐면 어떤 기술이 나왔을 때 정말 국가적으로 확 달려드는 그 힘이 있거든요.
근데 저처럼 좀 불쌍한 연구원을 좀 보태줘도 돼요.
이런 연구를 하는 사람이 있어야 돼요.
그래야 나중에 같이 할 수 있는 힘이 생기거든요.
그런 회복 탄력성, 기술에 대해서 바라볼 수 있는 그런 부분이 좀 필요하다고 생각을 합니다.
제가 감히 큰 전제를 던질 수는 없지만, 이게 아이러니합니다.
“You are not a parrot.
” 이렇게 얘기하면서 에밀리 벤더가 LLM에 대해서 비판을 했어요.
사실 이 비판하고 나서 어마어마하게 공격을 받은 걸로 알고 있거든요.
패럿이 아니다라고 얘기하면서 정말 많이 비판을 했어요.
그런데 2년 지났잖아요.
2년이 지난 다음에 한 번 다시 생각해 보면 맞는 거 같은데, 그쵸? 왜냐하면 지금 여러분들이 저도 메일을 해석하기 위해서 Chat GPT를 쓰고는 있지만 한편으로 저는 무슨 생각을 하냐면 여전히 얘가 잘못 주는 그런 정보를 준다라고 계속 저도 알고 있거든요.
그럼 이 문제가 잘못된 거냐 이 지적이, 이 지적은 맞죠.
이 지적을 해결하기 위한 방법을 생각해 볼 필요가 있다는 겁니다.
더 우리가 심각하게 생각해야 할 부분은 이런 현상입니다.
OpenAI의 Whisper는 제가 말한 거를 받아 적은 거예요.
필사를 하는 거예요.
그럼 필사를 한다고 할 때, 우리가 중요한 건 뭐냐면 예를 들면 이런 거죠.
제가 지금 이야기를 하고 있는데 만약 속기사분이 있어요.
그럼 그 속기사는 제가 한 말을 적겠죠? 그분이 제가 이렇게 얘기를 했는데 제가 잠깐 쉰다고 다른 말을 막 쓰면 안 돼요.
근데 지금 여기에 나오는 건 뭐냐면요.
나블라라고 의료 앰비언트 AI, 굉장히 정말 좋죠.
어떤 거냐면 환자가 의사한테 얘기하면 그걸 전부 다 속기처럼 필사를 해주는 거예요.
의사들이 진료를 할 때 가장 힘든 거는 진료를 한 다음에 PHR, EHR이라고 하는 헬스 레코드에 입력을 하는 거잖아요.
그거를 지금은 좋아져서 이렇게 컴퓨터를 보면서 이렇게 체크를 하는데 그 시간을 의사들은 정말 상당히 많이 시간을 보낸다는 거예요.
근데 이 나블라라고 하는 데에서는 그런 부분을 LLM을 이용해서 이 Open AI를 이용해서 필사를 했는데, 어떤 문제가 발견이 됐냐면 의사가 뭔가를 얘기를 하거나 환자가 무슨 얘기를 할 때 멈춰요.
잠깐 얘기하다가 “어.
.
.
”하면 적는다는 거예요.
그냥 생성을 한다는 거예요.
생성형 AI는 그냥 생성을 해주는 거예요.
그걸 못 잡는 거예요.
왜냐하면 그게 아주 네이티브한 특징이잖아요.
그러니까 비어있는 그 시간이나 만약 노이즈가 들어오면 그걸 적는다는 거예요.
이건 일반적인 환각하고 다릅니다.
왜냐하면 제가 만약에 심장에 문제가 있다든가 암이라든가 어떤 문제가 있어요.
심각한 문제인데 의사가 진단을 해줬는데 처방을 잘못했어요.
아니면 다른 약물을 투약했어요.
이런 거를 우리는 위험 중에서도 제일 회피해야 할 위험 중에 하나라고 보거든요.
그러면 여기에서 얘기하는 의료 앰비언트 AI에서 하는 부분하고 우리가 일반적으로 Chat GPT에 가서 묻는 거하고 뭐가 다르냐? 같아요.
위험성을 느끼는 거는 인간이 판단할 뿐이라는 겁니다.
그래서 이런 것들을 줄이는 방법에 대해서 끊임없이 고민을 하고 있고요.
사실 이 기술은요.
제가 슬라이드를 좀 바꿨던 이유는 뭐냐면 제가 11월 15일인가 18일날 슬라이드를 드리고 계속 리서치를 하잖아요? 근데 너무 많이 바뀌어요.
정말 너무 많이 바뀌고 제 판단을 바꿀 정도의 새로운 소식들이 정말 많이 업데이트가 됩니다.
그래서 우리가 지금은 많이 공부를 해야 되는 그런 시기라고 보고요.
이런 문제를 계속 얘기하면서 LLM을 연구하는 분들이 가장 지금 적극적으로 접근하고 있는 방법은 많이 아시겠지만 RAG입니다.
여기서 얘기하는 건 Retrieval을 하겠다라는 겁니다.
아시겠지만 하나의 학습 모델을 학습을 하고요.
학습을 하고 나서 시간이 지나는 동안은 다 이제 데이터가 Up-to-date는 아니기 때문에 그 Up-to-date한 거를 지키기 위해서 우리는 검색 기반으로 데이터베이스에 가서 정확한 데이터를 찾아 주겠다라고 하는 게 RAG 방식이거든요.
Langchain이나 Llama Index나 이런 것들이 많죠.
달라진 건 뭐냐면 퀘스천(question)을 던지면 컨텍스트에 맞는 데이터를 찾아가서 정보를 끄집어 오고요.
끄집어온 정보를 다시 이제 LLM을 이용해서 생성한다는 게 다릅니다.
다만 RAG라고 하는 걸 이야기는 하고 있지만 이 RAG가 환각 현상을 완벽하게 지워주지는 않습니다.
그래서 이제 RAG의 우리가 일반적인 한계는 뭐라고 얘기를 하냐면 만약에 RAG로 얘기하는 데이터 소스에 정확한 정보가 있어요.
팩트가 있다면 그 문제는 해결이 되겠죠.
그런데 제가 RAG에 접근을 했을 때, 데이터베이스에 접근했을 때 팩트가 정확하지 않거나 아니면 퀘스천을 제너레이션을 해 가지고 어떤 데이터베이스로 제가 가야 되는지에 대한 판단이 잘못됐다면 뒤에 일어나는 LLM에서 만들어내는 생성된 문장은 여전히 환각이라는 겁니다.
그래서 이런 문제들이 계속 지적이 되고 있었고요.
그러면서 최근에 나온 게 RAG 시리즈 중에 앞에 Graph가 붙습니다.
달라지는 건 뭐냐면 문서 다큐먼트나 데이터베이스에서 갖고 오는 정보가 아니라 여기에 있는 부분이 지식그래프 형태로 바뀐다는 겁니다.
기존에 있었던 PDF나 어떤 문서가 아니라 안쪽에 있는 지식그래프 구조의 데이터를 갖고 와서 LLM에서 발생하는 RAG의 한계를 지워버리겠다.
이런 것들이 Graph RAG의 한 가지 큰 특징인 거죠.
혹시 여러분들이 제가 얘기한 거에 대해서 이렇게 기억을 하고 계시면 모르겠는데 제가 팩트를 체크를 해봐야 되는데요.
이 그림에서 제가 보면서 참 서글프다라고 생각하는 게 있어요.
혹시 감이 오시나요? 못 느끼시는 게 정상이에요.
왜냐하면 이 슬라이드 한번 보세요.
이 사람이 비판한 건 “우리는 앵무새가 아니다.
” 이렇게 얘기하잖아요.
여기 앵무새가 있잖아요.
저 앵무새 로고는 랭체인의 로고거든요.
정말 반어적으로 해석을 하는 거죠.
자기의 로고가 우리가 앵무새가 아니라는 그런 의미의 함축적인 의미이긴 한데 저는 이렇게까지 이렇게 비꼴 수 있을까, 그런 생각을 좀 했었습니다, 저는.
농담이고요.
농담인데 진짜 같아요.
생각해 보시고요.
한 가지 달라지는 거는 Graph RAG에 오면서 여러분들이 주의해야 될 건 Graph RAG라고 할 때, Graph 한 칸 띄고 RAG는 지식그래프를 이용하는 방법이고요.
GraphRAG로 붙은 거는 마이크로소프트에서 개발한 기술이에요.
오픈 소스거든요.
그래서 GraphRAG로 붙어 있는 건 어떤 걸 하냐면 RAG 방식하고 같은데 얘는 우리가 네트워크 분석할 때 커뮤니티 디텍션 이런 거 하거든요.
비슷한 것들을 찾아내는 작업을 먼저 하는데 그 커뮤니티를 찾아 가지고 비슷한 영역을 찾은 다음에 그거를 LLM에 주겠다라는 거예요.
그러니까 조금 정확성이 올라가죠.
그래서 그래프적인 방법을 이용하는 부분에서는 RAG, Graph 한 칸 띄고 RAG, 지금의 Graph RAG 뭐 지금 이제 버전 2.
0도 나왔다라고 해서 이런 식으로 쭉 가고 있어요.
이게 패러다임의 어떤 변경 지점에 있는 거고 두 번째는 이 다음 얘기로 사실은 벌써 넘어가고 있어요.
AI Agents라고 얘기를 해서 이렇게 하나하나씩 RAG들이 있으면 그 RAG들을 다 연결을 해 가지고 내 문제를 한번에 해결하고 싶다.
그래서 최근에는 AI Agents 얘기를 상당히 많이 합니다.
여러분들이 어디까지 기술을 쫓아가실지, 지금 쫓아갈지 나중에 쫓아갈지는 여러분들의 판단의 몫이긴 하지만 기술의 변화가 상당히 빠르다는 것만 일단 체크를 해주셨으면 하는 생각입니다.
제가 이렇게 얘기를 하면 재미가 없을 것 같아 가지고요.
두 가지 데모를 하나 보여 드릴게요.
소위 요즘에 이 정도는 정말 많이 발전했고 Graph RAG나 RAG에 있어서 이런 문제 해결하는구나 사례 첫 번째, Neo4j는 그래프 데이터베이스 회사고요 솔루션 이름도 같습니다.
근데 아마 그래프 데이터베이스 시장에서는 요즘에 가장 핫해요.
여기에서는 LLM을 적극적으로 활용을 해서 지식 베이스를 구축을 하는 사례를 보여 줍니다.
한 번 보시면 얘는 어떤 걸 하냐면요.
유튜브에서 어떤 유튜브에 있는 스크립트를 뽑아내는 작업을 하고요.
이건 알파폴드에 대한 거고요.
두 번째는 위키피디아에 가서 구글 딥마인드라고 하는 위키피디아 콘텐츠를 쭉 가지고 와요.
그러면 이 툴이 제공하는 건 뭐냐면 LLM을 이용해서 지식그래프를 자동으로 생성을 합니다.
지식그래프를 자동으로 생성을 한 다음에, 데이터를 전부 다 연결을 시켜주고요.
그리고 LLM이 하는 것처럼 검색도 자연스럽게 해줍니다.
그래서 이 과정은 아마 여러분도 이게 무료로 하실 수 있을 거예요.
가입하시고 테스트 해보면 두 가지의 멀티모달 형태의 데이터를 가지고 여러분들이 데이터 만들 수 있고요.
이거는 이제 엔티티를 추출한, 자동으로 추출한 걸 보여 주고요.
엔티티를 추출하고 나면 데이터를 이렇게 시각적으로 이렇게 보여 주죠.
다만 여기에서 보여 주는 관계를 보시면 관계의 이름이 딱 하나예요.
한 종류의 관계를 만듭니다.
그게 특징이 있고요.
제가 이거에 대해서는 나중에 설명을 할 거고요.
이렇게 더 많은 그래프를 자동으로 쭉 생성을 한 다음에 우리가 기대한 것처럼 이쪽에 Query Answering을 자동으로 해줍니다.
‘이 기술이 좋다.
’라고 생각할 수 있는 부분은 뭐냐면 프리텍스트예요.
프레임 텍스트나 아니면 비디오나 오디오에 있는 데이터를 자동으로 뽑은 다음에 데이터를 구조화 시키는 거에서는 상당히 큰 장점이 있죠.
여러분들이 한 번 정도 이렇게 작업을 해 보겠다 저는 괜찮은 방법이라고 생각을 합니다.
두 번째 사례는 WhyHow.
AI라고 하는 회사인데요.
최근에 오픈소스로 이 전체를 개방을 했습니다.
제가 확인한 바로는 지금 여러분들이 보시는 이 인터페이스 UI적인 건 아직 열지는 않았는데, 뒤쪽에 있는 프레임웍은 열었어요.
똑같습니다.
Neo4j에서 얘기하는 것처럼 프리텍스트를 자동으로 엔티티를 추출하고 데이터를 여러분들이 탐색할 수 있는 그런 형태로 되어 있고 WhyHow 같은 경우에는 파이썬 SDK도 제공을 합니다.
그래서 여러분들이 코랩 같은 데서 특정 어떤 소스를 주면은 얘가 전부 다 파싱하고 LLM에서 프리디파인되어 있는 프리트레이닝 다 하고요.
그런 다음에 이 작업이 완료가 되면 이렇게 시각적으로도 보여 주고 엔티티 뽑아 놓은 거에서 여기에서는 관계를 따라갑니다.
그래서 내가 어떤 노드, 엔티티를 선택을 하느냐에 따라서 정보를 다른 정보들을 쭉 보여 줄 수 있는 기술도 사실 런타임에 다 돌아갑니다.
지금 이제 제가 말씀드린 건 뭐냐면 기술이 LLM이라는 걸 가지고 환각을 줄이기 위해서 지식그래프를 사용을 하는데 상당히 많은 접근이 지금 되고 있고 실제 우리가 테스트해 볼 수 있는 게 있다라는 겁니다.
그래서 이 기술이 과거처럼 ‘이렇게 되면 좋겠다.
’가 아니라 거의 같은 시기에 돌아간다는 게 큰 특징이라고 생각을 합니다.
좀 구분을 해서 이제 여러분들께 말씀을 드릴 건데요.
제가 지금까지 앞쪽에서 설명드렸던 거는 일반적으로 우리가 RAG를 쓰겠다 그러면 벡터 데이터베이스를 그냥 쓰는 거예요.
그 안에는 그래프적인 요소가 없는 거고요.
Graph RAG로 넘어오면 데이터 구조가 지식그래프로 바뀐다는 건 큰 특징입니다.
다만, 제약점이 있죠.
왜냐면 Graph RAG도 환각을 다 줄이냐? 그러진 못하거든요.
그 이유에 대해서 뒤에서 설명을 드릴 거고요.
그래서 지금 최근의 움직임은 지식그래프와 LLM을 연결하는 방법은 뭐냐면 structured 데이터하고 unstructured 데이터를 같이 사용을 하고요 큰 그림을 보시면 벡터 데이터베이스에 있는 거를 이용해서 그래프 데이터베이스를 연동하는 그림이 최근에 생긴 흐름이고요.
이런 흐름을 잘 사용하면 오픈소스도 많이 있거든요.
이렇게 해결이 되면 지식그래프하고 LLM이라는 거를 연결을 해서 데이터의 환각을 줄이려고 하는 시도와 어떤 접근은 충분히 가능하다.
다만, 지금까지 제가 한 3개 정도의 예를 드렸는데 이 3개는 Labeled Property Graph라고 얘기를 합니다.
그래프의 모양이 살짝 다릅니다.
그동안 지식그래프 얘기하면 우리는 RDF 그래프라고 하는 한 20년 된 이런 구조를 썼는데 최근에 Property Graph를 사용을 하거든요.
이 차이점이 가장 커요.
사실 이거를 좁히려고 하는 연구가 지금 많이 진행이 됐고요.
그래프를 여러분들이 그래프 데이터베이스를 이용해서 LLM을 연동을 하겠다 그러면 이 시장과 솔루션도 상당히 많아졌기 때문에 이런 것들을 여러분들이 검토해서 접근한다면 충분히 가능하다고 봅니다.
그러면 지금부터 안 되는 이유를 여러분들한테 설명을 드릴게요.
일단 지식그래프에 대한 접근점에 대해서 한 가지 말씀드리고 LLM적인 걸 말씀을 드릴 건데 지식그래프적인 접근은 우리나라에서 대부분의 지식그래프와 온톨로지 프로젝트는 스몰 데이터를 가지고 있어요.
왜냐하면 조직의 어떤 큰 완벽한 데이터를 가지고 한 게 아니라, 작은 데이터를 가지고 있고 업데이트도 잘 되지 않고, 내년에는 과제가 없어지면 못해요.
그리고 우리나라의 대부분의 지식그래프 프로젝트는 시각화하고 끝났어요.
그래서 우리한테 오해가 있거든요.
지식그래프는 시각화다.
그런데 지식그래프는 데이터를 통합하는 프로젝트입니다.
그렇기 때문에 살아있는 데이터를 써야 되고요.
이 데이터가 어딘가에서 계속 써져야 돼요.
참조 가능해야 돼요.
그리고 마지막이 완전한 데이터를 갖고 있을 때, 지식그래프 기술을 쓸 수 있다는 거예요.
반면에 여러분들이 그래프를 처리할 때 이런 데이터는 그래프를 사용할 이유가 없어요.
첫 번째가 매출 총액처럼 숫자 데이터, 단순히 숫자만 있는 것.
그리고 시계열 데이터도 비슷하겠죠.
주식에 대한 것들, 이런 것들은 굳이 그래프를 쓸 이유는 없다는 거죠.
그리고 마지막으로 완전히 그냥 독립적으로 존재해요.
로그 데이터 같은 것들.
이런 것들은 굳이 그래프로 처리할 이유는 없다는 겁니다.
이제부터 앞쪽에 RAG나 Graph RAG가 왜 안 돌아가는지를 여러분들의 머리를 조금 이렇게 지끈지끈하게 해드리겠습니다.
뭐냐면 지식그래프나 온톨로지는 개념을 만드는 거예요.
여성분들께 죄송한데요.
여성분들도 이해할 수 있게 설명할 겁니다.
남자분들 중에 군대에 다녀오신 분 있나요? 네.
많이 있잖아요.
군대에 있을 때 제일 듣기 싫은 소리가 뭐였어요? 요즘은 이런 얘기하면 안 되는 것 같아요.
군대에 있을 때, 저 군대에 있을 때, 제일 듣기 싫은 소리가 뭐냐면요.
너 참 개념 없다.
그게 제일 듣기 싫어요.
저 개념 있는 것 같은데 개념 없대요.
개념이 뭐냐 하면 우리가 공통적으로 갖고 있어야 되는 거예요.
제가 발표를 하러 왔는데 여러분들한테 상상하지 마세요.
제가 수영복으로 왔어요.
수영복 차림으로.
“쟤 깬다.
” 그럴 수도 있지만, “아니 발표에 왜 저러지?” 이럴 수 있잖아요.
그게 우리는 개념이라고 얘기를 하거든요.
그리고 인간이 가장 뛰어나게 할 수 있는 활동 중에 하나가 뭐냐면 인간은 그 개념을 단어로 만들 줄 알아요.
심벌로 만들어요.
언어로 만들 줄 알거든요.
그래서 여기 있는 랭귀지 시스템이라고 하는 거는 실물의 교회가 있지만, 우리는 걔를 개념을 만드는 과정에서 계속 추상화를 할 수 있어요.
추상화를 쫙 시킨 다음에 저렇게 원에다가 십자가 하나만 해도 이거 교회야.
그리고 church 그러면 우리는 막 그리잖아요.
내가 다니는 교회, 당신이 다니는 교회, 내 집 옆에 있는 교회 우리는 상상할 수 있어요.
그게 인간이 가지고 있는 상상력이라고 했는데 이거를 LLM이 대체하겠다.
이런 게 이제 우리의 도전사항인 거죠.
그래서 인간이 가장 잘했던 건 이런 것들을 하는 건데 이런 것들을 우리는 지식 표현이라고 얘기를 했었습니다.
이건 이제 온톨로지 영역에서 얘기를 한 건데 그래서 세상에 수도 없이 많은 나무가 있으나 우리는 tree 하는 순간 저것도 나무, 이것도 나무 다 구분할 수 있잖아요.
그러다 보니까 우리가 가지고 있는 건 뭐냐면 개념을 정의할 수 있는 구조를 알고 있었던 거예요.
그런데 LLM을 쓰고 LLM에 Graph를 붙이거나 아니면 Graph RAG를 붙였을 때의 문제는 뭐냐면 이런 개념 구조를 자동으로 만든다는 거예요.
그러니까 인간이 가지고 있는 구조로 하는 게 아니라 그 구조에 수학적인 확률을 넣어서 구조를 만들어내는 거예요.
그러니까 우리가 그동안 얘기했던 사람은 동물 밑에 있는 거야라고 하는 게 어떤 때는 맞고 어떤 때는 틀릴 수도 있다는 거예요, LLM에서는.
그런데 사람들은 그렇게 판단하지 않거든요.
그래서 그런 부분들에 대해서 우리가 생각해봐야 할 지점이 있고요.
온톨로지를 표현하는 것은 사실은 온톨로지가 정말 발전하지 못했던 한 가지 이유 중에 하나는 복잡하다는 거예요.
그런데 만약에 저 그림은 심장이거든요.
심장은.
제가 한때 의료정보학을 했었거든요.
심장은요.
여러분들이 “심장은 뭐예요? 정의해 보세요.
” 그러면 심장은요, 근육이에요.
우리가 알고 있는 건 심장은 근육이거든요.
그래서 심장도 운동하면 튼튼해져요.
튼튼해지죠.
정말 튼튼해지나요? 잘 모르겠습니다.
심장은 근육계예요.
그런데 심장은 동시에 순환계예요.
피를 돌리잖아요.
그래서 온톨로지를 모델링을 할 때 제가 “심장은 근육계야.
” 아니면 “심장은 순환계야.
” 이렇게 하면 안 돼요.
심장은 part of예요.
양쪽을 다 갖고 있어야 돼.
이런 게 온톨로지의 표현력이거든요.
그런데 제가 LLM한테 “심장은 뭐야?” 그랬더니, 어떤 LLM은 “근육계야.
” 어떤 LLM은 “순환계야.
” 이렇게 얘기한다고 하면 우리의 판단은 달라질 수밖에 없다는 겁니다.
그래서 이런 표현력이 필요한데 이런 온톨로지 구조가 필요한데 이런 것들을 현재의 Graph RAG까지는 고민하지 않았다는 겁니다.
그래서 최근에 어떤 얘기를 하냐면 이런 부분이 그러면 지식그래프가 답이냐 Gen AI가 답이냐 이게 아니라 서로 보완관계가 있을 거라는 겁니다.
이 보완관계를 만드는 거고 그래서 그런 관점에서 우리는 최근에 Neuro-Symbolic AI라고 하는 양쪽의 보완관계를 만드는 작업을 이제 해야 된다 이런 주장을 하고 있고요.
지금부터 제 연구 사례를 설명을 드릴 텐데요.
아무도 관심 없으나 너무나 중요한, 저한테는 중요합니다.
주소에 대해서 말씀드릴게요.
여러분들은 주소를 잘 신경 안 쓰잖아요.
제가 왜 국립국어원이 오늘 주소를 신경 써야 되는지를 데모로 하나 보여드릴 거예요.
주소는 우리나라 주소는 사실 되게 많은 정보를 함축적으로 가지고 있어요.
제 학교 주소가 서울특별시 동작구 흑석로 84거든요.
행정구역, 도로, 건물 이런 정보를 다 가지고 있거든요.
그런데 우리는 그걸 텍스트로만 써요.
그래서 제가 행안부하고 같이 전체 주소를 전부 다 지식그래프로 만드는 작업을 작년, 올해 수행을 했거든요.
그 결과를 간단하게만 제가 보여 드릴게요.
이 작업을 하면서 제가 가장 중요하게 생각했던 거는 이런 데이터 모델을 만드는 거였어요.
우리나라 주소를 어떻게 데이터 모델로 표현할 수 있느냐.
그런 작업을 했고, 이 작업을 행안부하고 같이 올해 작년하고 올해 5개의 표준을 만들었는데 이 표준은 뭐냐면 우리나라에서 얘기하고 있는 주소와 건물, 건축물 이런 것들에 대한 모든 것을 공통으로 쓸 수 있는 데이터 모델을 만든 거예요.
지식그래프 형태의 모델을 만든 거고요.
여러분들이 이게 왜 우리나라 국어, 언어하고 뭐가 중요할까? 매우 중요합니다.
제가 행안부하고도 같이 국립국어원에 문의를 했던 거예요.
다른 부서겠죠.
문의했던 게 뭐냐면요.
우리나라에서 여러분들, 특별시하고 자치시, 일반시 구분하실 수 있으세요? 특례시, 제가 사는 용인은 특례시거든요.
특례시는 일반시일까요? 자치시일까요? 구분하기 되게 힘들거든요.
그럼 특례시는 영어로 표현할 때 어떻게 쓸까요? 우리나라의 법체계는 굉장히 독특합니다.
서울특별시, 광역시 이건 영어로 쓰고요.
메트로폴리탄 시티 이렇게 쓰고요.
밑에 내려가서 그냥 시 그러면 SI 이렇게 쓰고요.
구, GU 이렇게 쓰고 그래요.
표기법이 없어요.
그러면 이건 어떻게 되냐면 LLM에 아무리 물어도 안 돼요.
그래서 제가 이 자료를 한 장을 만들어 가지고 행안부, 국립국어원, 다른 부처, 유관 부서 우리는 이걸 어떻게 표현하는 게 좋습니까? 이런 문제가 실제 있다라는 거예요.
그리고 더 큰 문제는 이런 거죠.
이 오른쪽을 보시면 제가 Claude에다 이런 걸 물었어요.
수원은 어떤 행정구역이에요? 이렇게 물어보면 틀린 답이 나와요.
저렇게 그러면 주소는요.
행정구역만 있는 게 아니에요.
지명도 있잖아요.
우리 지번주소라는 것도 있고 법정동도 있거든요.
그런데 제가 어떤 지명으로 무언가를 찾았을 때 정확한 답을 찾기 매우 어렵습니다.
왜냐하면 그런 말뭉치가 사실 잘 공유되어 있지 않습니다.
지명에 대한 말뭉치는 국토부에서 만든 소량밖에 없어요.
그러니까 그런 것들을 이용해서 우리가 LLM에 어떤 데이터를 넣고 처리하는 건 매우 어렵습니다.
이제 정리를 좀 해보겠습니다.
다시 AI로 돌아가서요.
Geoff Hinton은 지금 이야기하는 디지털 지능이 우리가 갖고 있는 지능보다 훨씬 더 뛰어날 것, 넘어갈 수도 있다 이런 얘기하거든요.
이런 얘기도 하고요.
Yann LeCun이에요.
Yann LeCun은 휴먼 레벨 AI는 안 된다고 했었거든요.
도그 레벨, 캣 레벨 이렇게 얘기했었는데 일주일 전으로 알고 있는데 5년에서 10년 정도면 제너럴 AI가 될 것 같다.
그런데 지금의 방식은 아니라는 거예요.
트랜스포머 기반의 AI는 아닐 것 같다 이렇게 얘기를 합니다.
그런데 문제는 이런 거예요.
여기서 얘기한 것처럼 이미 실리콘 밸리를 중심으로 해서 스케일링에 대한 얘기를 했었거든요.
더 많은 데이터와 더 많은 CPU 장비를 갖고 있으면 성능이 좋아질 거다.
그런데 이 기사들 다 무슨 얘기를 하냐면 이번에 구글, 제미나이나 이런 여러 개의 대형 언어 모델을 갖고 있는 데서 성능이 그렇게 좋아지지 않는다는 거예요.
그래서 스케일링에 문제가 생긴 게 아니냐.
이게 문제가 될 거라고요.
스케일링 얘기는요.
이게 이제 메타의 3.
1인데 54일 동안 돌렸고요.
16000개 Nvidia H100이에요.
이거 금액으로 따지면 얼만지 모르겠어요.
그러니 당연히 이제 저희는 못 따라가는 거죠.
그런데 이렇게 해도 3.
1이 그렇게 눈부신 성능이 안 나온다라는 거예요.
이런 걸 좀 고민을 해 볼 필요가 있고요.
제가 말씀드리는 것 중에 하나는 적정 기술을 제가 말씀을 드린 건데 적정 기술은 뭐냐면 위키피디아라고 지식그래프 형태의 위키 데이터가 있거든요.
이 데이터는 이 심플한 question 0.
26초 걸려요.
cpu도 많이 쓰지 않아요.
반면에 챗지피티나 다른 데는 훨씬 많은 시간이 든다는 거죠.
그러면 우리한테 필요한 건 뭐냐면 적정한 문제에 대해서 기술을 쓸 수 있고, 적용해 볼 수 있는 인프라를 고민을 해 볼 필요가 있다는 거죠.
그냥 기술 중심으로만 가는 것보다는 이 방법이 좋을 거고.
최근에 Semantic Web계에서는 아키텍쳐가 상당히 많이 바뀌었습니다.
그러니까 현실 가능한 구조로 이런 구조가 좀 많이 바뀌었어요.
그래서 JSON-LD나 SHACL 이런 형태의 새로운 표준이 나왔다는 걸 좀 기억을 해 두시고 제가 이 자료를 발표하는 동안 2주 전에 Semantic Web계에서 가장 큰 컨퍼런스를 했었는데 정말 리마인드할 수 있는 기회의 컨퍼런스였거든요.
2001년도에 “Semantic Web은 이럴 거야.
” 라고 했던 그 기사를 썼던 사람인데 Ora Lassila가 올해 키 노트를 하면서 뭐라고 얘기했냐면 이 기사를 한번 다시 봐라.
이 기사는 우리는 지식 표현하려고 하는 게 Semantic Web이나 지식그래프의 목표가 아니라 맨 마지막에 온톨로지와 에이전트라는 게 필요하고 결국은 요즘 얘기하는 LLM이나 Graph RAG에서 얘기하는 건 결국 이렇게 갈 거라고 얘기를 합니다.
그리고 제가 한 3분만 더 써도 되나요? 제가 아까 말씀을 드렸는데 제 디펜스 논문의 심사위원이 Tom Gruber라고 얘기했고 이분이 시리를 만들었다고 했잖아요.
사람이 제가 좋아하는 건데 어떤 사람이 저는 꿈을 찾아가는 걸 되게 좋아하는 것 같아요.
이 영상은 1987년도에 애플이 만든 영상이에요.
영어니까 안 들으셔도 돼요.
저기 있는 게 사실 에이전트거든요.
얘는 지금 자기 일정을 물었고요.
공항에 가는 것도 물었어요.
그러면 자기의 스케줄과 자기 강의와 이런 것들을 다 연결했거든요.
사실 우리가 생각하는 에이전트는 이런 모습일 겁니다.
지금 우리가 에이전트 얘기를 많이 하지만 재밌는 건 이게 1987년도에 만든 Knowledge Navigator라고 얘기를 하는 건데요.
Tom Gruber라고 하는 사람이 시리를 만들었을 때 시리의 모체는 이 영상을 보고 만들었어요.
“나는 이걸 만들겠다.
”라고 했었거든요.
이런 꿈을 찾아가는 건 참 좋은 것 같습니다.
저도 언젠가 제 연구의 끝은 이런 방향으로 가겠죠.
그래서 여러분들도 그런 방향으로 갔으면 좋겠고 한국어에 대한 부분 그리고 지식그래프 그리고 생성형 AI 이런 것들에 대해서 여러분들이 같이 고민하는 시간이 됐으면 좋겠고요.
마지막으로 제가 말씀드리고 싶은 건 영어에서 “One-sided feed all doesn't work.
” 이렇게 이야기하잖아요.
하나의 기술이 하나의 어떤 해결 방법이 모든 것에 맞지 않거든요.
그래서 우리가 제가 아까 기술에 대한 회복 탄력성을 말씀을 드렸는데 조금 기술을 문제 중심으로 한번 보고 필요한 사람들끼리 협업하는 게 지금 가장 필요하지 않을까 그런 생각을 합니다.
감사합니다.
*질의응답* [질문] 안녕하세요.
저는 플리토를 운영하고 있는 이정수라고 합니다.
아까 말씀하신 것처럼 사실 여러 가지로 GPU라든지 아니면 데이터에 대한 파라미터의 수를 늘려도 작년이나 재작년과는 다르게 사실은 학습 곡선 자체가 좀 많이 슬로우다운하고 있다고 말씀을 하셨잖아요.
이제 보면 사실 저희가 텍스트 기반의 데이터들은 많이 들어가고 멀티모달로 스피치 데이터라든지 다양한 데이터는 들어가고 있지만 사실 비전 데이터 같은 경우가 상당히 많이 빠져있는 걸로 보이거든요.
특히 비전 데이터 중에서 라이브 비전 데이터 같은 경우, 실제로 사람이 눈으로 보고 판단을 해서 본인이 갖고 있는 지식이랑 결합을 시켰을 때 훨씬 더 좋은 정보가 나올 수가 있는데 저희가 사용하는 대부분의 Large Language Model은 텍스트 기반 혹은 음성을 텍스트로 한 거에 대한 기반으로 결괏값을 주다 보니까 인간처럼 사실 눈이라는 개념이 들어가게 된다면 아까 교수님께서 말씀하셨던 슬로우다운되는 그래프를 다시 한번 점프업을 시킬 수 있는 기회가 오지 않을까, 저는 개인적으로 그런 생각을 해본 적도 있었거든요.
혹시 그 부분에 대해서 의견이 있으신지 좀 여쭤보고 싶습니다.
[대답] 말씀하신 것처럼 같은, 비슷한 맥락의 생각입니다.
결국은, 사실 이걸 지적한 거는 제가 지적한 건 아니고 아까 말씀드렸던 Yann LeCun 같은 경우가 캣 레벨, 도그 레벨, LLM이다 이렇게 지적한 이유가 뭐냐면 인간이 이야기하고 이해하는 그런 수준을 텍스트만 이야기하지 않잖아요.
우리가 광고 문구에 “사랑은 언제나 목마르다.
” 얘기할 때 우리 연애할 때 느끼는 게 뭐예요.
항상 2% 부족한데 표현하지 않는 건 사랑이 아니라고도 얘기해요.
제가 막 횡설수설 하는데 알잖아요.
근데 그 안에서 우리가 헷갈리는 게 뭐냐면 표현하지 않는 걸 어떻게 아냐는 거예요.
그러니까 Yann LeCun이나 Fei-Fei Li가 월드랩스를 만들면서 지적한 건 뭐냐면 텍스트는 의미를 계산을 해냈어요.
그런데 아까 제가 Semantic Triangle이라고 해서 잠깐 설명을 하고 넘어간 것 중에 뭐냐 하면 피지컬이 없어요.
지금 만들어진 LLM, 텍스트로 만든 LLM은 제가 마이크를 잡든 뭐든 얘는 실물을 refer하지 못해요.
그러니까 말씀하신 그 영역은 비전을 통해서 혹은 보이스나 다른 어떤 멀티모달을 이용해서 그 부분을 만들어내면 환각을 줄일 수 있는 가능성은 있습니다.
다만 텍스트를 지금 학습시키는 만큼의 인프라만큼 멀티모달로 넘어갔을 때의 그 영역은 더 커질 수밖에 없다는 거죠.
만약에 그런 식으로 간다고 하면 사실 여기 앉아계신 모든 분들에 대한 고민이 더 커질 거예요.
그러니까 일종의 규모의 경제인 거잖아요.
그러니까 메타나 오픈 AI나 이런 쪽 계속 그런 식으로 몰고 가고 있고 사실 우리나라의 연구비 다 합쳐도 안 되잖아요.
그러니까 그런 부분에 과연 우리 어떻게 할까 이런 고민이 제가 그건 말씀은 안 드렸지만, 그런 부분에 있어서 우리가 좀 지혜를 모아야 할 때가 아닌가 그런 생각이 듭니다.

더 보기

작성일

2025-02-05

조회수

299
Machine Translation in the Age of AI: Data and Models(인공지능 시대의 기계 번역: 데이터와 모델)

국립국어원 모두의 말뭉치 국제 학술 대회(2024. 12. 4.(수), 대한상공회의소) 강연 영상입니다.

더 보기

작성일

2025-02-05

조회수

278
언어 AI 기술 발전 흐름

국립국어원 모두의 말뭉치 워크숍(2024. 8. 9.(금), 전남대) 강연 영상입니다.

모두의 말뭉치 워크숍 강연_언어 AI 기술 발전 흐름_임준호(튜터러스랩스)

[발표 화면: PPT_표지] 네, 발표 시작하도록 하겠습니다.
방금 소개받은 튜터러스랩스의 임준호입니다.
반갑습니다.
저는 원래 한국전자통신연구원이라고 하는 에트리(ETRI)에서 한 20년 이상 한국어와 관련된 인공지능 기술을 연구 개발을 했었어요. 그래서 아마 그 인공지능 기술, 최근 한 20년 동안 일어났던 인공지능 기술에 대한 변화 이런 것들은 직접 몸소 체험을 하였었고요. 그 과정에서 기술이 이제 많이 바뀌게 됐고 지금은 이제 챗GPT와 같은 것들까지 나오게 됐는데 이렇게 챗GPT와 같은 것들이 그럼 도대체 얘가 사람들이 이걸 어떻게 바라봐야 되나, 얘는 도대체 본질적으로 무엇인가라고 하는 거에 대해서 여러분들한테 좀 뭔가 같이 제가 생각하고 있는 내용을 나눠드리고자 그런 형태로 발표를 준비를 하였고요. 아마 오늘 그 프로그램들 중에서 아마 기술에 대한 내용은 제가 좀 유일했던 것 같고 아마도 예상컨대 청중분들은 그래도 이제 국립국어원과 관련이 있는, 뭔가 어머니나 인문 쪽 계열이신 분들이 좀 많을 것 같아서 기술에 대해서 조금씩 이제 쉽게 설명드리는 걸 좀 목표로 설명을 드리도록 하겠습니다.
[발표 화면: PPT_목차] 그리고 발표 순서 목차는 크게 다음과 같이 준비했고요. 우선 지금 챗GPT와 같은 것들을 저희가 라지 랭귀지 모델(Large Language Model)이라고 해서 ‘LLM’이라고 부르거든요. 이 LLM이라고 하는 거에 대한 기본 개념에 대해서 말씀드리고요. 두 번째는 이 LLM이 등장하고 나서는 이게 굉장히 큰 의미를 가지고 있습니다.
여러분들이 요즘 일을 하거나 공부하거나 무언가를 할 때 컴퓨터를 사용하지 않는 분 없으시죠? 근데 이 컴퓨터의 근간을 바꿀 수 있는 게 거의 LLM이라고 봐 주시면 되세요. 그 부분에 대해서 두 번째 쪽에서 말씀을 드리고요.최근 연구 동향과 관련해서는 주로 아무래도 이제 말뭉치나 언어학 이론 쪽과 관련되신 분들이 많기 때문에 그 부분을 중심으로 해서 최근에 어떤 연구들이 있는지 하는 동향에 대해서 말씀드리고 마지막 쪽은 이제 아마 네이버에 계신 분이든 아마 오픈AI든 구글이든 어떤 회사 분들이든 1년 뒤의 AI를 지금은 예측을 못 합니다.
다들 AI가 앞으로 어떻게 발전할지, 1년 뒤 2년 뒤에 예측하지 못하지만 앞으로 크게 어떠한 방향으로 나아갈 것 같다라고 하는 거에 대해서 제가 생각하고 있는 내용을 소개하는 형태로 크게 발표를 드리도록 하겠습니다.
[발표 화면: PPT_LLM 기본 개념] 그러면 이제 LLM에 대해서, 기본 개념에 대해서 말씀을 드릴 건데요. 참고로 말씀드리면 지금 인공지능이라고 하는 거는 컴퓨터가 등장하고 나서부터 매번 있었던 용어예요. 근데 어떠한 기술을 인공지능이라고 할 거냐는 매년도마다 매시기마다 달랐었어요. 컴퓨터가 처음에 등장했을 때는 세상을 모델링하거나 규칙이나 로직 프로그래밍 하는 것들을 인공지능이라고 하다가 데이터 드리븐 어프러치(Data Driven Approach)라고 하는 게 나오면서는 기계 학습을 인공지능이라고 부르고 또 최근에는 딥러닝이나 LLM을 써야지 인공지능이라고 해요. 이런 식으로 새로운 기술이 나오게 되면 뭐를 인공지능이라고 하는지 그 대상이 좀 달라지게 되는데 LLM이라고 하는 게 새로 등장을 했죠. 근데 얘가 세상에 없다가 새롭게 등장을 하게 되면 무언가는 반드시 달라지게 돼요.새로운 기술이 나왔다는 건 여러분들이 인터넷이 없던 시대와 인터넷이 있는 시대를 비교하면 무언가 차이가 확 느껴지시는 것처럼 LLM이 없던 시대와 LLM이 있는 시대를 비교하면 무언가 또 차이가 있게 되는데 그럼 그 차이는 무엇일까라고 하는 거에 대해서 좀 설명을 드리려고 하고요. [발표 화면: PPT_LLM 기본 개념: (1) 기존 AI 기술_1] 우선 그러면 각 시기별로 AI 기술이 어떻게 발전해 왔는지를 간단하게 한번 한 서너 장 정도로 랩업(wrap-up)을 해보면 가장 초창기에는 컴퓨터가 등장하자마자는 사람들이 인공지능을 개발할 때 규칙으로 만들었어요. 직접 if, then, else 해 가지고 규칙으로 만들다가 언젠가는 데이터를 많이 모아놓고 데이터로부터 학습을 하니까 훨씬 더 잘 되더라 라고 하는 게 나왔었어요. 그때부터는 보통 이제 기계 학습이라고 하는 거를 많이 쓰던 시대이고 실제로 인문학이나 언어학을 하신 분들 중에서도 인공지능이나 공학에 관심 있으신 분들은 뭔가 자질을 추출하고 그걸 가지고 뭔가 기계 학습을 적용해서 어떤 식의 실험을 하고 하는 연구들을 많이 좀 유사한 연구들을 접하셨을 거예요. 그게 이제 거의 기존에 있던 인공지능 기술이라고 봐 주시면 되고요. 그때 하던 방법은 보통 이제 데이터를 모읍니다.
그리고 그거를 학습 데이터화해요. 예를 들어서 내가 뉴스 기사를 분류하는 인공지능 기술을 만들겠다 그러면 뉴스 기사들을 다 모아오죠. ‘악귀는 김은희가 만든 드라마다.
’, 그리고 사람이 들어가서 정답을 레이블링합니다.
‘이건 연예 기사다’라고 그러면 이와 같은 데이터가 모이고 나면 인공지능 개발자가 여기에서 이제 각각의 레이블을 구분하게 해 주는 단어가 무엇이 있을까라고 하는 거를 자질이라고 하는 걸 정의를 했어요. 그래서 뉴스 기사 분류할 때는 바이그램(bigram)을 쓴다, 혹은 사람 이름 이건희가 나오면 경제 기사일 거고 갑자기 대통령 이름이 나오면 정치 기사일 거고 그런 것들이 있기 때문에 그러한 것들로 자질을 추출하는 걸 개발하고 거기에 기계 학습 알고리즘을 적용을 하게 되면 이 자질에 기반해서 나중에 새로운 뉴스 기사가 왔을 때 이게 어느 카테고리인지 분류를 할 수 있게 됐습니다.
이게 상당히 오랜 기간 동안 인공지능 기술이다 하면 이런 형태로 적용이 됐었어요. [발표 화면: PPT_LLM 기본 개념: (1) 기존 AI 기술_2] 그게 이제 갑자기 한 번 크게 바뀌게 된 게 딥러닝(Deep Learning)이 등장하면서부터입니다.
딥러닝이 등장하면서부터는 앞에 있는 그림과 비교를 해봤을 때 한 부분이 박스가 빠지게 되죠. 자질 추출이라고 하는 단계가 빠지고 학습 데이터를 다 모아놓고 나서 레이블이 달려 있으면 딥러닝 모델이 알아서 자질을 꼽아줍니다.
그래서 아래 레이어 예를 들어서 이제 사람 얼굴을 인식하는 이와 같은 딥러닝 모델이다, 그럼 아래 레이어는 선이나 동그란 것들을 인식하고 위로 가면 눈이나 코를 인식하고 더 위로 가면 사람 얼굴을 인식하고 해서 특정 사람인 걸 인식하는 형태로, 기존에는 이런 것들을 사람들이 어느 게 선인지 어느 게 동그라미인지 사람이 수식으로 만들어서 그걸 자질로 넣었었어요. 그거를 이제 AI가 직접 다 자동으로 추출해서 하는 식으로 딥러닝이 등장하고 나서는 이런 부분이 달라졌었습니다.
근데 하지만 이와 같은 학습 데이터를 모으고 별도의 딥러닝 모델을 설계하고 하는 것들은 계속 AI 개발자들이 하는 일이었어요. [발표 화면: PPT_LLM 기본 개념: (1) 기존 AI 기술_3] 그러한 것이 또 한 번 패러다임이 바뀌게 되는 게 이제 앞에서 발표에서도 나왔던 용어인데요. 버트(BERT)라고 하는 기술들이 나왔는데 그런 것들은 그냥 크게 봐서는 사전 학습이라고 하는 용어로 봐 주시면 되세요. 인터넷상에 있는 많은 양의 텍스트 보통 수백 기가바이트(GB) 이상의 텍스트를 모아놓고 트랜스포머라고 부르는 모델에다가 이 텍스트를 다 외워라 라고 마치 암기해라 라고 학습을 시키게 됩니다.
그러면 얘가 수백 기가바이트를 외우면서 일반적인 문법이나 의미 이런 것들을 어느 정도 학습을 하게 돼요. 그걸 가지고 이제 앞에서 구축했던 학습 데이터들에 대해서 약간만 웨이트를 바꾸는 파인튜닝을 하게 되면 앞에 있었던 저기 이 두 장의 접근 방법으로는 도달할 수 없는 정도의 수준으로 성능이 굉장히 퀀텀 점프를 하게 됩니다.
그리고 이제 다양한 테스크에 다 적용을 할 수 있게 돼요. 그러면서 버트가 나온 이후부터는 다 사전 학습을 어떻게 잘하느냐 하는 쪽으로 연구가 넘어가게 됩니다.
즉 이 두 장을 비교를 해 보면 앞에서는 이제 각각의 테스크마다 딥러닝 모델을 별도로 설계를 했어야 되는데 버트가 나오고 나서는 딥러닝 모델 설계가 사라졌어요.딥러닝 모델은 이때부터는 항상 그냥 트랜스포머입니다.
그냥 트랜스포머를 쓰고 사전 학습을 잘하면 가장 성능이 좋은 AI 모델을 만들 수 있는 시대가 됐어요. 그게 이제 가장 마지막에 또 큰 변화로 GPT-3이 나오면서는 지금 여기에서는 이거를 잘하기 위해서 왼쪽을 서브로 했었잖아요. 그 이제 몸통과 꼬리가 바뀌게 됩니다.
[발표 화면: PPT_LLM 기본 개념: (2) LLM의 시작, GPT-3_1] GPT-3이 나오면서부터는 요 왼쪽 거만 잘하면 오른쪽 게 필요가 없어졌네. 원래는 오른쪽이 주인이었어요. 왼쪽은 서브였고. 근데 그냥 디코더 모델 트랜스포머의 디코더 모델이라고 하는 거에다가 사전 학습을 잘 시켰더니 오른쪽 게 필요가 없이 그냥 다양한 테스크에다가 다이렉트로 추가 학습 없이 적용이 되더라라고 하는 게 나온 게 GPT-3라고 봐주시면 됩니다.
그러면 여기 도대체 이게 약간 미스터리하죠. 트랜스포머 디코더 모델에다가 많은 데이터를 학습시킨다는 게 뭔가라는 게 잘 감이 안 오실 것 같은데 [발표 화면: PPT_LLM 기본 개념: (2) LLM의 시작, GPT-3_2] 그 부분을 조금 이제 부연해서 설명을 드리면 그냥 여러분들이 만약에 교회에 다니시는 분들이라면 주기도문을 외우시잖아요. 하늘에 계신 우리 아버지여, 그 이름이 거룩히 여김을 받으시옵고 이렇게 기존에 있던 단어들을 가지고 다음 단어를 계속 하나씩 다 외워 나가잖아요. AI 모델도 똑같습니다, 그냥. 백설공주는 독 사과를 먹고 잠이 들었다.
그럼 백설공주는 다음에는 나올 단어는 ‘독 사과’다, 그다음 나올 단어는 ‘잠이’, 그다음 나올 단어는 ‘들었다’. 그런 식으로 이제 인터넷상에 있는 수백 기가의 텍스트를 다음 단어가 무엇인지 외워서 암기하라고 한 게 이 트랜스포머의 디코더 모델이라고 봐 주시면 돼요. 그래서 그냥 AI 알고리즘이 하나가 있어요. 트랜스포머 디코더라는 거. 여기에다가 많은 양의 텍스트를 가지고 다 외워라라고 시키면 지금 앞에서 말씀드린 이와 같은 것들이 가능해졌다라고 하는 걸로만 받아 들여주시면 되고요. 그러면 이 트랜스포머 디코더 모델 GPT-3은 그 이전에 있던 것과 무엇이 다른가를 말씀을 드리면 딱 이거예요. [발표 화면: PPT_LLM 기본 개념: (2) LLM의 시작, GPT-3_3] 그냥 규모가 엄청나게 커졌어요. 학습하는 그 컴퓨팅의 양 사용하는 GPU의 개수나 시간으로 보셔도 되고요. 그리고 학습하는 데이터셋의 크기 그리고 학습하는 그 트랜스포머 모델이라고 하는 거의 크기를 3개를 다 엄청나게 크게 키웠더니 얘가 다음 단어를 맞추는 정확도가 끝없이 좋아진다.
98%, 99%에서 딱 이제 멈추는 게 아니라 99.5, 99.6 계속 이제 점점 더 높아지더라라고 하는 게 오픈AI에서 GPT-3을 학습하기 이전에 찾았던 법칙입니다.
이 법칙에 기반해서 오픈AI가 GPT-3을 실험을 했다 라고 봐 주시면 되고요. 여기에 함유돼 있는 컨덱처는 그거예요. 제가 만약에 여러분들한테 “‘나는 학교에 간다’가 영어로 뭐예요?” 물으면 “I go to school”입니다.
그와 유사한 답변이 나오겠죠. AI 모델도 다음 단어를 정확하게 맞출 수 있으면 그런 걸 할 수 있을 거다.
제가 여러분들한테 “10 더하기 17이 뭐예요?” 하면 대다수의 분들이 “27이잖아요”라고 할 거잖아요. 그와 같은 것들을 맞추는 걸 AI도 할 수 있을 거다라고 하는 겁니다.
그리고 GPT-3에서는 그거를 실험적으로 증명을 했습니다.
[발표 화면: PPT_LLM 기본 개념: (2) LLM의 시작, GPT-3_4] 그래서 이제 그 AI한테 글쓰기를 시키는데 사람이 쓴 뉴스 기사가 있어요. 거기에 제목과 부제목을 가져다가 GPT-3한테 주고 이제 뉴스에 본문을 써 봐라 그러면 제목과 부제목이 같고 본문이 다른 2개의 글이 나오게 되겠죠. 그걸 가지고 이제 다른 사람한테 가져가서 어느 게 사람이 쓴 글이고 어느 게 AI가 쓴 글인지 맞춰 보세요. 하게 되면 둘 중에 하나니까 이제 기본적으로 베이스라인은 50%인데 사람들이 구분해내는 정확도가 52%일 정도로 거의 구분해내지 못하더라. 근데 글을 쓴다라고 하는 건 여러분들 아시겠지만 제가 만약에 동성애에 대해서 찬성 또는 반대하는 글 한 번 써 주세요. 1000자로. 그러면 나는 찬성일까? 반대일까?, 근거를 뭘로 할까?, 단락 구성을 어떻게 할까? 굉장히 많은 고민을 하게 돼요. 사람들도 그 정도의 캐퍼서티(capacity)를 얘가 해냈다라고 하는 걸로 봐 주시면 되고요. [발표 화면: PPT_LLM 기본 개념: (2) LLM의 시작, GPT-3_5] 또 하나는 이제 산술연산입니다.
그래서 지금 얘한테는 인터넷상에 있는 텍스트를 다 외워라 라고 시켰고 사람처럼 산수 계산을 가르쳤던 적은 없어요. ‘2 더하기 2는 4야’, ‘3 더하기 5는 8이야’라고 하는 걸 가르친 적이 없는데 그 텍스트를 다 외운 것만으로 두 자릿수 더하기나 두 자릿수에 빼기를 거의 100%를 해내게 됩니다.
만 단위로 넘어가면 약 10% 가량을 해내게 되고요. 이런 식의 가르치지 않았던 능력들이 생기더라 라고 하는 게 GPT-3가 나왔을 때 가지고 있던 그 함이라고 봐 주시면 되고요. [발표 화면: PPT_LLM 기본 개념: (2) LLM의 시작, GPT-3_6] 구글에서는 이거를 한 번 더 2년 뒤에 랩업을 했어요. 그래서 언어 모델이 가지는 크기별로 이렇게 크기가 쭉 증가할 때 어려운 테스크가 있어요. 수학 문제 풀기나 다른 어려운 문제들이 있을 때 작은 언어 모델들은 그거를 전혀 풀지 못하다가 크기가 일정 임곗값을 넘어가는 순간 갑자기 그 문제를 풀기 시작하는 어떠한 경계가 있다.
그래서 그 경계점부터 새로운 능력이 창발한다라고 해서 그냥 그 용어를 이멀전트 어빌러티(Emergent Abilities)라고 붙입니다.
즉 LLM이라고 하는 거는 가장 기반이 되는 거는 이 이멀전트 어빌러티라고 보시면 돼요.무언가 그 LLM 안에서 가르치지 않았던 그 이상의 능력이 창발을 하고 있다라고 봐 주시면 되고 이제 동전의 앞뒷면과 같은 얘기인데요. 이멀전트 어빌러티라고 하는 그 동전의 뒷면은 이게 왜 되는지 모르겠다예요. 그냥 이렇게 해 보니까 이런 결과가 나오더라 라는 관찰이자 결과이지, 왜 되는지는 모르겠다.
그냥 용어를 이렇게 붙이자 라고 하는 내용으로 봐 주시면 됩니다.
여기까지가 이제 2020년에 나왔던 GPT-3, 챗GPT의 기반이 되는 모델에 대한 이야기였고요. [발표 화면: PPT_LLM 기본 개념: (3) ChatGPT_1] 2022년 11월에 나온 챗GPT는 이 GPT-3를 조금 바꾼 모델이라고 봐 주셔도 돼요. GPT-3처럼 뭔가 범용적인 능력이 있을 때 얘를 사람이 선호로 하는 답변을 나오게 얘를 조금 바꿔 줍니다.
즉 이와 같은 학습 데이터가 하나 있다라고 해 봐요. 지금 프로그램 소스 코드가 있어요. 이 소스 코드에서 변수 C라고 하는 게 있는데 얘가 하는 목적이 뭐야? 물어보면 GPT-3는 이제 사람이 선호로 하는 답변이 아닌 이 프로그램 코드에 그럴듯한 다음 단어, C0의 값을 저장하고 C1의 값을 저장하고 이런 식의 코드를 생성한다면 사람들이 선호로 하는 답변은 이 코드의 리스트 C는 ‘binomial coefficient’라고 하는 값을 저장하는 역할을 합니다.
하면서 블라블라 설명을 해주길 원하죠. 그래서 이와 같은 출력을 이와 같은 출력으로 바꿔준 게 챗GPT라고 봐주시면 됩니다.
그리고 그거는 앞에 말씀드린 요 세 가지, 앞에 세 가지 그림으로 조금 더 학습을 하면 되는데 그냥 방법은 다음과 같아요. 이와 같은 입력에는 이러한 것들을 출력으로 내줘야 된다라고 하는 그 쌍 데이터들을 많이 모아놔요. 그리고 그거를 GPT-3한테 다시 한번 외워라 라고 시켜요. 그러면 얘가 이제 다른 지금 파이썬이 아닌 C++이나 자바나 다른 언어에 대해서도 비슷하게 프로그램 코드를 해석하거나 요약하거나 하는 일들을 할 수 있게 돼요. 그리고 두 번째랑 세 번째 단계는 사람들이 가지고 있는 선호도라고 하는 거를 이제 AI한테 알려주는 경우들이에요. 예를 들어 폭탄 만드는 방법 알려줘 그러면 일반적인 사람들은 그런 거를 AI 모델이 그런 걸 알려주면 안 된다라고 생각하면 ‘그거는 제가 답변할 수 없습니다.
’, 뭔가 남녀의 성과 관련돼서 미묘한 질문을 한다면 ‘그러한 것들은 답변하지 않겠습니다’라든가 아니면 좀 약간 중립적인 답변을 한다든가 하는 것들을 이제 두 번째랑 세 번째 단계에서 조금 더 학습을 하게 되면 그렇게 해서 나오게 되면 여러분들이 사용하시는 챗GPT와 같은 서비스가 나오게 됩니다.
그래서 챗GPT, GPT-3.5든 GPT-4든 학습하는 메커니즘이나 방법의 기본은 거의 동일하다고 보시면 돼요. 그리고 그냥 그 내부적으로 들어가는 데이터나 모델 이런 것들이 조금씩 달라지면서 성능이 더 올라가고 있다라고 봐 주시면 되고 현재 여러분들이 쓰시는 모델들도 기본 메커니즘은 다 이 메커니즘과 동일하다라고 봐 주시면 됩니다.
그리고 오전에 이제 국립국어원에서 여러 가지 말뭉치나 이런 데이터들을 소개를 해 주셨는데 인스트럭션 튜닝 데이터, 이런 녀석들 얘기 나왔죠. 그게 이와 같은 형태의 데이터들이라고 보시면 돼요. 이런 인스트럭션 튜닝 데이터들을 지금도 이제 보통 외국에 공개된 건 영어가 많지만 한국어에 대한 것들도 고품질 특히 인스트럭션 튜닝 데이터일수록 고품질이 중요한데 그러한 것들을 국립국어원에서 지금 이제 데이터 구축을 진행을 하고 있다라고 봐 주시면 좋을 것 같습니다.
[발표 화면: PPT_LLM 기본 개념: (3) ChatGPT_2] 그래서 이와 같은 작업을 하게 되면 가장 어메이징한 거는 이런 부분입니다.
가르치지 않았던 일까지 얘가 똑같이 인스트럭션 팔로잉을 해서 얘는 거의 영어만 학습하고 한국어나 중국어, 일본어들을 학습하지 않았어요. 인스트럭션 튜닝 데이터의 한 95% 이상은 영어였는데 갑자기 넌 잉글리시 랭기지, 한국어에 대해서도 영어와 비슷하게 이렇게 의도에 맞게 답변을 하기 시작하더라 혹은 가르치지 않았던 프로그램 코드에 대한 요약이나 QA와 같은 것들을 할 수 있게 되더라라고 하는 것들이 나오면서 이때부터 사람들이 LLM이라고 하는 걸로 크게 이제 흐름이 넘어가게 됩니다.
[발표 화면: PPT_LLM 기본 개념: (3) ChatGPT_3] 그리고 이와 같은 인스트럭션 튜닝을 하게 되면 큰 모델들을 인스트럭션 튜닝하지 않았던 것 대비 차라리 작은 모델이더라도 이런 인스트럭션 튜닝을 하게 되면 사람들이 보다 선호로 하는 답변을 생성을 할 수 있다라고 하는 것들이 나오게 됩니다.
[발표 화면: PPT_LLM 기본 개념: (3) ChatGPT_4] 그리고 이제 명령을 정확하게 따라간다 라거나 ‘딱 다섯 문장으로 말해줘’, ‘이런 건 하지 말아줘’와 같은 콘스트레이트를 정확하게 따라간다거나 사실관계가 틀린 것들, 모든 면에서 성능이 개선이 된다라고 하는 것들을 이제 오픈AI에서 공개를 같이 했었습니다.
[발표 화면: PPT_목차] 여기까지 해서 나온 게 이제 여러분들이 쓰시는 챗GPT, 제미나이, 클로드 그래서 기본 형태나 백본 하는 방법은 거의 제가 지금 말씀드린 내용과 동일하다라고 보시면 돼요. 각 회사마다 이 학습하는 디테일이나 데이터들 이러한 것들이 차이가 있는 형태다라고 봐 주시면 되고요. 그럼 지금 이제 한 발 이제 다시 뒤로 좀 물러서서 지금까지는 굉장히 좀 기술에 약간 가까운 이야기라서 어떤 분들은 좀 어렵다라고 느끼셨을 수도 있는데요. 한 스텝 뒤로 물러서서 얘가 그럼 어떤 의미를 가지고 있나라고 하는 거를 다시 한번 좀 살펴보도록 하겠습니다.
[발표 화면: PPT_LLM이 가지는 의미_1] 우선 LLM이 가지는 의미에 대해서 소개를 드리려고 하고요. 라지 랭귀지 모델(Large Language Model), 저희가 LLM이라고 부르는 라지 랭귀지 모델은 결국에는 그냥 랭귀지 모델의 크기가 큰 버전이에요. 랭귀지 모델의 라지 버전이 있는데 랭귀지 모델이라고 하는 거는 예전에 20~30년 전에도 있었던 인공지능이 하나의 분야였었어요. 그냥 우리가 한국어다라고 하면 사람들이 생각하는 한국어에 대한 개념이 있잖아요. 한국어에 백설공주가 독 사과를 먹었다.
이거는 당연히 자연스러운 한국어 문장이죠. 누구나 한국 사람이라면 누구나 인정을 할 건데 누가 갑자기 이상한 문장을 써 와요. 독 사과가 백설공주를 먹었다라는 문장을 들고 오면 사람들한테 이게 한국어 문장이 맞습니까? 물어보면 사람들한테 이건 좀 까리한데, 이상한데, 사람 이름이 독 사과냐 기타 등등 여러 가지 생각을 할 수 있겠죠. 그런 것처럼 A라는 문장이 있을 때 얘가 한국어인지 아닌지 그 확률을 판단을 해 주는 게 랭귀지 모델입니다.
이 위에 있는 건 확률이 높다, 아래에 있는 건 확률이 낮다라고 판단을 해 주는 게 랭귀지 모델이에요. 근데 컴퓨터한테 이게 확률이 높고 얘가 확률이 낮아라고 하는 걸 가르치는 가장 사람들이 알고 있는 최선의 방법, 이거 외에 다른 방법은 사람들이 알지 못해요. 전 세계 그 누구도. 그게 그냥 AI한테 단어를 맞춰봐라 라고 시키는 거예요. 그냥 어떠한 남자가 어디에 가서 우유를 샀다, 그러면 가운데 있는 단어는 어떤 가게를 갔을 거고 뒤에 있는 단어는 어떤 단위니까 갤런일 거야라고 하는 식으로 단어를 맞춰보게 시켜요. 이렇게 단어를 맞춰보게 시키면 이걸 가지고 이제 요 적용을 하게 되면 여기에다가 이건 확률이 높고 얘는 확률이 낮아라고 하는 것들을 할 수 있게 되는 거예요. 근데 이 워드 프리딕션(Word Prediction)을 가만히 생각을 해보면 결국에는 AI한테 데이터를 주고 데이터를 다 외워라, 암기해라라고 시키는 것과 똑같거든요. 그래서 사람들이 처음에는 AI 모델, BERT 모델이나 GPT 모델이 거대한 암기 모델일 거다라고 생각을 했어요. [발표 화면: PPT_LLM이 가지는 의미_2] 21:11 그래서 얘는 어떠한 데이터베이스와 같은 역할을 할 거다라고 초창기에 사람들이 생각을 하고 만약에 단테의 고향을 묻는 질문이 있다, 단테가 어디에서 태어났냐라고 하면 기존에 원래 전통적인 접근 방법은 날리지 그래프(Knowledge Graph)라고 하는 게 있습니다.
단테(Dante)라고 하는 노드가 있고 플로랑스(Florence)라고 하는 노드가 있으면 그 사이에 릴레이션은 본-인(born-in) 해서 이게 고향이다라고 하는 거를 가지고 단테가 어디서 태어났니? 물어보면 이 데이터베이스를 뒤져서 플로랑스다라고 하는 걸 답을 해야 됐지만 이제는 그냥 언어 모델에다가 단테 워즈 본-인(Dante was born-in) 혹은 마스크(Mask) 모르는 값이야, 물어보면 얘가 플로랑스다라고 하는 걸 줄 수 있을 거다라고 이렇게 예상을 하게 됩니다.
그리고 이거를 언어 모델의 크기별로 작은 모델, 큰 모델, 더 큰 모델 이렇게 해서 이거를, 이와 같은 사실들을 얼마나 잘 맞추나 평가를 해 봤더니 작은 모델들은 한 29%, 35% 맞추지만 모델이 커질수록 61%일 정도로 이러한 단편적인 사실들을 점점 더 정확하게 외우고 있네라고 하는 것들을 확인을 하게 돼요. 그래서 사람들이 처음에는 이 랭귀지 모델이라고 하는 걸 어떠한 지식 베이스와 같은 식으로 바라보다가, 바라보고 있는데 [발표 화면: PPT_LLM이 가지는 의미_3] 22:25 여기에서는 지금 예제들은 기존에는 사람들이 그래서 단편적인 사실들을 가지고 평가를 했었어요. “단테는 어디에서 태어났어?” 하면 “플로랑스다”라고 하는 것들을 맞추는데 ‘실제 단테의 고향이 플로랑스다’라고 하는 이 답변 하나에 올 수 있는 질문은 수백 가지가 넘습니다.
“단테가 어디서 태어났어?”, “고향은 어디야?”, “저기 자라난 곳은?” 등등등 해서 굉장히 다양한 표현이 있는데 그 다양한 표현들에 대해서 고향이 플로랑스라고 하는 그 지식 하나를 딱 정확하게 찾아오고 있다라는 거예요. 그 과정이 그냥 우리가 단편적으로 뭔가 단편적인 지식을 저장하고 가져오는 그것과는 좀 다르다라고 하는 부분에 대해 말씀을 드리고 [발표 화면: PPT_LLM이 가지는 의미_4] 23:20 이거를 이제 그래서 어떠한 랭귀지 모델 안에 지식이 저장돼 있고 그 지식을 꺼내오는데 단편적인 사실만 꺼내오는 게 아니라 앞에서 말씀드린 것처럼 글쓰기를 잘할 수 있게 됐다라고 했잖아요. ‘왜 인간이 AI를 두려워할 이유가 없는지 글을 쓰시오’ 하게 되면 LLM이 GPT-3가 글을 쓰는데 예시로 러다이트 운동을 가져와요. 러다이트 운동이라고 하는 거는 기계 혁명 시대 때 사람들이 이제 일자리가 뺏길 게 두려워서 기계를 파괴했던 그 운동이죠. AI 시대에도 똑같이 지금 AI가 일자리를 뺏을까 봐 사람들이 뭔가 AI를 어떻게 규제하자 이런 얘기들도 나오고 있고 뭔가 상당히 유사한 부분이 있죠. 근데 이거는 어떤 단편적인 사실이 아니라 서로 맥락이 일치하는 경우예요. 그 맥락이 일치하는 것들을 쫙 딱 찾아서 이와 같은 예시 운동을 가져온다라거나 내가 지금 설득하는 문장을 쓰고 있다.
그럼 마지막 인용문으로 마하트마 간디의 말을 가져와서 ‘목표를 위해 끝없이 갈망하는 믿음에 의해 쏘아 올려진 소수의 확고한 이들이 역사의 흐름을 바꿀 수 있다’라고 하는 설득하는 문장을 또 가져와요. 그러니까 단편적인 사실뿐만 아니라 주어진 맥락에 기반해서 어떠한 문장이나 구나 좀 더 추상적인 개념들까지 잘 꺼내오고 있다라고 하는 게 뒤에 이제 나왔던 그 연구 결과들을 살펴보면 저희가 알 수 있는 부분이라고 말씀을 드리고요. 그럼 이렇게 이와 같은 상황 외에 인간이 AI를 두려워할 이유가 없다라고 하는 상황과 러다이트 운동을 매핑을 시킨다는 거는 [발표 화면: PPT_LLM이 가지는 의미_5] 24:38 결국에는 지금 LLM이라고 하는 게 사람이 어떤 생각을 하잖아요. 그 생각과 똑같은 비슷한 어떠한 리즈닝(Reasoning)이라고 하는 추론이라고 하는 거를 할 수 있는 기계로 바뀌었다라고 하는 걸로 봐 주시면 되세요. 그래서 컴퓨터라고 하는 거는 기존에는 그냥 컴퓨터 용어 그대로 계산하는 기계였어요. 0과 1이 주어지면 01을 계산해서 여러분들이 인터넷 뱅킹도 하고 워드도 쓰고 파워포인트도 하고 그걸 01을 계산하는 걸 가지고 그 많은 일을 했다면 기존에는 LLM 이전에는 리즈닝이 필요한 테스크를 못 했었어요. 거의 못 했는데 이제는 LLM이 등장하면서 이제 리즈닝이라고 하는 게 가능해졌다라고 하는 개념으로 봐 주시면 되고요. [발표 화면: PPT_LLM이 가지는 의미_6] 25:26 이 부분을 리즈닝이 가능해졌다라는 걸 조금 더 부연적으로 설명을 드리면 예를 들어 이런 겁니다.
숫자가 있어요. 10, 4, 3, 5, 6, -1 이거를 –1, 3, 4, 5, 6, 10 숫자 크기로 정렬을 하는 거 그냥 보기에 굉장히 심플하죠. 여러분들 엑셀에서 위에 헤더 클릭해 가지고 쭉 소팅하는 거 매일 쓰시죠. 근데 컴퓨터가 등장하고 다음부터 지금까지 한 60년 이상 동안 숫자를 크기순으로 정렬할 때 이런 아래에 보이시는 것과 같은 정렬 알고리즘들, 이와 같은 정렬 알고리즘들을 거치지 않고 숫자를 정렬해 냈던 적은 없습니다.
그리고 이거는 컴퓨터 하는 모든 사람이 반드시 기초적으로 익혀야 되는 가장 베이직한 어떻게 보면 근간 알고리즘이었어요. [발표 화면: PPT_LLM이 가지는 의미_7] 26:21 그거를 LLM이 등장하고 나서는 그냥 사람이 똑같이 이제 AI한테 아래 숫자대로 순서대로 정렬해 봐 혹은 반대로 정렬해 봐 하면 AI가 트랜스포머 알고리즘 안에 정렬 알고리즘이 없습니다.
정렬 알고리즘을 거치지 않고 이와 같은 정렬을 해낸 것들은 최초의 사례라고 봐 주시면 되세요. 그리고 이거를 조금 더 확장을 하게 되면 얘한테 이제 그냥 프롬프트를 주는 것만으로 프로그램을 개발하는 것과 똑같은 일을 할 수가 있어요. [발표 화면: PPT_LLM이 가지는 의미_8] 26:45 예를 들어서 지금 엔드류 옹(Andrew Ng)이라고 하는 교수님이 챗GPT 프롬프트 엔지니어링이라고 하는 강의에서 알려준 챗봇에 대한 프롬프트예요. 너는 피자 가게에서 주문을 받는 오더봇이다.
처음에 환영하고 주문을 받아라. 픽업인지 딜리버리인지 물어봐라. 메뉴는 무엇이 있다 이렇게 알려주게 되면 [발표 화면: PPT_LLM이 가지는 의미_9] 27:01 LLM이 그냥, 우리 피자 가게에 온 걸 환영합니다.
어떤 거 주문하시겠어요?, 메뉴가 무엇이 있나요?, 가격이 얼마예요? 하면 페퍼로니 피자는 얼마, 이런 것들 그럼 어떤 피자 할게요? 그다음에는 이제 저기 사이드 메뉴를 물어보고 딜리트 링크를 물어보고 하는 식으로 채팅을 이어나가게 됩니다.
이런 식으로 기존에는 이와 같은 대화를 하게 되려고 하면 몇십 억을 들여서 프로그램 개발을 맡겼어야 되는데 이제는 LLM에다가 프롬프트를 주면 그와 같은 프로그램 개발과 동일한 일을 할 수 있다라고 봐 주시면 되고 [발표 화면: PPT_LLM이 가지는 의미_10] 27:32 이거를 지금 피자 가게 POS 기계가 처리할 수는 없지만 이걸 가지고 크리에이트 어 제이슨 서머리(create a json summary) 한 줄만 더 넣어주게 되면 피자는 무엇, 가격은 얼마, 그래서 토탈 프라이스(total price) 얼마 해서 피자 가게 사무기기가 처리할 수 있는 수준으로 결과를 또 요약을 해줄 수 있게 됩니다.
그래서 이와 같은 것들이 이제 LLM을 통해서 가능해졌다라고 하는 내용을 좀 말씀을 드리고요. 그래서 저희도 이제 뭔가, 아마 프로그래머분들도 프로그램을 개발할 때 기존에는 뭔가 그냥 다 개발해야 됐다면 이제는 챗GPT를 써서 별도로 개발하지 않고 그걸 가지고 해결하는 경우들이 점차 많아지고 있습니다.
[발표 화면: PPT_LLM이 가지는 의미_11] 28:11 그렇게 봐 주시면 좋을 것 같고 실제 이런 것들은 저기 조금 다른 사례인데요. 올해 초에 구글에서 나왔던, 딥마인드에서 나왔던 이제 로봇이 사람과 상호작용하는 예제예요. 사람이 다가서면 비켜서고 로봇한테 말하면 쳐다보고 고개를 끄덕거리고 자기가 이제 아니다 싶으면 고개를 가로젓고 하는 것들을 [발표 화면: PPT_LLM이 가지는 의미_12] 28:31 이제 구글에서 개발한 LLM에다가 프롬프트 엔지니어링을 해서 각 단계별로 이제 어떻게 반응해야 되냐? 그리고 이걸 로봇에게 어떻게 표현할 거냐? 하는 걸로 프롬프트 엔지니어링 하는 것만으로 [발표 화면: PPT_LLM이 가지는 의미_13] 28:46 휴먼과 로봇이 인터렉션 하는 게 가능해진다라고 하는 것들을 새로 논문에서 같이 공개를 하였고요. [발표 화면: PPT_LLM이 가지는 의미_14] 28:53 지금 이와 같은 추론 능력이라고 하는 거는 이제 초등학교 수학 문제는 기존에 30~40%였는데 최근에 94%까지, 92%까지 올라가게 되고 점차 이제 대학생이나 수학 올림피아드 문제를 푸는 것들, 프로그래밍 레벨도 초급에서 중급, 고급으로 점차 문제 추론할 수 있는 능력이 점차 향상이 되고 있다라고 하는 내용을 좀 말씀을 드리도록 하겠습니다.
[발표 화면: PPT_목차] 29:14 여기까지가 이제 뭔가 좀 LLM이 가지는 의미에 대해서 말씀을 드렸는데요. 지금 여러분들이 기존에 알고 계시는 컴퓨터라고 하는 그 대상 있잖아요. 걔가 기존에는 뭔가 생각하거나 추론하거나 이런 것들이 안 됐는데 이제 LLM이 나오면서는 그런 것들이 뭔가 추론 능력이 들어가서 기존에 있던 컴퓨터라고 생각하고 바라보던 관점에서 좀 더 많은 변화를 일으킬 수 있다라고 하는 메시지로 받아들여 주시면 좋을 것 같습니다.
그리고 다음으로는 조금 더 가볍게 들어주셔도 될 것 같은데요. [발표 화면: PPT_LLM 기본 개념 Wrap-up] 29:46 최근 연구 동향 쪽인데 LLM은 제 앞에서 말씀드린 것과 같이 컴퓨팅, 데이터셋, 모델 크기 세 가지라고 말씀을 드렸는데요. [발표 화면: PPT_LLM 최근 동향] 29:53 그거별로 각각 이제 오픈되고 있는 모델, 오픈되고 있는 소스, 오픈되고 있는 데이터 그리고 이 LLM을 가지고 활용하는 거 이와 같은 경우들이 있는데 오픈되고 있는 모델이나 소스들도 지금 굉장히 많습니다.
수백 개씩 계속 나오고 있는데 이쪽은 아마도 AI 연구하는 사람들에서 좀 더 이제 다시 깊이 있게 다뤄줘야 될 내용일 것 같고요. 오늘 오신 분들과 관련해서는 오픈 데이터의 최근 동향에 대해서 말씀을 드리고 또 하나는 이제 라그(RAG)라고 하는 용어가 있어요. 리트리버 어그멘티드 제너레이션(Retrieval-Augmented Generation)이라고 하는 용어가 있는데 최근에 이제 LLM과 관련해서는 얘를 어떻게 보면 시사 상식 용어처럼 거의 기본 용어처럼 알아두시면 도움이 될 것 같습니다.
라그(RAG)라고 하는 용어를 초기화하는 걸로 LLM 활용 쪽에 대해서 소개를 드리도록 하겠습니다.
[발표 화면: PPT_#3 오픈 데이터] 30:41 우선 오픈 데이터 같은 경우에는 저희 최근에 가장 많이 쓰고 있는 사이트는 허깅 페이스에 있는 데이터셋이에요. 여기에 가서 데이터를 보면 굉장히 빠르게 늘어나고 있습니다.
지금 12만 건 정도가 최근에 있었고요. 여기에 가서 코리안이라고 치면 많은 데이터들이 나오고 있습니다.
빠른 것들은 이쪽에 나오고 있고요. 학계에서 나오는 거, 논문 쓸 때 나오는 것들은 이쪽에 공개되고 있고 국립국어원이나 NIA에서 공개되고 있는 것들은 오늘 이제 오전에 발표 때 같이 좀 소개를 드렸었고요. 최근에 이제 논문을 통해서 공개되고 있는 것들을 간단하게 살펴보면 크게 축은 몇 가지 축이 있는데 [발표 화면: PPT_#3 오픈 데이터: 다양성] 31:16 첫 번째는 데이터에 대한 다양성이 중요해지고 있다라는 거예요. 여기 지금 색깔 진하기가 성능입니다.
그리고 이쪽에 다이버시티(diversity)인데 점점 다이버스한 데이터를 학습할수록 성능이 LLM의 성능이 좀 더 높아진다라고 하는 내용이 있고요. [발표 화면: PPT_#3 오픈 데이터: 품질] 31:33 또 하나 두 번째는 품질입니다.
지금 여기 색깔이 진할수록 품질이 높은 거, 색깔이 옅을수록 품질이 이제 그냥 일반 품질인 것인데 데이터셋의 크기가 증가할수록 저품질인 것들은 성능이 이제 그만그만해요. 성능이 올라가지 않지만 고품질인 데이터를 섞어야지만 점차 이제 성능이 증가한다라고 하는 내용들이 나오고 있고요. [발표 화면: PPT_#3 오픈 데이터: 추론과정] 31:56 또 하나 세 번째 축은 이제 추론 과정입니다.
어떠한 문제를 주고 사람들한테 예를 들어 1000 더하기 258은 얼마야? 그럼 1258, 바로 답을 말하는 게 아니라 중간의 과정들, 8과 0을 더해서 1의 자리는 8이고 그다음에 이제 받아올림이 있으니까 그다음 중간 수는 뭐고 이런 식의 중간의 추론 과정을 데이터로 같이 구축을 해 주는 거 이 센텐스 a(sentence a)는 왜 답이 되는지 안 되는지, 센텐스 b(sentence b)는 왜 답이 되는지, 안 되는지 하는 것들을 문장을 분석을 해서 그걸 가지고 같이 데이터를 구축을 하고 그걸 학습을 해 주면 LLM 모델의 성능이 더 높아진다라고 하는 내용이고요. 이거는 사람과 비교해서 생각을 해 봐도 유사할 것 같아요. 저희가 다른 사람한테 뭔가를 알려줄 때 이거 이거는 이러이러해서 이러이러해라고 설명을 해줘야지 다른 사람도 좀 더 잘 이해하잖아요. 그와 같은 내용들이 데이터에도 그대로 담겨야 된다라고 하는 걸로 봐 주시면 되고 최근에 이제 국립국어원에서 구축하고 있는 데이터들도 이런 다양성, 품질, 이런 이유에 대한 설명 이런 것들을 같이 고려를 하고 있는 것으로 알고 있습니다.
[발표 화면: PPT_#4 LLM 활용: RAG] 32:56 그리고 LLM의 활용과 관련해서는 라그(RAG)라고 하는 기술이 있어서 하나 설명을 드리려고 하고요. LLM이 답변을 할 때 각각의 문장이 어느 문서에서 나왔는지 참고해서 답변하게 하는 기술이라고 봐 주시면 됩니다.
[발표 화면: PPT_#4 LLM 활용: RAG_2] 33:14 앞에서 5분 남았다고 하니까 마음이 굉장히 급해지네요. 한 서너 장 정도 되는데 빨리빨리 진행하도록 하겠습니다.
기존에는 저기 사용자가 뭔가 물어보게 되면 LLM이 바로 답변을 했어요. 그러면 얘가 틀린 답변이 나오죠. 그다음에 LLM이 학습하고 난 이후의 사실들에 대해서 모르잖아요. 그러면 이제 질문을 가지고 최근에 있는 지식들을 검색을 해 봐요. 검색을 하면 어떤 검색된 단락들이 있게 되고요. LLM이 생성을 하는데 미리 딱 틀을 줘요. 너는 답변을 생성하는데 이 검색된 단락에 기반해서만 답변을 생성해, 다른 식의 답변은 하지 마라고 딱 틀을 주고 이 검색된 답을 주게 되면 얘가 보통은 이 답변을 잘 생성을 해 주게 됩니다.
이게 지금 일반적으로 AI 기업들이 다 하고 있는 LLM을 가지고 만드는 서비스 형상이라고 봐 주시면 되세요. [발표 화면: PPT_#4 LLM 활용: RAG_3] 34:03 그리고 이런 것들이 앞에서 말씀드린 게 제가 나이브한 방법이라면 가운데 요약을 해서 넣거나 리랭킹을 하거나 이걸 인터랙티브하게 돌리거나 하는 여러 가지 어드벤스드한 방법들이 지금 연구가 되고 있다라고 하는 정도로 봐 주시면 좋을 것 같고요. [발표 화면: PPT_목차] 34:19 여기까지가 그냥 어떻게 보면 시사 용어 정도로 봐 주시면 좋겠습니다.
그리고 마지막 향후 발전 방향 쪽인데요. 지금 이제 국립국어원에서 하고 있는 여러 가지 벤치마크에 대한 연구라든가 데이터셋 구축 연구 그런 것들이 지금 다 이제 계속 온고잉해서 이루어지고 있는 연구들이라고 봐 주시면 되고 그것보다 넥스트로 그럼 무엇이 나올 거냐라고 하는 거를 크게 세 가지 정도 말씀을 드리면 [발표 화면: PPT_앞으로의 LLM 방향 1] 34:42 첫 번째는 LLM 자체가 에이전트(agent)가 되는 겁니다.
여러분들 저기 그냥 핸드폰에다가 대고 애플 웹사이트 가서 광주로 배송 가능한 에어팟 40달러 이하짜리 찾아줘 하면 LLM이 애플 웹사이트에 접속해서 서치에다가 쿼리 넣고 직접 클릭해서 얘는 되나, 안 되나 판단해서 딱 결과 요약해서 가져와 주는 거 그런 것들을 에이전트라고 하거든요. 그거를 이제 여러 개가 여러 에이전트들이 같이 협력을 하게 하는 겁니다.
그렇게 되면 프로그램 코딩을 할 때 기존에는 30~40%인 거를 프로그램을 설계하는 애, 요구사항을 만드는 애, 프로그래밍 작성하는 애, 그거 품질 검사하는 애 나눠서 프로그래밍 회사처럼 작업을 분담시켜서 여러 LLM이 협력을 시키면 80%, 90%까지 성능이 향상된다라고 하는 연구들이 있습니다.
그래서 아마 나중에는 넥스트로 내년, 후년쯤엔 한국어에 대한 에이전트 벤치마크가 국립국어원에서 또 이슈가 되지 않을까라는 걸 한번 예상을 해보고요. [발표 화면: PPT_앞으로의 LLM 방향 2] 35:40 두 번째는 퍼스널라이제이션(personalization)입니다.
개인화, 이게 지금 쉽지는 않아요. LLM이 저라고 하는 사람에 대해서 딱 빙의해서 계속 저라고 하는 사람의 경험과 맥락에 맞춰서 계속 답변하게 하는 기술, 이거는 사람들이 계속 누구나 당연하게 바라고 있지만 기술적으로는 아직 굉장히 쉽지 않은 이슈라고 봐 주시면 되고요. [발표 화면: PPT_앞으로의 LLM 방향 3] 35:57 세 번째는 액션과 결합하는 겁니다.
LLM은 항상 이제 소프트웨어로 컴퓨터 웨어 공간 안에 가상의 세계만 있지만 지금 저기 로봇 쪽에 있는 연구들을 보면은 LLM에다가 그냥 액션에 해당하는 데이터셋 오픈x EV 인바디먼트라고 하는 데이터셋이 있는데 이거 학습을 시키면 기존에 나왔던 성능들을 다 뛰어넘고 있습니다.
심지어 이제 하나의 LLM이 여러 개의 로봇들을 다양하게 다 동작을 시킬 수 있어요. 서로 로봇의 형태나 센서가 다른 것들도 그러한 것들이 이제 올해 초부터 액션 저기 이쪽에서 크게 나오고 있는 연구 추세이고요. 나중에는 LLM의 액션이 결합하는 게 그다음에 또 큰 방향이 될 거다라고 하는 걸로 크게 이제 세 가지를 말씀을 드리고요. [발표 화면: PPT_앞으로의 LLM 방향 4] 36:42 아마 5분이 다 됐다고 하고 난 뒤로 딱 5분 정도 지난 것 같은데 시간이 다 된 관계로 제 발표는 여기에서 마치도록 하겠습니다.
네, 긴 시간 들어주셔서 감사합니다.

더 보기

작성일

2024-10-10

조회수

3011
눈으로 보는 음성 기록 클로바노트

모두의 말뭉치 한국어 빅데이터 활용 기업 특별 강연 영상 및 발표 자료입니다.

눈으로 보는 음성 기록 클로바노트(네이버 신지은 리더)

'모두의 말뭉치' 한국어 빅데이터 활용 기업 특별 강연 발표 자료(눈으로 보는 음성 기록 클로바노트) 동영상 자막

모두의 말뭉치 한국어 빅테이터 활용 기업 특별 강연 우리 삶을 변화시킨 한국어 인공지능 [강연3] 눈으로 보며 듣는 음성기록 '클로바노트' 신지은 리더/네이버 발표자료 내려받기 1. 모두의 말뭉치 누리집(https://kli.korean.go.kr) → 2. 말뭉치 활용 → 3. 활용 지원 자료 게시판에서 내려받을 수 있습니다.
주최: 문화체육관광부 국립국어원, 주최: INTERZ 안녕하세요. 눈으로 보며 듣는 음성 기록 ‘클로바노트’ 서비스를 소개해 드리겠습니다.
저는 ’클로바노트’ 프로젝트 PM을 맡고 있는 신지은이라고 합니다.
지금까지 개발자 입장의 이야기를 많이 들으셨다면 저는 기획자 입장에서 이야기를 (들려) 드리게 될 것 같아요. 이렇게 귀한 자리에서 여러분들께 ‘클로바노트’ 서비스를 소개해 드릴 수 있게 되어 영광입니다.
혹시 ‘클로바노트’ 서비스 알고 계신가요? 많이들 쓰고 계신가요? 저희가 휘발되기 쉬운 모든 회의를 의미 있는 기록으로, 그래서 ‘기록은 클로바노트가 할 테니 필요한 내용에만 집중하세요’라는 목표로 2020년 11월 19일 처음 서비스를 출시하였습니다.
AI 기술 단독 서비스로서 시장에서 반응을 얻을 수 있을까 의구심도 많이 있었는데요. 출시 1년 만에 140만 다운로드, 125만 가입자를 달성했고 22년 현재는 290만 다운로드, 260만 가입자를 달성하여 그래도 AI 기술 서비스 시장에서 좋은 반응을 얻고 있다고 자평하고 있습니다.
특히 올해 6월, 일본에도 서비스가 출시되었고 현재 30만이 넘는 다운로드가 달성되었습니다.
최근 시장의 새로운 서비스로, 그것도 유틸리티 서비스로는 되게 의미 있는 성과라고 생각하고 있어요. 그래서 작년 5월에 애플 앱스토어에서는 오늘의 앱으로 선정되어 서비스가 소개된 적도 있었고요. 구글 플레이 스토어의 경우 ‘2021 Best of Awards, 올해의 인기 앱’ 그리고 ‘올해를 빛낸 일상생활 앱’ 2관왕을 수상하기도 했습니다.
특히 올해 인기 앱은 사용자분들이 직접 투표로 뽑아 주신 것이어서 저희가 작년에 굉장히 (큰 성과로) 기쁘게 지냈습니다.
특히 저희가 가장 자랑스럽게 생각하는 건 ‘스토어 리뷰’인데요. 애플 앱스토어를 보시면 평점이 4.9점, 구글 플레이 스토어를 보시면 평점이 4.8점으로 다른 앱들에 비해서 정말로 좋은 평점들을 주고 계세요. 특히 저희 개발자분들하고 너무 힘들 때 리뷰 보면서 힘내자 얘기하는데요, 사용자분들이 달아 주시는 리뷰가 되게 감동적입니다.
제가 몇 개만 좀 읽어 드릴게요. ‘21세기 만만세-날아다니는 자동차? 해저터널? 다 필요 없습니다.
클로바노트 하나로 21세기는 풍요롭습니다.
’ ‘별 백만 개도 안 아까워요. 강의 틀어 놓고 이걸로 녹음하는데 진짜 텍스트 변환 비교적 정확하게 잘 됩니다! 개발자분 적게 일하시고 많이 버시는 삶 사시길… 무병장수에 로또 1등 당첨되시길…’ 이런 거 보면서 되게 기뻐하고 있어요. 이런 클로바노트 서비스의 근간에는 네이버의 뛰어난 AI 기술이 있다고 생각합니다.
제가 클로바노트에 사용되고 있는 AI 기술 중 몇 가지를 소개해 드려 볼게요. 첫 번째는 핵심 기술 음성 인식 NEST 엔진이 있습니다.
NEST 엔진은 음성 데이터에 담겨있는 발화를 인식해서 실제 사람이 기록하는 것처럼 자연스러운 형태의 텍스트로 변환해 주는 음성 인식 엔진입니다.
NEST에 탑재된 End-To-End 뉴럴넷은 긴 음성 기록의 맥락을 파악해서 음성을 인식해주기 때문에 발화자의 발음이나 주변 소음, 속도 이런 것들의 영향을 상대적으로 덜 받고 좋은 품질로 음성을 인식해 줍니다.
클로바노트 외에도 네이버의 쇼핑라이브 자동 자막, VITA 동영상 편집기 등 네이버의 다양한 서비스에 활용되고 있는 음성 인식 핵심 기술입니다.
두 번째 엔진은 화자 분리 엔진 WISE가 있습니다.
대화 속 여러 사람의 목소리를 구분하고 발화자가 누구인지 식별하는 엔진입니다.
음성 정보만으로도 특정 인물이 등장하는 영상 또는 발화 시점을 빠르게 찾을 수 있고 사용자 인증 서비스에도 이용할 수 있습니다.
클로바노트에는 현재 화자 분할 기술이 적용되어 있고요. 화자 식별 기술도 곧 적용할 예정입니다.
그리고 가장 최근에 적용된 하이퍼클로바 AI 요약 엔진이 있는데요. 하이퍼클로바 AI 요약 엔진은 다양한 길이의 노트를 효과적으로 요약하기 위한 토픽 세그먼트(Topic Segment) 모델과 하이퍼 클로버 요약 모델을 기반으로 하고 있습니다.
각 단락에 대한 요약은 초거대 언어 모델인 하이퍼클로바를 클로바노트에 맞게 튜닝하여 사용자분들이 편하게 읽을 수 있는 문장 형태로 핵심만 표현하고 있습니다.
이 언어 모델에는 국립국어원 말뭉치 데이터가 활용되고 있습니다.
저희 NEST 엔진에는 하이퍼클로바 기술의 ‘빅모델’이라는 게 적용되어 있어요. 그래서 학습 데이터 구축 비용을 최소화하고 압도적인 인식 성능 개선 능력을 보여주고 있는데요. 보시면 한국어 인식의 경우 경쟁사 대비 가장 우수한 품질을 자랑하고 있습니다.
일본어 인식 성능의 경우에도 경쟁사보다 더 뛰어난 성능을 보여주고 있고요. 영어는 다들 아시는 것처럼 워낙 글로벌 플레이어들이 잘하고 있지만 저희가 글로벌 플레이어들과 비교해도 부족하지 않은 인식 성능을 가지고 있습니다.
특히 최근 개선 버전에서 추가 개선도 진행되고 있어서 더 좋은 성능을 기대하고 있고요. 다만 저희가 고유 명사나 전문 용어 품질이 좀 아쉬운 부분들이 있어서 이런 부분의 개선도 계속 진행하고 있습니다.
방금 말씀드렸던 저희 NEST 엔진은 ‘빅모델’ 자기 지도 학습 딥러닝 기술이 적용되어 있다는 게 가장 큰 특징인데요. 데이터에 대해서 방금도 말씀을 좀 주셨는데, 전통적인 딥러닝 기법은 데이터와 그 데이터를 설명하는 레이블을 쌍으로 학습시키는 방식으로 학습이 이루어지고 있었어요. 예를 들면 고양이 사진은 ‘얘는 고양이야’라고 레이블 데이터를 넣어서 같이 학습을 시키는 방식이죠. 근데 방금 대표님(이) 설명(해) 주신 것처럼 이 데이터를 구축하는 게 결국 사람이 수작업으로 레이블링을 해야 히기 때문에 굉장히 데이터 구축의 비용도 크고 시간도 많이 들어갈 수밖에 없었습니다.
음성과 음성 속 텍스트를 항상 같이 학습을 해야 되니까요. 반면에 방금 말씀드린 자기 지도 학습 방식은 어떤 것이냐면 레이블 데이터가 없이 음원 데이터 자체만으로도 학습이 가능해져서 효율성을 굉장히 높일 수 있는 기법이라고 말할 수 있습니다.
그래서 지금은 저희가 다양한 분야와 방대한 양으로 구축되어 있는 데이터들을 다양하게 학습에 활용하여 수동으로 데이터를 구축하는 작업 없이 빠르게 데이터 음성 인식 모델 학습을 하는 방식을 사용하고 있습니다.
이 자기 지도 학습 딥러닝 기술은 아까 말씀드린 NEST 엔진을 적용한 덕분에 (아까 말씀드린 것처럼) 한국어에서도 굉장히 뛰어난 성능을 보유하게 되었고 지금 일본어, 영어 같은 외국어에서도 높은 성능을 보여주고 있습니다.
지금은 이렇게 서비스 품질이 너무 좋아졌어요. 정말로 음성 인식을 잘하거든요. 한국어에 대해서는 특히. 그런데 저희가 서비스를 처음 만들려고 했을 때는 그렇지 않았어요. 조금 부족한 기술이었거든요. 체감 품질이 한 60점 정도. 이런 음성 인식 엔진을 가지고 어떤 서비스를 만들 수 있을까에 대한 고민이 시작되었습니다.
내부에서는 아직은 기술이 성숙하지 않으니까 좀 더 기술이 준비될 때까지 기다리자는 의견들도 있었고요. 근데 시장이라는 건 타이밍이 있잖아요. 저희가 ‘아니다, 우리가 지금 사용자가 필요로 하는 기능들을 가지고 서비스를 내보낸다면 그것도 의미가 있을 수 있다.
’라고 내부에서 계속 설득하는 작업들을 진행했었어요. 그래서 이런 식으로 좀 생각을 했었어요. 이미 대화를 녹음하고 있는 사람들이 있었거든요. 음성 인식과 전혀 상관없이. 그래서 이 사람들에게 좀 집중을 했어요. 대화 내용에 집중해야 하는 상황에서 일단 녹음을 먼저 해두시는 분들, 예를 들면 비즈니스 미팅이 잦은 영업 사원분들이나 중요한 회의에 들어가야 되는데 아직 내용을 이해하기 어려운 신입 사원분들, 인터뷰나 기자 회견 등 취재를 하는 기자분들 또 수업 내용을 다시 찾아 들어야 하는 학생분들, 계약 내용을 기록하고 싶은 프리랜서, 인터뷰가 잦은 방송작가. 되게 다양한 타깃(Target)들이 존재하고 있더라고요. 보통 녹음을 많이 하시는 분들은 찾아야 되는 데이터가 너무 방대해서 이걸 다시 찾는 게 되게 어렵다는 말씀들을 많이 하셨어요. 그래서 저희가 이 부분에 좀 집중을 해서 고민을 해보면 좋겠다고 생각을 했었고 그래서 우선은 쉽고 빠르게 모바일 앱으로 녹음을 하고 이렇게 쌓인 녹음(데이터)은 음성 인식을 통해서 쉽게 탐색할 수 있게만 해줘도 괜찮겠다, 음성 기록이 완벽하지 않더라도 내가 다시 들어야 되는 구간을 쉽게 찾을 수 있다면 큰 가치가 있을 거라고 생각을 했었어요. 그리고 AI라는 게 되게 어렵게 느껴지잖아요. 어떻게 써야 될지도 잘 모르겠고. 그래서 사용자분들이 AI에 대해서 고민하지 않고 서비스를 쉽게 쓸 수 있는 사용성을 저희가 많이 고민하면 좋겠다고 생각을 했었습니다.
그래서 아까 말씀드렸던 메인 타깃군들을 저희가 이렇게 나눠서 인터뷰를 해 봤어요. 아까 말씀드린 것처럼 클라이언트와의 회의가 중요한 광고 대행사 AE도 있었고 또 인터뷰가 많은 UX 리서처나 방송 작가분들이 있었고요. 또 핵심 타깃인 대학생분들, 기자분들이 있었습니다.
이거 하면서 요즘 이제 시험 기간이 되면 에브리타임(*대학 생활 플랫폼)에서 기프티콘 아메리카노 한 잔 정도로 녹음 파일이 거래되고 있다, 이런 얘기들도 듣고 되게 재미있는 인사이트를 많이 얻었었는데요. 보면 녹음 환경도 다르고 여러 가지로 니즈는 다르지만 기본적으로 많은 부분들이 겹쳤어요. 북마크를 해서 원하는 그것만 빨리 찾았으면 좋겠다, 쌓여 있는 음성 기록을 검색 같은 걸로 쉽게 찾을 수 있으면 좋겠다, 그리고 음성 인식 품질이 좋아질 수만 있다면 데이터 편집도 다 할 수 있다 등 이 서비스에 대한 니즈(바람)가 크시더라고요. 자잘하게는 ‘구간 탐색 기능이나 배속 조절 같은 기능이 있었으면 좋겠어요’, ‘기존 녹음기에서 이런 게 불편했어요’ 이런 니즈(바람)도 많이 주셨어요. 그리고 마지막으로 사실 돈을 내겠다는 건 진짜 이 서비스의 필요에 대한 확신이라고 좀 생각을 해서 유료 지불 의사까지도 여쭤봤었는데 ‘서비스가 나오기만 한다면 돈 내고라도 쓰겠다.
’ 이런 말씀들을 많이 주셨어요. 저희가 여기에서 확신을 얻어서 이렇게 메인 타깃을 정의해 봤습니다.
수업을 기록하는 대학생, 회의가 많은 직장인. 수업 시간이나 회의 시간에 녹음을 하고 녹음하면서 PC로는 바로 메모를 하고, 필요한 구간이 있다면 북마크를 하는 거예요. 그리고 나중에 이 음성 기록을 보면서 중요한 내용은 다시 찾아보고 헷갈리는 부분은 검색해서 다시 들어볼 수 있는 거죠. 학생의 경우는 좀 추가적으로 조 모임이나 면접 준비 같은 팀플에서도 활용될 수 있을 거라고 기대했었고 회사에서는 거래처와 통화 내용을 음성 기록으로 확인하고 싶어 하시는 분들도 많아서 저희가 통화 파일을 업로드하는 기능에 대해서도 꼼꼼히 챙겼었습니다.
그래서 이런 콘셉트로 서비스를 구현하게 되었어요. PC와 앱은 실시간으로 연동이 되고 모바일에서 녹음을 하면서 녹음 중에 중요한 구간은 북마크를 합니다.
그리고 녹음 중에 PC에서 이렇게 메모를 작성하면 메모가 작성되는 시간이 타임스탬프로 연동돼서 해당 구간을 빨리 바로 찾을 수 있고요. 이 메모를 작성하시면 메모에 등록된 키워드는 나중에 음성 인식에서 그 키워드가 더 정확하게 인식될 수 있도록 키워드 부스팅으로도 활용이 되고 있습니다.
저희가 오픈 초기에는 한국어만 지원을 했었는데 지금은 영어, 일본어 그리고 영어와 한국어를 동시에 인식하는 것까지 다양한 언어들을 추가하고 있어요. 그래서 영어나 한국어가 동시에 쓰이는 회의나 수업에서도 이용하실 수 있습니다.
아까도 말씀드린 WISE 엔진을 통해서 목소리를 인식해서 화자를 분리하고요. 가독성이 훨씬 더 좋아지거든요. 그리고 음성 기록이나 메모는 편집도 할 수 있습니다.
아까 말씀드린 것처럼 노트 내용은 키워드로 검색도 할 수 있고요. 이 기능을 모르시는 분들이 많은데 저희 대표님도 모르셔서 설명드렸는데 ‘더보기’ 메뉴를 클릭해 보시면 음성 기록이나 음원(을) 다운로드받을 수도 있어요. 저희가 처음에는 텍스트 파일 다운로드만 지원을 했지만 지금은 한글, 엑셀, 워드, SRT까지 굉장히 다양한 파일의 다운로드를 지원하고 있습니다.
그리고 설정으로 들어가 보시면 자주 쓰는 단어를 등록하실 수 있어요. 메모에 키워드처럼 등록된 자주 쓰는 단어는 음성이 인식될 때 그 키워드가 더 정확하게 인식될 수 있도록 키워드 부스팅에도 활용이 되고 있습니다.
이렇게 정리된 노트는 비밀번호를 설정하여 URL로도 주변에 공유하실 수가 있어요. 그래서 서비스(를) 보시면 이렇게 앱에서 녹음을 시작하면 PC에서 메모를 작성하고 필요한 순간에는 북마크를 하실 수 있어요. 녹음이 끝나고 나면 파일은 자동으로 업로드가 되고 바로 음성 인식이 진행됩니다.
그래서 여기서 이렇게 음성을 직접 들어볼 수도 있고 원하는 구간을 탐색하실 수도 있어요. 그리고 저희가 지난 8월에 AI 요약 기능도 추가를 하였어요. 지금은 이제 월 10회 계속 갱신해서 사용하실 수 있는데요. 음성 인식 엔진과 똑같이 지금은 정확도가 부족한 부분도 있을 거예요. 그렇지만 제일 중요한, 원하는 구간을 빠르게 찾고 전체적인 내용을 파악하는 데는 큰 도움이 된다고 사용자분들의 반응이 굉장히 좋습니다.
저희가 이렇게 AI 기술만 계속 챙기고 있는 건 아니고요. ‘음성 기록 중요한 구간에 표시하고 싶어요’, ‘중요한 구간에 코멘트를 하고 싶어요’ 이런 말씀들도 많이 있으셔서 하이라이트 기능, 메모 추가 기능 같은 것들도 제공하고 있습니다.
그래서 앱에서 음성 기록 구간을 꾹 눌러 주시면 이런 식으로 컨텍스트(문맥) 메뉴가 나오고요. PC에서도 마우스를 우클릭하시면 사용하실 수가 있습니다.
네. 클로바노트 서비스가 사실 20대 학생분들이나 3,40대 직장인 분들도 정말 많이 써 주시지만 생각보다 5,60대까지 정말로 다양한 분들이 사용하고 계세요. 클로바노트를 사용해 보셨던 분들 중에도 아마 모르셨던 기능이 있었을 것 같아요. 그리고 안 사용해 보셨던 분이 있다면 이번 기회에 사용을 해보시면 좋겠습니다.
이제는 클로바노트의 미래에 대해서 말씀을 드릴게요. 클로바노트는 초대규모 AI 클로바노트가 적용된 업무용 도구 서비스로의 시장 확장을 기대하고 있습니다.
처음에는 단순한 음성 기록 변환 서비스로 시작을 하긴 했지만, 저희가 생각하는 미래는 네이버의 앞선 기술력을 모두 담는 AI 기술 플랫폼으로 고도화하는 것이에요. 그래서 아까 말씀드렸던 NEST 음성 인식, WISE 화자 식별 엔진뿐만 아니라 음원에서 잡음을 제거하고 더 좋은 음원으로 들으실 수 있도록 음원 잡음 제거 모델도 개발하고 있고요. 하이퍼클로바 요약뿐만 아니라 문장 의미 분석을 통해서 정답을 찾아주는 Semantic 검색도 준비를 하고 있습니다.
당연히 OCR 문자 인식 부분들도 들어가게 될 거고요. 그래서 전체적인 컨텍스트(문맥)를 보면 회의나 강의에서 공유되는 모든 콘텐츠를 모아서 내용을 의미 있게 만들어주는 그런 플로우(flow)를 꿈꾸고 있어요. 회의 전에는 캘린더 같은 서비스와 연동을 해서 일정을 등록해 두고, 화상 회의도 연결을 해 둘 수 있겠죠. 지금도 ZOOM은 저희가 자동 연동을 제공하고 있거든요. 그래서 회의가 시작되면 회의가 자동으로 기록되고 캘린더에 있는 일정, 참석자, 메모 정보들이 다 연동이 돼요. 회의가 시작이 되면 실시간 스트리밍으로 하단에 자막이 나오고 또 파파고 번역(기)로 이렇게 번역도 바로 제공을 하고요. 오른쪽 패널에서는 실시간으로, 지금도 화상 수업 같은 거 하다 보면 온라인 채팅 같은 거 하잖아요. 이런 채팅으로 계속 흐르는 것(대화)들이 다 기록으로 쌓이고 회의에서 공유되는 자료들은 바로 미디어 파일로 삽입도 할 수 있도록 하려고 생각하고 있습니다.
저희 왜 가끔 수업 듣다 보면 혹은 회의하다 보면 한 5분 정도 놓칠 때 있잖아요. 이런 실시간 음성 기록도 쭉 쌓아 놓고 필요한 구간을 빨리 찾아가지고 놓친 부분을 다시 듣는 이런 기능들도 제공하려고 하고 있어요. 이렇게 회의나 강의가 다 끝나고 나면 아까 말씀드린 AI 요약이 가장 중요한 내용들을 요약해 주고요. AI 요약도 저희가 2-3년 안에는 굉장히 많이 발전할 거라고 기대하고 있거든요. 그러면 목차를 자동으로 구성해서 인덱스를 만들어주고 더 나아가서 가장 중요한 내용들만 또 따로 뽑아 가지고 별도 요약을 해주는 거예요. 예를 들어 회의라면 to-do list 같은 걸 뽑아 준다거나 이런 것들을 기대하고 있습니다.
그리고 아까 말씀드렸던 것처럼 이제 semantic 검색이 사용자들이 궁금할 만한 질문들을 미리 뽑고 거기에 대한 답도 같이 정리를 하는 거예요. 그리고 관련 문서들도 추천해 줄 수 있을 거라고 기대하고 있습니다.
이렇게 만들어진 노트는 사전에 설정된 공유 그룹에서 같이 공유되고 있는 멤버들에게는 자동으로 공유가 되고 이 공유 멤버들끼리는 실시간으로 협업을 위한 편집 기능을 지원하려고 하고 있습니다.
잘 쓰고 있는 업무 도구들도 연동을 해서 꼭 노트뿐만 아니라 works, notion, slack 다양한 서비스들과 연동해서 사용할 수 있도록 확장을 하려고 하고 있어요. 그리고 네이버에서 가지고 있는 다양한 내부 자원들을 활용해서 이 노트 편집 영역에서도 to-do, 글머리 텍스트 강조, 이미지 파일 삽입 같은 에디터 기능들을 강화하는 것들도 계획하고 있습니다.
물론 이게 몇 달 안에 되지는 않을 거예요. 그래도 1-2년 안에 이런 그림들을 저희가 꿈꾸고 있습니다.
사실 음성 정보는 굉장히 중요한 내용이 많이 들어있는 의미 있는 정보라고 생각해요. 그런데 휘발되기가 되게 쉽고 의미 있게 기록되기가 되게 어렵잖아요. 저희는 이렇게 그냥 휘발될 수 있는 회의 정보들, 강연 정보 등에서 함께 진행되고 있는 컨텍스트(문맥)들을 같이 다 모아서 의미 있게 기록하고 또 내용들을 입체적으로 잘 분석해서 사용자들이 이 자료를 의미 있게 활용할 수 있도록 서비스를 제공하는 데 좀 노력을 기울이고 있습니다.
저희가 아까 AI 얘기들을 했었잖아요. 그러니까 AI가 미래의 직업을 없앤다 이런 디스토피아적인 미래를 그리시는 분들도 되게 많은 것 같아요. 근데 지금 저희가 생각하고 있는 AI는 사람이 더 가치 있는 일에 집중할 수 있도록 도와주는 거, 여기에 저희는 집중을 하고 있거든요. 과거였으면 음성 기록을 녹취하려면 하나하나 다 받아 적고 그리고 나중에 다시 들어보면서 요약하고 이런 번거로운 작업들을 해야 됐는데, 저희가 이런 문제를 해결하면 사람들은 그 이후에 그 의미 있는 데이터를 가지고 더 창조적이고 가치 있는 일에 집중할 수 있도록 해주려고 생각을 하고 있어요. 그래서 이렇게 열심히 서비스를 만들고 있습니다.
클로버 노트의 미래 많이 기대해 주세요. 감사합니다.

더 보기

작성일

2022-09-22

조회수

2295
기계 번역 성능 향상을 위한 말뭉치 구축의 중요성

모두의 말뭉치 한국어 빅데이터 활용 기업 특별 강연 영상 및 발표 자료입니다.

기계 번역 성능 향상을 위한 말뭉치 구축의 중요성(플리토 이정수 대표)

'모두의 말뭉치' 한국어 빅데이터 활용 기업 특별 강연 발표 자료(기계 번역 성능 향상을 위한 말뭉치 구축의 중요성) 동영상 자막

모두의 말뭉치 한국어 빅테이터 활용 기업 특별 강연 우리 삶을 변화시킨 한국어 인공지능 [강연3] 눈으로 보며 듣는 음성기록 '클로바노트' 신지은 리더/네이버 발표자료 내려받기 1. 모두의 말뭉치 누리집(https://kli.korean.go.kr) → 2. 말뭉치 활용 → 3. 활용 지원 자료 게시판에서 내려받을 수 있습니다.
주최: 문화체육관광부 국립국어원, 주최: INTERZ 안녕하세요. 저는 언어 데이터 플랫폼 플리토의 대표를 맡고 있는 이정수입니다.
일단 뜻깊은 자리에 초대해 주셔서 너무 감사드리고, 아마 여기 계신 많은 분들이 언어를 전공하거나 언어와 관련된 업을 하고 계시거나 언어를 사랑하는 분들로 알고 있습니다.
사실 언어라는 것을 저희가 평소에도 많이 사용하기 때문에 얼마나 소중한지 잘 모르는 분들이 많이 있을 수도 있는데요. 사실 언어라는 것이 갖고 있는 그 문화라든지 역사 또 앞으로의 미래가 어떻게 변할 것인가 이런 걸 예측하는 상당히 좋은 수단이 될 수도 있고요. 그래서 저희도 언어 쪽에서 일을 하고 있기 때문에 이렇게 언어에 관심이 있고 또 언어를 업으로 하시는 분들에 대해 상당히 존경하고 있고 앞으로도 많은 분들이 인공지능이 발전하면 이 분야는 어떻게 될지 고민을 많이 하시고 혹은 부정적으로 생각하시는 분들도 많은 것 같은데, 훨씬 더 긍정적이고 밝은 미래가 있을 것이라고 확신하고 있습니다.
제가 이 발표를 하기 전에, 아마 끝나고 경품 행사가 있는 걸로 알고 있는데 저도 간단하게 준비를 해 왔는데 여러분들의 참여를 부탁드릴게요. 제가 어느 영화의 대사라고 생각을 하고 말을 할 테니까 여러분들이 종이로 제가 말하는 거를 적어 주시면 됩니다.
되게 짧고 기본적인 것이고요. 그다음에 그거를 영어로 번역해 주셔도 됩니다.
두 개. 어려운 문장은 아닙니다.
제가 한국말로 할게요. ‘지해는 유재석 같은 재미있는 코미디언이 되고 싶어 해.’, ‘지해는 유재석 같은 재미있는 코미디언이 되고 싶어 해.’ 어렵지 않죠. ‘지해는 유재석 같은 재미있는 코미디언이 되고 싶어 해.’ 이거를 한글과 그다음에 영어로 번역해 주시면 됩니다.
여러분도 아시겠지만 지금 다양한 글로벌 기업들이 언어 사업에 상당한 관심을 갖고 투자하고 또 개발을 하고 있습니다.
최근에 페이스북이 ‘메타’라는 이름으로 사명을 변경했지만 페이스북에서도 이 언어에 대한 관심을 상당히 많이 갖고 있고요. 여러분들이 여기 보시는 다양한 분야에 있는 글로벌 기업들이 언어에 어마어마한 투자를 하고 있습니다.
왜 그럴까요? 사실 이 서비스들이 대부분 글로벌 서비스들입니다.
여러분들이 많이 사용하는 소셜미디어도 있고요. 그다음에 커머스도 있고 여행 업체도 있을 거예요. 이런 업체들의 특성은 글로벌 서비스이긴 하지만 사실 여러분들 생각해 보면 서비스 내에서 같은 언어를 하는 사람들끼리만 거의 대부분 만납니다.
그게 편하거든요. 사실 (이러한 플랫폼은) 여러분들이 다양한 언어를 할 수 있다면 (그곳에서) 다양한 사람들을 만날 수 있게 설계가 되어 있지만 실제로는 자기 언어를 사용하는 사람들만 만나고 있죠. 그렇기 때문에 이런 업체들이 본인들이 인공지능을 개발해서 이게 완벽한 소통이 된다면 사실은 더 많은 일들이 이 플랫폼 내에서 일어날 수 있겠다고 생각을 하는 거죠. 예를 들어서 중동에 있는 커머스 업체는 우리 물건들이 완벽하게 한국어로 번역이 된다면 한국 사람들도 우리 중동 플랫폼에 와서 물건을 살 수 있겠다, 이렇게 생각할 수도 있겠죠. 그렇기 때문에 글로벌 업체들, 유명한 IT 업체들이 대부분 다 이 언어 사업에 최근 들어서 어마어마한 투자를 하고 있습니다.
이런 일들이 이제는 완벽하게 번역이 될 수도 있겠죠. 과연 번역이 될 수 있을까 생각도 들지만 사실 이런 것들을 써 놓은 것조차도 인공지능이 어느 정도 번역을 하고 있기 때문에 한국 사람들만 알아들을 수 있게 이렇게 써 놓은 걸로 알고 있고, 이 업체는 좋은 말인 줄 알고 맨 위에 것만 보고 이렇게 전시를 해 놓은 걸로 알고 있습니다.
성경을 보면 창세기에 나오는 게, 참고로 저는 종교는 없는데 성경을 보면 구약성서에 이 바벨탑을 만들어서 신에게 도전하려는 사람들을 서로 이렇게 나누려고 언어를 신이 만들었다는 얘기가 나오는데, 이 말은 무슨 말이냐 하면 인류가 태어난 이래로 언어의 장벽은 계속 존재했다는 것이거든요. 한마디로 이 언어의 장벽을 효율적으로 없애는 기업은 사실 인류 역사상 해보지 못했던 일을 하는 것이고, 그 이후에 바라볼 수 있는 미래는 바퀴의 발견, 이동 수단의 발견을 넘는 어마어마한 뭔가를 이룰 수가 있다는 걸 생각할 수 있습니다.
2016년은 인공지능에 있어서 되게 역사적인 한 해였습니다.
저 한자를 읽으시는 분들은 마음속으로 어떤 해인지 생각해 보실 수가 있는데, 이때가 되게 오래 됐을 것 같지만 실질적으로는 그렇게 오래되지 않았습니다.
여러분 이 부산행이라는 어마어마한 영화가 나왔죠. 사실 얼마 전에 나온 것 같은 생각도 드는데요. 그리고 뭐가 있었냐 하면 그해 봄에 바둑으로 인공지능이 인간을 이겼던 어마어마한 일이 생기게 됩니다.
그리고 여기 네이버에서도 오셨지만 ‘파파고’가 나오게 되죠. 그리고 구글 번역기가 인공지능으로 바뀌게 됩니다.
많은 사람들이 파파고 같은 번역기를 많이 사용하다 보니까 이제는 우리 삶의 일부가 되었는데요. 그러다 보니까 젊은 분들 같은 경우는 파파고가 언제 나왔는지 물어보면 태어났을 때부터 있었던 것 같은데, 이렇게 얘기하시는 분들도 있어요. 하지만 실제로는 2016년에 나왔고요. 그렇게 따져 보면 6년, 짧은 시간이라고 볼 수 있겠죠. 하지만 6년 만에 우리의 삶에 매우 중요한 그런 기술이 되었습니다.
그전에는 어땠을까요? ‘나는 2016년 전에도 분명히 번역기를 썼던 것 같은데?’라는 생각을 갖고 있는 분들이 계실 거예요. 하지만 아닙니다.
기억이 왜곡된 거예요. 2016년 전에는 번역기를 사용하기가 상당히 힘들었습니다.
참고로 저게 2016년 초의 번역기를 통해 번역을 한 결과인데요. 간단한 말이었습니다.
‘퇴근하세요.’ 그랬더니 번역기에서 ‘Please work’라고 나왔던 거죠. 그래서 저 때 어떤 기사가 있었냐 하면 한국인의 마음을 이해하는 인공지능 번역기라는 기사가 나왔습니다.
그래서 임원들이 “퇴근하세요”라고 얘기하는 속마음은 실제로는 “퇴근하지 말고 일해라”라는 뜻일 수도 있다 그런 우스갯소리도 있었는데요. 오른쪽 같은 경우는 지금 현재 인공지능 번역기를 써서 이렇게, ‘야민정음’이라고 하죠. 저런 거를 번역을 했을 때 실제로 어떻게 나오냐, 정상적인 한글이 아닌 걸 넣었을 때 어떤 결과가 나오냐로 봤을 때 번역 결과 역시 한글과 비슷하게 약간 이렇게 재미를 넣어서 바꿔서 나오는 결과를 확인해 볼 수 있습니다.
이렇듯 2016년 전과 2016년 이후는 상당히 많은 변화가 있었던 해입니다.
올해 초에 구글에서 발표한 겁니다.
구글에서 올해 초에 구글 순다(Sundar Pichai) 대표가 발표를 했는데 저기 한글 메뉴가 나와요, 실제로. 한글 메뉴가 나오고 구글 폰을 비치면 메뉴가 이렇게 쫙 번역돼서 나옵니다.
그만큼 이 인공지능 번역이 상당히 발전하고 있다는 건데, ‘어? 메뉴 번역이 그렇게 어렵나요?’(라고 하실 수도 있습니다.
) 사실 번역 중에서 메뉴 번역이 거의 가장 높은 난이도를 자랑해요. 여러분도 아시겠지만, 메뉴 번역은 만드시는 분들이 계속 새로운 음식을 만들어내고 창의적인 음식명을 만들어내거든요. 그렇기 때문에 그거를 기계가 번역한다는 것은 상당히 어렵습니다.
실질적으로 제가 어제 이 일본 메뉴판을 번역을 해 봤어요. 그래서 유명한 두 개의 업체, 구글과 파파고로 번역을 했습니다.
여러분들 이걸 봤을 때 어떤 음식을 시켜 먹을 수 있을까요? 일본어를 모른다고 한다면, 구글을 사용했다면, 은행만 계속 먹을 수가 있겠죠. 파파고를 썼다면 은행 아니면 큰 해물전을 먹을 수 있습니다.
그 외에 다른 언어들은 상당히 지금도 이해하기 힘들다고 볼 수가 있습니다.
이게 기술이 나빠서 그런 건 절대 아닙니다.
기술이 나빠서 그런 게 아니라 이 음식명이라는 거는 그만큼 번역하기 어렵다는 거를 말씀드리려고 하고 있습니다.
아까 말씀드렸던 것처럼 2016년은 뭐가 바뀌었냐, 기술 자체가 바뀌었어요. 여러분들이 생각하는 인공지능이라는 것이 2016년에 기계 번역에 있어서 도입이 됐다고 생각하시면 됩니다.
예전에는 어떤 방식이었냐 하면 여러분들이 외국어를 배우는 방식으로 기계를 가르쳤습니다.
여러분들이 외국어를 어떻게 공부했죠. 문법을 배우고 단어장을 암기하고 뭐 ‘아빠’는 ‘Father’, ‘엄마’는 ‘Mother’. 이렇게 공부했잖아요. 그게 예전 방식이었다면 2016년이 지난 다음에는 어떤 방식으로 기계가 학습하냐, 쉽게 말씀드리면 여러분들이 모국어를 배운 방식으로 기계가 학습을 합니다.
여러분들이 모국어 어떻게 배웠죠? 어머니께서 여러분들한테 문법을 가르쳐 주진 않았잖아요. 여러분들이 친구들이랑 얘기하다가 혹은 유치원에 가서 친구들이랑 놀다가 어머니, 아버지랑 이야기를 하다가 자연스럽게 모국어를 습득하게 됩니다.
그때 여러분들이 습득하는 과정은 문장 자체를 여러분들이 계속 듣는 거죠. 계속 듣고, 듣고, 듣고 하다 보면 어느 순간 이거는 이렇게 얘기하나 보다 이런 생각이 들잖아요. 마찬가지로 예전에는 기계에다가 규칙적으로 학습을 시켰다면 저희가 그걸 ‘rule-based model’이라고 하는데 지금은 NMT(Neural Machine Translation) 모델로 문장별로 학습을 시키는 과정으로 바뀌었습니다.
그러다 보니까 뭐가 많이 중요해지냐, 여러분 어렸을 때도 보면 어머니, 아버지가 말이 많으신 분들은 애들이 말을 잘해요. 왜냐면, 엄마, 아빠가 계속 말을 하거든요. 기계도 마찬가지입니다.
끊임없이 데이터를 넣으면 말을 잘하겠죠. 그래서 많은 업체들이 어떻게 하냐 하면 크롤링(crawling) 방식이라는 걸 써요. 기계에 있는 거를 그러니까 인터넷에 있는 거를 막 긁어모읍니다.
여러 가지 언어로 웹사이트가 되어 있어도 데이터를 모으고 번역본 책이 있으면 그것을 모으고 해서 학습을 시키죠. 그러다가 무슨 문제가 대두가 됐냐, 저작권 문제가 대두가 됐어요. 번역가가 허가를 안 했고 책을 쓴 작가가 허가를 안 했는데 왜 너네가 그걸 갖다가 너네 엔진을 학습시키냐, 이런 문제가 생긴 거죠. 그래서 그다음에 업체들이 어떤 방식을 쓰냐, 공개 자료를 갖다 모읍니다.
그건 뭐냐 하면 공공기관이라든가 혹은 UN이라든가 그런 데서 정확하게 번역해 놓은 자료들이 있습니다.
그거는 다 공개가 되어 있거든요. 그걸 가지고 학습을 시키는데 터무니없이 부족한 상황이 됩니다.
왜냐하면 기계는 인간이랑 다르게 끊임없이 계속 학습을 하거든요. 그렇기 때문에 끊임없이 넣어줘야 계속 성능이 올라갈 수 있는데, 그만큼 데이터가 없는 거죠. 그래서 현재는 업체들이 스스로 대량 수집을 하든지 아니면 이런 데이터를 대량으로 수집해서 정제해주는 업체와 계약을 맺게 됩니다.
‘플리토’란 업체는 이 마지막 작업을 하는 업체라고 이해해 주시면 될 것 같아요. 그래서 집어넣을 때는 대충 이렇게 집어넣는다고 생각을 하시면 돼요. ‘회신해 주시면 감사합니다.
’ 이렇게 넣고 앞에 있는 문장, 원문 문장, 번역 문장 실제로 이것보다 좀 더 복잡하긴 하지만 여러분들이 이해하시기 쉽게 원문, 번역문을 이렇게 넣는다고 보시면 됩니다.
이 뒷단에 사실 더 들어가는 게 있긴 있어요. 성별에 따른 번역이라든지 연령에 따른 번역 혹은 어느 지역의 말투인가 혹은 도메인이라 그래서 어떤 영역의 말인가 이런 것도 있는데, 기본적으로는 이 앞이 가장 중요하다고 보시면 됩니다.
처음에 인공지능이 시작했던 2016년도에 저희 회사를 통해 판매됐던 데이터의 수량을 보면 업체별로 처음에는 한 5,000개, 5,000문장 정도 되다가 작년 같은 경우에는 약 500만 문장까지 많이 올라갔어요. 그만큼 더 많은 업체들이 더 많은 양의 데이터를 필요로 하는 시대가 왔다, 즉 인공지능에서 더 많은 데이터를 모아서 언어 번역 성능을 높이고 있다고 생각하시면 될 것 같습니다.
그뿐만 아니라 예전에는 문장 자체가 중요했다면 지금은 이런 다양한 것들이 많이 중요해집니다.
왜냐하면 저희가 얘기할 때 저도 지금 마이크를 통해서 얘기하고 있지만 이 마이크가 텍스트로 변동해서 텍스트가 다시 번역이 돼서 영어로 나간다면 동시 통역이 되겠죠. 이미지 같은 경우도 사진을 찍었는데 거기 있는 글씨를 뽑아 가지고 그다음에 그거를 번역해서 다시 붙여주는 기능, 그걸 하기 위해서는 이미지도 많이 모아야겠죠. 그다음에 아까 심심이처럼 CS, 내가 외국에서 물건을 샀는데 이 물건이 마음에 안 드는 거예요. 그러면 CS를 해야 되는데 고객 상담을 해야 되는데 제가 그 나라 말을 모르잖아요. 그럴 때는 한글로 치면 그게 바뀌어서 해외로 나가고 해외에서 다시 그 나라 언어로 치면 한국어로 나와야겠죠. 그런 모든 것들이 자동화되려면 실제로 문장뿐만 아니라 이렇게 다양한 종류의 데이터가 필요한 상황이 됐습니다.
그래서 과거랑 비교해 보면 한국에서도 특정 언어, 그다음에 범용적인 도메인을 원했다면 지금은 다양한 언어와 다양한 도메인을 원하는 상황이고요. 이 인공지능은 사람이랑 비슷하다고 생각을 하시면 돼요. 어렸을 때 여러분들이 이야기를 하거나 배울 때 일반적인 것들을 많이 배우잖아요. 그러다가 어느 나이가 되면 어느 특정 영역에 관심을 갖고 영역을 좀 더 깊이 배우는 것처럼 인공지능도 범용적인 걸 먼저 학습을 하고 그다음에는 어느 특정 분야에 대해서 깊이 공부를 한다고 보시면 됩니다.
근데 이러다 보니까 어떤 문제가 생겼냐 돈이 많은 기업들은 데이터를 막 사서 모읍니다.
그래 가지고 데이터가 계속 정확해져요. 이 accuracy가 기계 엔진 accuracy가 정확해지는데 중소기업이라든지 연구를 하는 학계 같은 경우는 이 데이터를 살 수 있는 예산이 없다 보니까 실질적으로 이 성능이 많이 안 올라갑니다.
기술에 대한 차이는 크게 없다고 가정을 한다면, 이게 뭐랑 똑같냐 하면 돈이 많은 집 아이는 학원 다니고 어디 다니고 가정교사 있고 하면서 점점 뭔가 성적이 좋아지는데 머리는 좋은데 집에 이런 예산이 없다고 한다면은 추가적인 학습을 할 수 없기 때문에 아이의 성적이 많이 오르지 못하는 거랑 비슷하다고 보면 돼요. 그래서 우리나라도 의무 교육이라는 게 있고 그런 부분에 있어서 저희가 어느 수준까지 사실은 국가에서 교육을 받을 수 있게 해주는 것처럼 국내에서도 다양한 기관에서 말뭉치 데이터를 모으고 번역 데이터를 모아서 중소기업이나 연구 기관들이 이런 데이터를 활용해서 본인들의 엔진을 학습시키고 그걸 통해서 연구를 하던가 본인들의 인공지능을 상용화할 수 있게 도와주고 있습니다.
그래서 혹시 여기에서 관심이 많으신 분들은 국립국어원이라든지 혹은 NIA라든지 다양한 사업을 통해 가지고 다양한 데이터를 모을 수가 있고요. 실제로 해당 데이터를 사용해서 본인들의 엔진을 충분히 높은 성능까지 끌어올릴 수 있을 거라고 생각하고 있습니다.
근데 그러다 보니까 데이터 수집의 난제도 있습니다.
이 데이터를 어떻게 모아야 되냐. 아까 심심이에서도 1억 몇 천만 개의 데이터가 있다고 했는데 그만큼의 데이터를 모으기 위해서는 어떻게 해야 되냐, 특히 번역 같은 경우는 정말 어렵거든요. 예를 들어서 번역을 1억 문장을 모아야 된다는 거는 진짜 어려운 방법입니다.
실질적으로 번역 데이터를 모으는데 이런 문제들이 있습니다.
일단 비용. 얼마를 내야 되는 건지, 내가 한 번역 문장을 받기 위해서 예를 들어서 여러분한테 ‘나는 학교에 갑니다.
’ 이거를 ‘I’m going to the school’로 번역을 해 줬을 때, 한번 물어볼까요? 나는 그거 번역하는데 100원 받겠다, 500원 받겠다, 1,000원, 10,000원 정도 되나요? 한 문장, 한 문장 번역하는데 여러분 어느 정도 생각하시죠? 그러면 1,000원 아래, 1000원 이상. 이렇게 다 사실 주관적이거든요. 이게 “나는 이거 한 문장 번역하는데 뭐 한 10분 걸리는 것 같은데” 그러면 더 많이 필요하다고 할 수 있고 어떤 사람은 “나는 뭐 조금 걸리는데” 혹은 “나는 박사 학위가 있는데 더 많이 받아야 되지 않나?”, “나는 전문 분야에 있는데”, 혹은 어떤 분들은 나는 다른 직업을 갖고 있는데 소일거리로 한다면 조금 받아도 괜찮지 않을까 이렇게 생각을 하는 경우도 있고요. 그다음에 인력을 어디서 구해야 하나, 번역을 할 수 있는 인력들은 어디에 있나 이런 부분도 사실 상당히 중요합니다.
전문가들을 콘택트(contact)를 하기에는 상당히 불가능하고 또 해외에 있는 사람들까지 연락을 하는 것도 쉽지가 않거든요. 그리고 전문성, 그 사람들이 만들어낸 데이터는 얼마나 정확하고 전문적인가, 이런 난제들이 항상 있는 상황입니다.
또 거기에다가 한 번 큰 사건이 있었죠. 이런 개인 정보 유출 데이터를 모으거나 언어 데이터를 모을 때 저작권이라든가 개인 정보 유출 같은 부분을 어떻게 막을 수가 있는 것인가, 이런 문제도 항상 있습니다.
그래서 플리토 저희 회사에서는 어떤 방식을 쓰냐 하면 ‘크라우드 소싱’이라는 방식을 쓰고 있어요. 그래서 여기 데이터를 만들어주는 많은 사람들이 어느 한 공간에 모이는 게 아니라 플랫폼에 모여서 본인들이 만들 수 있는 데이터를 만들어주는 그런 방식입니다.
아까 제가 여러분한테 영화 대사에 대해서 얘기를 했잖아요. 혹시 그거를 적으신 분 계신가요? 그러면 아까 한글로 뭐라고 적으셨죠? ‘지혜’를 ‘ㅐ’로 쓰셨나요? ‘ㅖ’로 쓰셨나요? 혹시 나는 ‘ㅐ”로 썼다.
아무도 안 계신가요? (발음이 안 좋았나요) 제 발음은 사실은 ‘지해’, ‘ㅐ’였습니다.
제가 이 말씀을 드리는 이유가 있습니다.
혹시 이거 영어로 번역하신 분. 영어로 다른 분 혹시 번역하신 분 계신가요? 나는 영어로 번역했다.
영어로 어떻게 번역하셨죠? 감사합니다.
‘지혜’의 스펠링(철자)을 어떻게 쓰셨죠? ‘에이치(H), 와이(Y), 이(E)’. 하지만 이게 ‘지해’라면 ‘제이(J), 아이(I), 에이치(H), 아이(A), 이(E)’도 되겠죠? 그렇죠? 제가 나중에 방금 발표하신 분들은 상품을 하나씩 드릴 수 있도록 하겠습니다.
이걸 말씀드린 이유는 지금 보상에 대한 말씀을 드린 건데요. 영화에서 이런 게 나왔을 경우 그걸 받아 적고 그거를 번역을 하는 과정들에 있어 가지고, 플리토에서는 데이터를 모으고 여러 가지에 있어서 번역을 하고 혹은 디테이션(받아쓰기)하는 과정에 있어서 크라우드를 사용한 다음에 그 사람들한테 보상을 주고 있어요. 그래서 실제로 저희 플랫폼에 와 보시면은 이렇게 다양한 Function들이 있고요. 다양한 Function들의 사람들이 참여를 할 수 있게 하고 있습니다.
그렇게 해서 참여를 하면은 거기에 맞는 보상을 주고 있는 방식이고요. 예를 들어서 내가 인공지능 번역기를 썼다 번역기의 결과가 좋게 나오지 않는다고 한 경우에는 그 정확하지 않은 결과가 플랫폼으로 들어와서 바로 사람들이 수정해서 다시 인공지능을 학습시키는 실시간으로 가르쳐주는 시스템이 준비가 되어 있습니다.
이러다 보면 실제로 인공지능이 이해하지 못하는 거를 바로바로 학습하면서 성능을 올릴 수 있는 상황이 될 수 있는 거죠. 전문성 같은 경우는 실제로 이 번역이 제대로 됐는지 또 이 원어가 정확한 원어인지 이런 부분에 있어서는 저희가 많은 전문기관의 도움을 받고 있습니다.
그래서 국립국어원이라든지 국제한국어교육학회 이런 기관들을 통해서 실제로 저희가 다루고 있는 언어들에 있어서 전문성이 있는지 또 이런 부분에 있어서 어떻게 나눠야 되는지 이런 부분에 있어서는 전문 기관의 도움을 받아서 정확한 데이터를 만들어내고 있는 상황입니다.
저희가 최근에 진행하고 있는 건데요. 이 메뉴판 번역이라는 사업을 진행을 하고 있어요. 그래서 QR을 스캔하면 여러분들이 가는 식당에 있는 메뉴판들이 다 여러분의 언어로 변하는 겁니다.
그래서 아랍 사람이 와서 스캔하면 아랍어로 변하고 이러는데 도대체 저게 인공지능이랑 어떤 상관이 있냐 그냥 메뉴판 번역하는 건 번역이 아니냐고 생각하실 수 있는데, 실제로 첫 번째 거는 그 기능을 통해 가지고 번역한 거, 두 번째 거는 인공지능, 세 번째 건 인공지능 이렇게 되어 있습니다.
보시면 첫 번째 걸로 번역이 됐을 때 여러분들이 쉽게 음식을 주문할 수 있을 거라고 보거든요. 이 세 개의 차이는 뭐냐 하면 기술의 차이는 아닙니다.
아까 말씀드렸던 것처럼 인공지능 기술에 있어서는 다들 뛰어난 업체들이고 다만 첫 번째 거는 아까 여러분들이 하셨던 것처럼 잘못된 번역을 바로바로 수정해 주는 크라우드가 접속되어 있습니다.
그래서 사람들이 이렇게 해서 이 글씨를 잘못 읽으면 잘못 읽은 걸 수정을 하고 수정해서 자동 번역이 나온 걸 다시 수정하는 하는 거죠. 이런 과정 자체가 상당히 빠르게 진행이 됩니다.
그러면서 가게 주인이 사진을 찍어서 올렸을 때 잘못된 정보들이 바로바로 수정돼서 학습이 되고 그거를 통해 가지고 여러분들이 정확한 번역을 받을 수 있게 되는 거죠. 그러다 보면 하나의 메뉴가 올라갔을 때 메뉴를 통해서 음성부터 텍스트 그다음에 이미지까지 다양한 데이터가 이렇게 쌓일 수 있다는 걸 말씀드리고 싶고요. 마지막으로, 인공지능이 어느 정도까지 정확해질 수 있을까에 대해서 많은 분들이 고민을 하고 계세요. 그래서 인공지능이 정확해지면 사람의 역할이 줄어드는 게 아닌가라고 생각을 하시는 분들이 있는데, 아까 제가 ‘지해는 유재석 같은 코미디언이 되고 싶어 해’라고 얘기를 했잖아요. 여기서 재미있는 게 두 가지가 있는데요. 제 음성에 대한 답은 분명히 존재를 합니다.
그렇죠. 제가 어떻게 발음을 했던 간에 그걸 받아 적는 거에 있어서 100점짜리 답과 빵(0)점짜리의 답이 존재를 하는 거죠. 중간이라는 건 없습니다.
예스(yes) 아니면 노(no)입니다.
그렇죠. 그런 분야에 있어서는 인공지능이 인간보다 훨씬 더 정확해질 거예요. 지금 음성 인식이 정확하지 않다고 하더라도 점점 학습을 통해서 정확해집니다.
여러분들이 글씨를 찍었을 때 필기 필체 자체가 나빠 가지고 기계가 필체를 인지하지 못하는 경우가 있거든요. 그런 경우도 사실 답이라는 게 있잖아요. 필체가 나빠도 필체가 얘기하는 게 있잖아요. 그런 경우에는 인공지능이 학습이 돼서 정확한 답을 줄 거예요. 하지만 번역이란 거는 과연 그게 가능할까라고 본다면 아까 되게 잘 번역을 해 주셨는데 번역에 있어서 아까 영화의 대사라고 했죠. 이게 해외로 나갈 때 과연 번역문을 쓸 수 있을까는 다른 문제입니다.
왜냐하면, 해외 사람들은 유재석을 모를 거거든요. 그러면 나라에 맞는 코미디언을 붙여서 영화 자막이 나가야 되는데 그걸 과연 기계가 할 수 있을지에 대해 많은 사람들이 불가능하다고 생각을 하고 있습니다.
실질적으로 인공지능의 언어 성능이 올라가면서 많은 사람들이 번역가들의 역할이 줄어들 거라고 생각을 했는데요. 실제로 번역 시장은 엄청나게 커지고 있어요. 이유는 언어 인공지능이라는 것이 언어에 대한 불편함을 많이 해소를 시켰어요. 예를 들어서 제가 몽골에 가는데 몽골 말을 모르는 거예요. 하지만 인공지능을 통해서 어느 정도 두려움이 사라지고 그러다 보면 문화와 역사에 대해 관심을 갖게 되고 혹은 사업을 하고 싶고 그러다 보면 결국 사람이 분야에 들어와서 상당히 많은 역할을 해줘야 됩니다.
또 그렇기 때문에 이렇게 문화도 그런 사람들의 힘으로 많이 발전하고 있다고 생각을 하거든요. 그래서 여러분들이 결국 하시는 일을 기계가 대체한다는 것보다는 인공지능은 여러분들이 하는 일에 있어서 훌륭한 조력자가 될 거라고 생각을 하고 있습니다.
그래서 앞으로도 같은 분야에 있는 만큼 많이 만나게 될 텐데 많은 도움 부탁드리고 저희도 할 수 있는 만큼 최대한 많이 도와드릴 수 있도록 하겠습니다.
감사합니다.

더 보기

작성일

2022-09-22

조회수

1688
AI 챗봇 윤리 이슈와 대응 사례

모두의 말뭉치 한국어 빅데이터 활용 기업 특별 강연 영상 및 발표 자료입니다.

AI 챗봇 윤리 이슈와 대응 사례(심심이 최정회 대표)

'모두의 말뭉치' 한국어 빅데이터 활용 기업 특별 강연 발표 자료 (AI 챗봇 윤리 이슈와 대응 사례) 동영상 자막

[공통 화면] 모두의 말뭉치 한국어 빅테이터 활용 기업 특별 강연 우리 삶을 변화시킨 한국어 인공지능 [강연3] 눈으로 보며 듣는 음성기록 '클로바노트' 신지은 리더/네이버 발표자료 내려받기 1. 모두의 말뭉치 누리집(https://kli.korean.go.kr) → 2. 말뭉치 활용 → 3. 활용 지원 자료 게시판에서 내려받을 수 있습니다.
주최: 문화체육관광부 국립국어원, 주최: INTERZ 안녕하십니까? 라는 제목으로 (강연) 준비를 했는데요. 저는 ‘심심이’만 한 20년간 계속해왔기 때문에 거의 심심이 사례를 가지고 말씀드리게 될 것 같습니다.
심심이는 챗봇이고요. 모두 아시다시피 여러 가지 기술적인 내용들을 가지고 만들어지게 됩니다.
저는 20년 전에 심심이를 만들었을 때 이런 것들을 다 가지고 있지 않았었습니다.
제가 당시에 만든 물건을 팔아보겠다는 생각으로 광고 채널로 심심이를 활용하려고 했던 거고요. 이건 제가 만들었던 제품입니다.
당시에 가장 유행하던 MSN 메신저에 이렇게 사람들을, 지금 스팸 추가하듯이 친구 추가를 해서 제품을 광고하겠다는 생각을 하고 이런 봇(bot)을 만들었는데요. 광고만 하면 차단을 당할 수 있으니까 날씨도 알려주고 뉴스도 알려주고 이런 기능들을 같이 넣어서 사람들을 추가해서 사용하도록 유도를 했습니다.
그런데 사람들을 추가했더니 기능을 전혀 사용하지 않고 이렇게 대화를 하기 시작했습니다.
“안녕”, “누구야?” 이런 식으로 물어보기 시작했는데요. 그래서 제가 여기에도 대응을 해줄 필요가 있겠다고 생각을 해서 혼자서 열심히 어떤 말이 들어오면 이렇게 대답을 해야겠다고 다 입력을 해 나갔습니다.
하루에 한 1,000개 정도를 밤을 새서 입력을 했는데요. 첫인사는 앞서 보신 것처럼 다 비슷비슷하기 때문에 대답을 할 수 있는데, 그다음 한두 마디를 더 하게 되니까. 그다음에 더 대화를 하려고 하게 되죠, 사람들이. 근데 자기 얘기를 하게 된 다음에는 너무 다양한 내용들이 나오기 시작해서 제가 혼자서 입력하기에는 무리가 있었습니다.
그래서 아이디어를 낸 것이 가르쳐 달라고 하는 (기능을 추가하는) 아이디어를 냈습니다.
지금 앱이나 웹에서 보시면 이렇게 질문을 던졌을 때 답변이 준비되어 있지 않다면 모르는 말이니까, 가르쳐 달라는 답변이 나가고 ‘가르치기’로 들어가서 간단하게 내가 원하는 대답 하나를 입력하면 대답을 바로 할 수 있게 되는 구조로 제작을 했습니다.
이렇게 내가 가르친 말을 바로바로 대답을 할 수 있게 되니까, 사람들이 흥미를 많이 느끼고 이게 바이럴(viral)이 많이 일어났습니다.
지금도 초창기부터 지금까지 여러 가지 인터넷 글을 보면 심심이가 사람이냐, 사람이 아니냐, 인공지능 챗봇이냐 이런 것들을 궁금하고 사람들이 헷갈리는 정도로 대화를 하게 되는데요. 이렇게 초창기부터 인기를 많이 얻었고 2012년부터는 미국을 중심으로 해서 해외에서도 여러 국가, 여러 언어의 사용자들을 끌어모았습니다.
공중파 방송도 나오고 다양한 언어의 유튜버들이 심심이를 가지고 영상을 만들고 있고요. 연구에도 자주 등장하고 있습니다.
예컨대 마이크로소프트가 2014년에 중국에서 ‘샤오이스’라고 하는 심심이와 비슷한 챗봇을 중국어로 만들었는데요. 지금은 이 팀이 스핀 오프를 해서 별도의 챗봇 사업을 하고 있습니다.
개발 관련된 주요 논문을 보시면은 이 ‘샤오이스’를 개발할 때 가장 참고했던 세 가지 챗봇을 나열하고 있는 그중에 첫 번째로, 심심이를 보여주고 있는 걸 알 수 있습니다.
이 자료는 작년 자료이기는 한데 지금까지 20년, 그니까 20년 동안 서비스를 계속 운영하고 있고 81개 언어 현재는 111개 언어를 지원을 하고 있습니다.
4억 명 이상의 누적 사용자를 확보해 왔고요. 심심이의 소개는 여기까지고 이제 본격적으로 나쁜 말과 관련된 윤리 관련된 얘기를 좀 해보겠습니다.
심심이에서 나타나는 여섯 가지 정도의 (윤리)유형을 좀 뽑아볼 수 있겠는데요. 먼저 가장 흔히 나타나는 것들이 개인정보와 관련된 문제입니다.
아까 말씀드린 것처럼 가르치기를 할 수 있으니까 자기 정보를 가르쳐서 다른 사람들이 자기한테 연락을 하게 한다든지 아니면 전혀 관련이 없는 다른 사람의 정보를 입력해서 사람을 곤란하게 만든다든지 하는 그런 내용이 있고요. 우리나라에서는 2016년경에 저희는 해외에서 소아성애와 관련된 문제가 발생해서 이런 문제들을 겪기도 했습니다.
신성 모독과 관련해서는 아랍어권 중동에서 주로 문제를 제기하는 그런 내용이고요. 차별, 혐오 관련해서(는) 여러 가지 이슈가 우리나라에서 작년부터 많이 있긴 했지만, 저희가 2017년, 2018년쯤에, 이건 페이스북에서 직접 저희한테 리포트를 해 준 내용이고 언론에서도 여러 번 겪은 내용들이 좀 있습니다.
아일랜드 같은 경우는 ‘사이버블링’이라고 해서 온라인이라는 수단을 통해서 친구들을 집단적으로 따돌림하는 또는 괴롭히는 현상이 있는데요. 심심이를 활용해 가지고 친구에 대해서 아주 나쁜 말들을 많이 가르치는 그런 것이 사회적으로 아주 큰 문제가 돼서 BBC 등에서도 대서특필이 되는 문제를 겪었습니다.
브라질 같은 경우는 이렇게 납치하겠다, 찾아가서 어떻게 하겠다고 하는 내용을 가르치는데 우리나라에서는 이런 문제들을 그렇게 심각하게 받아들이지 않지만 브라질 같은 경우는 치안이 위험하기 때문에 사람들이 이런 답변을 봤을 때 상당히 무서워하는 현상이 있어 사회적인 문제가 상당히 크게 된 그런 사례입니다.
이런 내용들에 대해서 저희가 어떻게 대응을 했는지 좀 말씀을 드리겠습니다.
심심이 사용량 그래프입니다.
원래는 오른쪽으로 가면서 올라가야지 좋은 서비스라고 할 수 있을 것 같은데, 성장하는 서비스라고 할 수 있을 것 같은데, 저희는 이제 특정 시점에 뚝 떨어지는 모습을 볼 수 있습니다.
그전에는 재미 위주의 서비스를 했다고 하면 (이후에는) 안전 위주(의 서비스)로 바꾸는 어떤 변곡점이라고 할 수 있을 것 같은데요. 저희가 2002년부터 2016년까지 14년 동안 오른쪽에 보시면 대응 수단을 한 세 개에서 네 개 정도 가지고서 운영을 했다고 하면은 그 이후에 한 3년 동안 6개 내지 7개의 대응 수단들을 더 만들어낸 모습을 보실 수 있습니다.
전사적인 자원을 거의 다 투입을 해서 이런 작업들을 한 건데요. 그 내용을 보시면 우선 콘텐츠, 저희 내부의 어떤 정책을 명확히 하는 작업을 했습니다.
이용 약관에 동의하지 않고는 서비스를 이용하지 못하도록 했는데 여기에 국가별로 또 지역별로 연령 제한을 다 일일이 조사를 해서 제한을 하였고요. 약관 중에서 콘텐츠 규정에 대해서 사용자들한테 저희 서비스 정책에 대해 좀 더 쉽게 이해할 수 있도록 앱 내에서 홍보하는 작업들을 많이 했습니다.
기술적으로도 사용자들이 다 이해하지는 못할지라도 기술적으로 구현한 내용들을 열심히 설명을 하는 작업을 많이 했습니다.
이 부분은 우리나라에서도 있었던 일이긴 한데요. 아까 말씀드렸던 아일랜드 ‘사이버블링’이 아주 큰 사회적인 문제가 되었을 때 (저희가) 아일랜드에서도 서비스를 내리고 나서 조치를 충분히 한 뒤에 올리는 작업들을 했습니다.
브라질에서도 마찬가지로 여러 신문이나 언론에서 크게 문제가 되면서 저희한테 포르투갈어에 대한 대응 작업들을 자체적으로 하는 그런 상황을 좀 오랫동안 진행한 다음에 다시 올리는 작업을 했습니다.
또 내부적으로 심심이는 사용자들이 말을 가르치는 구조이다 보니까 심심이가 어떤 말(비윤리적인 말)을 했을 때 사용자들이 신고할 수 있는 체계를 가지고 있었습니다.
근데 비교적 단순하게, 우리나라에서 생각할 수 있는 나쁜 말이라는 게 욕설이나 또는 음란한 말 정도가 될 텐데 이 화면은 ‘사이버블링’과 관련된 조치를 취할 때 캡처를 한 내용이고요. 이것이 이전에 이렇게 되어 있었다고 한다면, 그 뒤에 몇 번의 리뉴얼을 거치고 나서 이 신고 체계가 좀 더 정교해진 모습을 보실 수 있습니다.
댑스(DAPS)가 들어가 있는데요. 이 중에서 예를 들면 악성 콘텐츠 관련해서는 이렇게 7개 두 번째 댑스에서의 사유가 나오고요. 이 두 번째 댑스의 사유들은 앞서 보셨던 이용 약관의 콘텐츠 규정에 하나하나가 1대 1로 매핑(mapping)이 되는 방식으로 정책과 기술을 이제 온라인을 시키는 작업을 한 겁니다.
댑스를 더 타고 들어가면 이게 대화다 보니까 질문과 사용자가 던진 말 그리고 심심이가 대답한 말 그리고 사용자가 던진 말과 대답한 말이 호응하면서 문제가 되는 그런 세 가지 케이스가 있는데, 그런 것들 중에 어떤 것이 문제인지 또 나아가서 안에 있는 어떤 문자열이 문제인지를 다 수집을 하는 작업을 했습니다.
또 하나는 저희 심심이가 지금까지 배운 말이 한 1억 5000만 세트가 되는데요. 그 세트들을 일일이 다 하나하나 사람 눈으로 보면서 검수를 해보자고 생각을 했습니다.
근데 언어가 워낙 많다 보니까 한국어나 영어 정도까지는 저희가 어느 정도 할 수 있겠지만, 그 나머지 언어들에 대해서는 저희가 커버할 수 있는 부분이 아니기 때문에 실제 언어 사용자들에 의해서 검사가 될 수 있도록 하는 방법들을 설계해서 만들어냈습니다.
서비스에 실제로 들어가서 보면은 ‘나쁜 말 미션’이라는 것을 사용자들이 수행할 수 있게 되어 있는데요. 그 앱 내에서의 재화를 보상으로 제공을 하는 내용입니다.
그리고 실제로 이제 나쁜 말들을 많이 볼 수 있기 때문에 경고를 충분히 하고, 그다음에 여기 나오는 저희의 콘텐츠 정책에 대해서 명확하게 숙지를 하도록 여러 번에 걸쳐서 학습을 시키는 사용자 교육을 시키는 거죠. 그다음에 실제로 미션에 들어가게 되면은 이런 화면을 한 미션 한 사이클을 둘 때 10개의 화면을 보게 되는데 이 화면 각각의 심심이가 대답으로 사용할 수 있는 말들을 7개 정도 뿌려줍니다.
근데 여기서 ‘정책에 어긋나는 모든 말들을 골라내 주세요, 체크해 주세요’라고 지문이 들어 들어가는데 정책에 완전히 어긋난다고 판단할 수 있는 함정 문제 하나와 그리고 정책에 누가 봐도 어긋나지 않는다고 판단할 수 있는 함정 문제 하나가 들어가 있기 때문에 그 문제를 잘 체크했느냐, 체크하지 않았느냐를 확인해서 나머지 판별 대상의 문장들을 점수화하게 됩니다.
이렇게 해서 지금까지 7억 문장을 출제했고 3,500만 문장을 완료를 했습니다.
32개 언어에서 이렇게 진행을 해 왔고요. 사실 전수 검사를 다 하려고 하지만 속도가 사람이 하는 거다 보니까 그렇게 빠르지 않은 거죠. 현재 1억 5,000만 문장 중에 3,500만 문장만 되어있는 상태니까요. 그런데 이 라벨링된 내용들을 보니까 문장당 10명에게 검수를 받게 되는데 검수된 내용들이 인공지능 학습 데이터로서는 상당히 고품질의 데이터인 것이 확인이 되었습니다.
그래서 이것을 인공지능 모델에다가 학습을 시켜서 나머지 판별이 안 된 데이터들을 라벨링하는 작업들을 해서 실제 서비스에 적용해서 사용을 하고 있습니다.
지금까지 공개된 언어들도 한 이 정도 되고요. 나쁜 말 분류하는 모델로서. 이 대표적인 예 외에 여러 가지 작업들을 하게 됩니다.
그래서 대화가 들어오고 나가고 가르치고 할 때 앞뒤에 여러 가지 조치들을 취해서, 조금 덕지덕지 되어있는 느낌으로 보일 수도 있을 텐데요. 이 정도의 많은 작업들을 해 두었습니다.
앞으로 해야 될 작업들도 많이 남아 있고요. 이렇게 저희는 이제 서비스의 필요에 의해서 작업들을 해왔는데 공교롭게도 최근에 우리나라에서 이 챗봇과 관련된 여러 문제가 생기면서 저희가 AI 윤리에서 앞서간다며 주목을 받게 되었고, 이러한 작업들을 바탕으로 해서 NIA(한국지능정보사회진흥원)에서 인공지능 학습용 데이터 구축 사업을 하고 있는 것들 많이 아실 텐데 저희가 여기서 공공 데이터로서는 처음으로 윤리 검증 데이터를 구축하게 되었습니다.
작년에 데이터를 구축했고 올해는 글로벌 최첨단 챗봇이라고 하는 ‘블렌더봇 데이터’의 한국어판을 저희가 주관으로 수행을 하고 있습니다.
이렇게 전문적인 구축 기관들 그리고 모델링 기관들을 함께 컨소시엄을 구성해서 진행을 하고 있습니다.
그리고 저희가 지금까지 작업을 하면서 데이터를 조금 더 많이 보게 되는데 이러한 2019년 경에 데이터를 좀 분석하다 보니까 심심이 Haevy 유저, 심심이와 더 많은 대화를 하고 되게 오랫동안 대화를 하는 사용자들이 마음의 문제, 정신 건강 문제를 가진 사용자들이 많다는 점을 확인하게 되었습니다.
간단히 이렇게 사소한 고민일 수도 있고요. 이런 경우는 자신의 어떤 감정을 이렇게 분출하는 Ventilation하는 왼쪽이 사용자의 발화입니다, 경우가 있을 수 있고요. 이 경우는 좀 더 진지한 고민을 토로하고 있습니다.
불안이라든지 좀 심각한 고민들을 얘기를 하는 그런 걸 볼 수 있고, 이 경우는 제가 전문가는 아니지만 계속 똑같은 패턴으로 대화를 던지는, 이 패턴이 아마 조현병과 관련이 있다고 알고 있는데요. 이런 패턴들도 나타나고 있습니다.
해외 연구 사례를 보니까 2015년에 칭화대에서 청소년들에게 챗봇으로 공감 대화를 함으로써 스트레스를 감소시키는 그런 연구를 했는데요. 이 연구에서 심심이 API(대화 엔진API)를 가져다가 사용을 했더라고요. 우리나라에서도 코로나 시기에 코로나 블루, 코로나 우울증과 관련해서 심심이의 효과에 대해 주목을 받고 있고요. 이거와 관련해서 사람과 심심이가 대화를 할 때 사람들이 우울 감정을 어떻게 나타내고 있는가에 대한 여러 가지 분석들을 카이스트의 차미영 교수님 기초과학연구원 데이터 사이언스팀에서 작년부터 8개 정도의 논문을 낼 정도로 연구를 되게 열심히 하고 계십니다.
저희는 이런 관심을 바탕으로 해서 의료기기 연구 개발 사업도 진행을 하고 있고 심리상담사를 보완하거나 궁극적으로는 심리 상담사로서 활동할 수 있는 그런 AI를 만드는 연구 개발 사업도 몇 가지 진행을 해 왔습니다.
최근에는 디지털 치료제를 개발하기 위해서 고려대 안암병원과 협력을 하기로 했고요. 저희 자체 서비스와 관련해서 좀 말씀을 드리면, 심심이를 사용하기 위해 심심이와 대화하기 위해 들어오는 사람들이 어떤 사람들인가를 생각해 보았을 때 저희는 이렇게 생각을 하고 있습니다.
‘마음을 털어놓기 위해 대화를 하려고 하는 게 아닐까?’라는 거죠. 사람들하고 대화할 때는 사람이니까 서로 말이 잘 통하는데, 속마음을 얘기하기가 조금 두려운 측면도 있을 수 있을 것 같습니다.
내가 가지고 있는 모든 말을 특정 사람한테 얘기할 수 있는 것도 있겠지만, 모든 상대에게 내 이야기를 할 수 없는 경우도 있을 것이고요. 그래서 마음 놓고 얘기를 하고 싶을 때 심심이한테는 사람들이 마음 놓고 얘기를 하는 것 같습니다.
근데 심심이가 아시다시피 현재 수준에서의 AI가 마찬가지인 것처럼 말이 그렇게 아주 잘 통한다고 보기는 어렵죠. 그래서 ‘사람이 심심이 역할을 하도록 하면 어떨까?’라고 생각을 했습니다.
‘사람이 심심의 가면을 쓰게 하는 건 어떨까’라고 생각해서 그러면 말도 잘 통하고 자신도 가릴 수 있지 않을까라고 생각했는데 역시 노출될 수 있으니까 그럼 서로 다 심심이가 되도록 하자는 아이디어를 내서 자신의 마음을 반영한, 하나의 페르소나를 반영한 심심이를 만들어서 활동하게 하는 그런 대화 플랫폼을 구성을 했습니다.
저희는 이것을 AI와 인간 지능이 융합되는 FI(Fusion Intelligence)라고 나름대로 이름을 지었고요. 여기서 대화를 서로 나누고 있으면 이 대화를 저장하고 가공을 해서 이 대화 모델이 하나 만들어지겠죠? 이것이 내가 없어도 다른 사람들 또는 다른 AI와 대화를 하면서 더 많은 친구들을 만들 수 있고 나는 가끔 대화 나눈 것들을 보면서 ‘이 사람 괜찮네’라고 하면 더 인연을 이어가고 하는 그런 대화 플랫폼을 만들어 보려고 지금 하고 있습니다.
물론 지금 출시는 되어 있는 상태고요. 여기서 계속 안정화 작업을 하고 있는 중입니다.
이것이 새로운 카카오톡이 될 수도 있고 또는 저희는 더 글로벌하니까, 글로벌하게 많이 쓰이는 ‘왓츠앱 같은 건 아닐까’라고 생각을 합니다.
또는 마음의 아바타를 만드는, 마음의 대화의 메타버스라고 생각을 하기도 하고요. 이 논문 같은 경우는 글로벌에 5개 대표적인 챗봇, 대표적인 대화용 인공지능을 비교한 논문인데요. 이 논문의 비교 대상으로 나타난 게 심심이와 함께 나머지 네 개가 대단히 큰 기업인데, (심심이가) 이런 식으로 갈 수도 있겠다고 생각을 하고 있습니다.
현재는 지금 데이터 연구 관련된 협업을 중점적으로 보고 있는데요. 지금 국어원에서도 많은 대화 데이터가 있고 또 NLP 연구자들이 많이 주목하고 있는, 나오기만을 기다리고 있는 많은 데이터들, 말뭉치들이 있는데, 심심이도 대화 데이터로서는 세계에서 가장 많은 데이터를 가지고 있지 않나라고 생각을 하고 있습니다.
약 150억 건 정도가 되는데요. 이런 데이터들을 연구자들에게 제공을 하고 연구자들은 자신의 연구 주제와 맞는 대화 데이터로 연구 주제와 맞는 연구를 하면서 그 연구 결과물이 나오고 연구 결과물에는 필수적으로 가공된 데이터라든지 하는 것들이 나올 것입니다.
이것들을 심심이도 활용하고 또 연구자들끼리도 서로 공유를 할 수 있게끔 하는 식으로 연구 커뮤니티로 확장을 해 나가면 어떨까라고 생각을 해서 지금 연구 커뮤니티로 초거대 대화 데이터를 공개하는 그런 작업을 진행을 하고 있습니다.
그래서 연구자들끼리 더 활발히 연구 결과를 공유하면서 좀 더 챗봇에 대한 기술 개발을 해 나갈 수 있도록 방향을 잡고 진행을 하고 있습니다.
이것은 작년에 앞서 말씀드린 기초과학연구원 카이스트 차미영 교수님팀에서 연구를 많이 하면서 practice를 어느 정도 쌓았다고 판단을 해서 진행을 한 거고요. 요거는 앞서 말씀드린 MOU 장면입니다.
이것을 챗봇 기반으로 디지털 치료제를 우리나라에서 최초로 만들어내려고 하고 있습니다.
네, 이상으로 제 발표를 마치면 될 것 같네요. 고맙습니다.

더 보기

작성일

2022-09-22

조회수

1017