안녕하세요.
중앙대학교 김학래입니다.
오늘 저는 인공 지능과 관련한 주제이긴 한데, 사실 크게 관심을 가지고 있지 않다면 약간 잊혀져 갔던 기술 중에 하나거든요.
그 기술에 대해서 경희대 이정희 교수님께서 ‘재발견’이라고 하는 단어를 썼으면 좋겠다고 하셔서 제목이 저는 너무 좋았거든요.
이런 의미로 이제 발표를 할 거고요.
앞에서 필리프 쾬(Philipp Koehn) 교수님은 이론적인 내용들, LLM에 대한 이야기를 구체적으로 했는데 되게 다행이라고 생각하고요.
저는 여러분들이 듣기에는 기술적인 내용을 많이 언급하지는 않을 거고요.
근데 되게 머리는 아픈 그런 내용을 얘기를 할 거고요.
가능하면 제가 연구하고 있고 실제 어떻게 구축했는지 이런 사례 위주로 설명을 드리겠습니다.
네 가지 주제로 말씀을 드릴 거고요.
당연히 이제 지금 인공 지능이나 생성형 인공 지능 이런 이야기에 대해서 어떤지 설명을 드릴 거고 지식그래프하고 제가 연구했던 사례 실제 지식그래프를 어떻게 사용하는지를 보여 드리는 게 좋을 것 같아서 사례를 보여 드리고 마지막에 정리하는 순서대로 할 거고요.
제가 그동안 어디서 발표를 하거나 연구를 하거나 이런 분위기하고 되게 다릅니다.
국립국어원을 알면서도 왜 이렇게 거리가 멀었는지 잘 모르겠는데요.
저는 지금은 이제 잘 쓰지 않는데 Semantic Web(시멘틱 웹)이라고 하는 거에서 쭉 시작해서 지금의 지식그래프라는 단어로 넘어왔는데 제가 2002년에 석사를 시작했는데 석사를 시작할 때 제 기억은 입학하기 전 2월부터 정말 열심히 글을 써서 여기 있는 마이크로소프트웨어의 Semantic Web.
그래서 여기 타이틀이 보면 보이지 않는 곳의 혁명이에요.
웹의 어떤 넥스트를 설명했던 건데 제 기억으로는 우리나라에서 Semantic Web을 최초로 소개했던 글이기도 합니다.
3부로 썼던 글인데 생각해 보니까 이때부터 저는 계속 이 연구를 하고 있더라고요.
어떨 때는 흥했고요.
어떨 때는 그 ‘어떨 때는’이 지금 같아요.
그렇게 흥하진 않은데요.
그래도 계속 이 연구를 하고 있습니다.
중간에 있는 그림은 제가 자랑하려고 가지고 온 거고요.
디펜스 할 때요.
박사 디펜스 할 때 사진인데 저 사진 제 자랑이 아니라요.
저기에 있는 저 세 분이 Semantic Web이나 온톨로지 이런 분야에는 이름만 대면 좀 알만한 그런 분들이에요.
저같지 않지만 제 옆에 앉아있는 분이 Tom Gruber이고요.
낯설 수 있는데요.
온톨로지라는 정의를 찾으면 전 세계에서 가장 많이 인용되는 정의를 한 분입니다.
그거보다는 여러분들한테 조금 더 현실적인 이름은 애플의 시리(Siri)를 만든 사람이에요.
상당히 학자이지만, 상당히 프랙티컬한 어프로치를 한 분이고요.
그리고 중간에 하얀 와이셔츠 입은 분이 Stefan Decker고요.
Semantic Web의 거의 초창기 멤버죠.
그리고 옆에 있는 분이 John Breslin이라고 우리가 초창기에 ‘온톨로지’ 하면 거의 들어봤을 거예요.
커뮤니티 온톨로지의 대표적인 게 S.
I.
O.
C라고 SIOC 온톨로지를 만든 사람입니다.
그런 일을 저는 했었고요.
같이 그런 일을 하다가 국내에 와서는 저는 삼성전자에서 한 7년 정도 있었고요.
생각해 보니까 삼성전자 안에서도 저는 계속 지식그래프만 했더라고요.
결국 이렇게 꽃을 피우진 못했지만 그런 일을 했었고, 학교에 와서는 이렇게 책을 두 편을 쓰고 지금은 커뮤니티 활동을 많이 하고 있는 편입니다.
제가 이렇게 장황하게 제 소개를 드리는 이유는 이 커뮤니티가 워낙 낯설거든요.
그런데 이 구석구석에 당연히 저도 언어학적인 그리고 언어적인 그런 부분에 있어서 많은 것을 저도 차용하고 있고, 도움을 받고 있기 때문에 제 소개를 좀 길게 했습니다.
먼저 본격적으로 발표를 드리기 전에 사과의 말씀을 드리고 싶은 것은 발표 자료가 좀 바뀌어 있거든요.
데모를 좀 많이 넣어서 죄송하다는 말씀드리고요.
또 한 가지 의도는 저를 좀 잘 봐 달라는 의미도 됩니다.
발표 시작하겠습니다.
Chat GPT가 만들어져서 나왔을 때요.
다 비슷할 겁니다.
저도 워낙에 충격을 받았고요.
제 페이스북에 한 20일 정도 제가 써보고 나서 페이스북에 그렇게 써놨어요.
벼락 초딩이 된 것 같다.
특히나 온톨로지 지식그래프 이쪽 연구한 사람들의 충격은 훨씬 컸거든요.
제가 했던 게 전혀 필요가 없을 것 같다.
이런 생각을 할 정도로 큰 충격이었죠.
저만 있는 것 아니고, 여기 잘 보시면 이 그래프에 이게 ‘Stack Overflow’가 우리가 코드를 공유하는 웹사이트잖아요.
저도 요즘은 좀 아닌 것 같습니다.
저도 여기에 해당이 되는 것 같은데요.
저도 개발할 때 Stack Overflow에 들어가서 계속 물어보고, 코드 카피 페이스트하고 이런 거 많이 했거든요.
Chat GPT가 나타난 이후에, 이때 출시가 된 이후에 Stack Overflow는 어마어마하게 트래픽이 확 줄어버립니다.
거의 사이트의 존폐 위기라고 이야기도 하거든요.
이런 영향이 우리한테는 상당히 크게 왔죠.
반면에 ‘Reddit’이라고 우리가 여러 가지 뉴스나 기사를 토론하는 사이트는 큰 영향이 없습니다.
그런데 우리가 여기에 계신 분들 중에 연식이 되신 분은 공유할 수 있을 텐데요.
이 지점에 우리가 공유할 수 있는 사건이 하나가 더 있어요.
잘 보시면 저 마크를요.
만약에 위키피디아 로고를 저기에 딱 뒀다고 한번 생각해 보시면 저쪽으로 쭉 들어가는 것은 아마 백과사전을 만들었던 그 업계는 저 지점으로 거의 똑같은 영향이 있었을 겁니다.
그러니까 결국 뭐냐면 우리는 정말 어마어마하게 변화하는 어떤 키를 이제 보고 있는 거고 그 변화가 상당히 크게 오고 있다.
그리고 이 두 가지 그래프는 일자리가 빨리 변한다는 거예요.
우리는 일자리 소멸을 얘기하지만 사실은 소멸이 된다는 이야기도 있지만 일자리가 더 고급화될 거라는 역해석도 많이 합니다.
즉, 인공 지능이라는 것을 얼마나 내 업무에 잘 사용하느냐에 따라서 그 분야의 전문성이 높아질 수도 있고, 그러지 않을 수도 있다는 거죠.
오른쪽 차트를 보시면, 오른쪽 차트는 이미지 제너레이션 하는 거예요.
가장 충격을 많이 받았던 업종 중에 하나가 우리는 이런 얘기하거든요.
이미지나 혹은 비디오를 생성하는 그 업계가 없어질 거라고 하는 거고요.
아시겠지만 이 위에 제가 예로 든 건 Dropbox에서는 공식적으로 20%인데, 제 지인이 여기 해당은 안 될 거예요.
바로 옆에서 살아남았다고 하는데, 30%가 넘는다고 합니다.
그러니까 조직이 3분의 1을 줄였는데 이유가 “AI 기술로 대체할 수 있다.
” 이런 얘기를 실질적으로 한다는 거죠.
많은 분들이 영향을 받고, 저도 사실은 영향을 받고 있고요.
제 연구실에 있는 연구원들도 매우 큰 영향을 받고 있는데 앞으로는 우리가 문제 정의를 한 다음에, 코드를 개발하고 소프트웨어를 개발하는 전체 프로세스에서 문제를 이해하고 수립하고 코드를 작성하는 이 단계는 대체될 거라고 얘기를 합니다.
그리고 실제 저도 상당히 많은 코드를 Chat GPT나 Claude나 이런 것들을 이용해서 코드를 짜거든요.
단순히 제가 계산할 수는 없으나 제가 머리 쓰고 코드를 개발했던 시간에 비해서는 저는 10분의 1 이상 줄어든 것 같아요.
제 연구원들은 아예 붙어서 그냥 거의 동시에 개발하는 것처럼 아예 그냥 열어놓고 개발하거든요.
그러니까 분명히 바뀔 거라는 겁니다.
그리고 직업적인 부분에서는 우리는 이런 얘기 많이 해요.
그런데 재미있는 건 이건 이제 LG경제연구원에서 내보낸 건데 전문가나 관리자 쪽이 저위험이라고 얘기를 했어요.
처음에는 우리는 의사, 변호사가 많이 바뀔 거라고 했거든요.
대체될 거다.
여기에 해당이 되는지는 모르겠으나, 앞으로 우리가 볼 세상에서는 조금 더 AI라는 것을 툴(tool)로써 쓸 수 있는 사람이 경쟁력이 있을 것 같기는 합니다.
그래서 이런 것들을 우리는 경험하고 있고, 여러분들도 조금 멀리 보면 아직은 나하고 상관이 없는 것 같다고 하지만 실제 많은 걸 많이 저도 경험을 하고 있습니다.
특히 논문 쓸 때 학생들을 제가 지도를 어떻게 할지, 논문을 제가 어떻게 퍼블리쉬(publish)할지 고민되고요.
제가 일화를 하나 알려드릴게요.
얼마 전에 실습 수업을 하는 학생이 저한테 메일을 이렇게 보냈어요.
굉장히 공손한 메일이에요.
이름하고 날씨가 추워집니다.
이거 다 빼고요.
왼쪽에 있는 글을 한 번 읽어보세요.
이걸 읽고 여러분들, 저한테 어떤 요청을 하는지 잘 이해되세요? 제가 이메일을 받고요.
계속 읽어봤거든요.
제가 뭘 해줘야 되는지 이게 제 수업에 대한 대체를 요구했던 건지, 아니었는지, 알바에 대한 뭘 해주는 건지, 그래서 제가 한참을 봤거든요.
그래서 옆에 물어봤습니다.
Chat GPT한테 이게 뭘 어떻게 하라는 거냐 그래서 제가 이렇게 물어보니까 설명을 했다는 거예요.
그런데 사실은 창피하지만 사실 수정된 메일을 이렇게 준 예시를 보면 조금 더 이해하기 쉬웠던 것 같아요.
사실 이제 Chat GPT라는 게 되게 무거운 듯하지만 우리가 사람을 대체할 것이다.
사람보다 더 뛰어난 AI다.
이런 얘기하지만 우리는 직업적인 이런 얘기 말고도요.
우리 생활 안에서 이미 되게 많이 가 있거든요.
그래서 이런 것들을 우리가 어떻게 대응할 거냐 어떻게 수용할 거냐 적응할 거냐 이런 문제가 아주 현실적인 문제라는 거죠.
고마운 건 또 있죠.
이게 이제 Thanksgiving nerd humor인데 아주 정말 기술 기반으로 저 수식을 그런데 그런 거 있잖아요.
여기 이제 외국인들이 계시지만 저도 미드 같은 거 보는데 하나도 안 웃겨요 저는.
뭔지 모르겠는데 막 웃잖아요.
똑같아요.
이게 왜 웃기지? 저게 이렇게 웃잖아요.
그래서 Chat GPT한테 물어보니까 저걸 이렇게 풀었다는 거예요.
저 제곱근에 있는 건 허수고 그 다음에 8은 eight다 읽으면.
그래서 I 8 (eight=ate) 이런 얘기다.
사실 저걸 제가 누구한테 물어보고 이렇게 하면 되게 어려웠겠죠.
하지만 상당히 우리는 유머스럽게 갈 수도 있고요.
정말 진지하게 최근에 생성형 AI를 바라본다라는 겁니다.
근데 이런 걸 바라보면서 제가 발표할 주제로 넘어가 보겠습니다.
그럼 지식그래프가 왜 지금 다시 나오느냐 이 키워드가.
결국은 앞에서 Philipp Koehn(필리프 쾬) 교수님이 얘기한 것처럼 사실 시작점은 환각 현상이라는 것을 줄이고 싶은 거예요.
LLM에서 자꾸 환각 현상이 나타나기 때문에 이걸 줄이기 위한 방법이 지식그래프가 아니냐
이렇게 얘기를 했는데, 여러분들께 결론을 먼저 말씀드리면 사실은 저는 의문이 하나 더 있어요.
하나는 지식그래프라는 게 과연 환각을 확실하게 지울 수 있느냐 그게 첫 번째고요.
두 번째는 과연 LLM으로 쓰는 그 데이터베이스와 지식그래프에서 쓰려고 하는 그 데이터베이스에 우리가 이야기하는 팩트가 있냐는 거예요.
그게 환각을 지울 수도 있고요.
더 생산할 수도 있다는 겁니다.
그러니까 중요한 건 팩트에 대한 사실 우리가 얼마나 갖고 있느냐에 대한 부분이 키 포인트가 될 겁니다.
그래도 긍정적으로 생각을 해보면 사실 저도 그래프와 관련된 전공을 했지만 되게 고마워요.
수학적인 이론에서 만들어진 예가 없어지지 않거든요.
제가 죽을 때까지는 없어지지 않을 것 같아요.
이 구조는.
그리고 사진 보시는 것처럼 처음에는 그래프는 수학적인 모델로 시작을 했지만 트랜스포테이션이나 아니면 인공 지능, IoT, 네트워크 안 쓰는 데가 없죠, 그래프 구조는.
그리고 실제 저의 연구는 약간 맨 마지막 쪽에 가 있습니다.
현실 세계와 그리고 온라인 세상을 연결하려고 하는 그래프적인 시도를 저는 하고 있습니다.
문제는 우리가 생각하고 있는 그래프는요.
제가 여러분께 말씀드리는 “지식그래프는 이런 겁니다.
”라고 얘기할 때의 그 그래프 하고요.
그래프 Neural Net에서 얘기하는 그래프 그런 그래프의 성질은 조금씩은 다릅니다.
다 하나의 그래프로 부르긴 하지만, 조금씩 다르다는 거죠.
오늘 제가 여러분들한테 말씀드린 그래프를 하나로 이렇게 정의해서 말씀드리면 제가 말씀드리는 그래프는 수학적 이론에서는 똑같아요.
노드와 노드가 있고요.
그 노드를 연결을 했을 때 우리는 이걸 그래프라고 합니다.
그래프 구조라고 하고요.
조금 달라지는 거는 여기에 보시는 것처럼 연결을 시켰는데 만약에 제가 화살표를 그었어요.
노드 A에서 노드 B로 하면 이건 방향성이 있다라고 얘기를 합니다.
제가 “김학래는 BTS를 알아요.
”라고 하면 학생들이 되게 화냅니다.
모르면서 왜 안다고 하느냐 근데 제가 얘기한 건 뭐냐면 저는 안다고만 한 거예요.
제가 안다라고 얘기했지 BTS 멤버들이 저를 안다고는 안 한 거예요.
그럼 저는 사실은 팩트인 거죠.
그런 것처럼 방향성이 매우 중요하고요.
그리고 제가 말씀드려야 되는 지식그래프는 방향성이 있는데 그 방향성에 있는 화살표에 레이블이 붙습니다.
얘가 어떤 거다라는 걸 꼭 붙여요.
그래서 지식그래프는 우리가 일반적으로 어떻게 얘기하냐면 Bob은 모나리자에 관심이 있다.
우리가 말을 이렇게 하거든요.
그 표현을 할 때, “관심이 있다.
”라는 거를 이렇게 “is interested in”이라고 해서 설명을 한다는 거죠.
그래서 지식그래프의 가장 핵심은 뭐냐면 그래프 구조로 관계를 표현을 해주는데 관계에 대한 정확한, 사람이 생각하는 의미를 다 기술을 해주려고 하는 거예요.
그런 것들을 우리는 이제 지식그래프라고 얘기하고요.
그림이 잘린 것 같은데요.
우리는 이제 보통 지식이라는 얘기를 할 때는 정확하게 이게 이론은 아니거든요.
DIKW 이런 모델 얘기하는데 이론은 아니지만 그림이 이렇게 있는 걸 보시면
우리가 지식이라고 얘기할 때는 도시는 국가와 관계가 있고, 기상 리포트가 있으면 기상 조건하고 관계가 있다.
이런 거 알아요.
그런데 이런 걸 알기 전에 우리는 어떤 걸 연결하냐면요.
이런 식이에요.
오늘 아침 온도가 마이너스 3도였더라고요.
그럼 3도, 마이너스 3이라고 되어 있는 건 데이터죠.
아무런 의미가 없어요.
그런데 여기에 맥락을 집어넣으면 얘는 비로소 이런 식의 그림이 그려진다는 거죠.
마이너스 3 서울인 거고요.
서울은 지식하고 연결이 되어 있는데 그 지식에 가봤더니 서울은 도시고, 도시는 국가에 포함되고 이런 것들을 우리는 그래프 안에 이렇게 표현을 할 거고 이렇게 되면 “요즘 붕어빵 잘 안 판다고 하는데, 붕어빵 사러 가자.
” 이런 얘기 한다는 거예요.
그랬을 때 우리는 이런 것들을 이건 지식이고 지능이다.
이렇게 얘기를 할 수 있다는 건데 이런 거를 지식그래프로 그동안 한 20년 넘게 이런 작업을 많이 했죠.
지식그래프와 관련해 가지고 사실 가장 많이 쓰이는 이 기술을 어디다 사용했냐 하면 가장 많이 쓴 데는 Data Integration이에요.
서로 다른 데이터베이스 안에 있는 혹은 서로 다른 웹 공간에 있는 데이터를 어떻게 통합할 거냐 이런 분야에 가장 많이 썼고요.
두 번째가 Data Discovery예요.
검색하는 영역이었거든요.
그래서 여러분들이 지금은 좀 잊혀진 듯하지만 지식그래프라는 게 Semantic Web이라는 연구 커뮤니티에 있던 게 비로소 이제 커머셜 영역에 확 뜰 수 있었던 가장 큰 이벤트는 구글이 지식그래프라고 하는 거를 검색 엔진에 바로 연결하는 서비스를 2012년에 보여줬거든요.
그래서 그 내용이 Data Integration하고 Data Discovery라고 하는 거를 지식그래프의 메인 영역으로 삼았었고, 사실은 지금도 이게 포커스라고 저는 생각을 합니다.
다른 영역이 많이 있지만 그리고 이런 것들을 실제 응용한 사례는 많이 있습니다.
구글 같은 경우에는 구글이 만들어놨던 지식그래프에 더 많은 데이터들을 통합하고, Entity를 resolution하는 서비스를 상용으로 제공하고 있거든요.
이 서비스는 구글 클라우드에서 거의 핵심 서비스 중에 하나입니다.
밑에 있는 건 영국에서 제가 오늘 여러분들께 말씀드릴 건데 영국 같은 경우에는 영국에 있는 모든 건물들 건물과 관련된 프로퍼티(property)에 대한 어떤 재산, 세금 이런 것들을 하나의 그래프로 만들어서 서비스를 합니다.
이런 것들도 지식그래프의 한 가지 사례인 거죠.
하지만 우리는 계속 어떤 생각을 했냐면요.
2004년, 2003년에서 2008년, 2009년 이때까지 우리나라도 Semantic Web, 온톨로지 하면 과제가 어마어마하게 많이 있었어요.
컴퓨터공학과 교수님들은 온톨로지 하면 다 과제 받을 정도로 정말 많이 했거든요.
근데 그 시기가 지나면서 계속 우리는 이런 이야기를 했어요.
잘.
.
.
이거는 동작하지 않는다.
그러면서 패러다임을 이제 쫓아가기 시작했죠.
모바일 웹으로도 가보고 지금처럼 LLM이나 혹은 다른 어떤 형태의 기술에 우리는 많이 dedicate되는 모습을 보입니다.
제가 지금 결론은 아니지만, 말씀드리고 싶은 건 우리는 기술이나 어떤 패러다임에 대해서 일종의 회복 탄력성이 좀 있었으면 좋겠어요.
어떤 말씀이냐면 어떤 기술이 나왔을 때 정말 국가적으로 확 달려드는 그 힘이 있거든요.
근데 저처럼 좀 불쌍한 연구원을 좀 보태줘도 돼요.
이런 연구를 하는 사람이 있어야 돼요.
그래야 나중에 같이 할 수 있는 힘이 생기거든요.
그런 회복 탄력성, 기술에 대해서 바라볼 수 있는 그런 부분이 좀 필요하다고 생각을 합니다.
제가 감히 큰 전제를 던질 수는 없지만, 이게 아이러니합니다.
“You are not a parrot.
”
이렇게 얘기하면서
에밀리 벤더가 LLM에 대해서 비판을 했어요.
사실 이 비판하고 나서 어마어마하게 공격을 받은 걸로 알고 있거든요.
패럿이 아니다라고 얘기하면서 정말 많이 비판을 했어요.
그런데 2년 지났잖아요.
2년이 지난 다음에 한 번 다시 생각해 보면 맞는 거 같은데, 그쵸?
왜냐하면 지금 여러분들이 저도 메일을 해석하기 위해서 Chat GPT를 쓰고는 있지만
한편으로 저는 무슨 생각을 하냐면
여전히 얘가 잘못 주는 그런 정보를 준다라고
계속 저도 알고 있거든요.
그럼 이 문제가 잘못된 거냐 이 지적이,
이 지적은 맞죠.
이 지적을 해결하기 위한 방법을 생각해 볼 필요가 있다는 겁니다.
더 우리가 심각하게 생각해야 할 부분은 이런 현상입니다.
OpenAI의 Whisper는 제가 말한 거를 받아 적은 거예요.
필사를 하는 거예요.
그럼 필사를 한다고 할 때, 우리가 중요한 건 뭐냐면
예를 들면 이런 거죠.
제가 지금 이야기를 하고 있는데 만약 속기사분이 있어요.
그럼 그 속기사는 제가 한 말을 적겠죠?
그분이 제가 이렇게 얘기를 했는데
제가 잠깐 쉰다고 다른 말을 막 쓰면 안 돼요.
근데 지금 여기에 나오는 건 뭐냐면요.
나블라라고 의료 앰비언트 AI, 굉장히 정말 좋죠.
어떤 거냐면 환자가 의사한테 얘기하면 그걸 전부 다 속기처럼 필사를 해주는 거예요.
의사들이 진료를 할 때 가장 힘든 거는 진료를 한 다음에 PHR, EHR이라고 하는 헬스 레코드에 입력을 하는 거잖아요.
그거를 지금은 좋아져서 이렇게 컴퓨터를 보면서 이렇게 체크를 하는데
그 시간을 의사들은 정말 상당히 많이 시간을 보낸다는 거예요.
근데 이 나블라라고 하는 데에서는 그런 부분을 LLM을 이용해서
이 Open AI를 이용해서 필사를 했는데,
어떤 문제가 발견이 됐냐면
의사가 뭔가를 얘기를 하거나 환자가 무슨 얘기를 할 때 멈춰요.
잠깐 얘기하다가 “어.
.
.
”하면 적는다는 거예요.
그냥 생성을 한다는 거예요.
생성형 AI는 그냥 생성을 해주는 거예요.
그걸 못 잡는 거예요.
왜냐하면 그게 아주 네이티브한 특징이잖아요.
그러니까 비어있는 그 시간이나 만약 노이즈가 들어오면 그걸 적는다는 거예요.
이건 일반적인 환각하고 다릅니다.
왜냐하면 제가 만약에 심장에 문제가 있다든가 암이라든가 어떤 문제가 있어요.
심각한 문제인데 의사가 진단을 해줬는데 처방을 잘못했어요.
아니면 다른 약물을 투약했어요.
이런 거를 우리는 위험 중에서도 제일 회피해야 할 위험 중에 하나라고 보거든요.
그러면 여기에서 얘기하는 의료 앰비언트 AI에서 하는 부분하고 우리가 일반적으로 Chat GPT에 가서 묻는 거하고 뭐가 다르냐?
같아요.
위험성을 느끼는 거는 인간이 판단할 뿐이라는 겁니다.
그래서 이런 것들을 줄이는 방법에 대해서 끊임없이 고민을 하고 있고요.
사실 이 기술은요.
제가 슬라이드를 좀 바꿨던 이유는 뭐냐면
제가 11월 15일인가 18일날 슬라이드를 드리고 계속 리서치를 하잖아요?
근데 너무 많이 바뀌어요.
정말 너무 많이 바뀌고
제 판단을 바꿀 정도의 새로운 소식들이 정말 많이 업데이트가 됩니다.
그래서 우리가 지금은 많이 공부를 해야 되는 그런 시기라고 보고요.
이런 문제를 계속 얘기하면서 LLM을 연구하는 분들이 가장 지금 적극적으로 접근하고 있는 방법은 많이 아시겠지만 RAG입니다.
여기서 얘기하는 건 Retrieval을 하겠다라는 겁니다.
아시겠지만 하나의 학습 모델을 학습을 하고요.
학습을 하고 나서 시간이 지나는 동안은 다 이제 데이터가 Up-to-date는 아니기 때문에 그 Up-to-date한 거를 지키기 위해서 우리는 검색 기반으로 데이터베이스에 가서 정확한 데이터를 찾아 주겠다라고 하는 게 RAG 방식이거든요.
Langchain이나 Llama Index나 이런 것들이 많죠.
달라진 건 뭐냐면 퀘스천(question)을 던지면 컨텍스트에 맞는 데이터를 찾아가서 정보를 끄집어 오고요.
끄집어온 정보를 다시 이제 LLM을 이용해서 생성한다는 게 다릅니다.
다만 RAG라고 하는 걸 이야기는 하고 있지만 이 RAG가 환각 현상을 완벽하게 지워주지는 않습니다.
그래서 이제 RAG의 우리가 일반적인 한계는 뭐라고 얘기를 하냐면 만약에 RAG로 얘기하는 데이터 소스에 정확한 정보가 있어요.
팩트가 있다면 그 문제는 해결이 되겠죠.
그런데 제가 RAG에 접근을 했을 때, 데이터베이스에 접근했을 때
팩트가 정확하지 않거나 아니면 퀘스천을 제너레이션을 해 가지고
어떤 데이터베이스로 제가 가야 되는지에 대한 판단이 잘못됐다면
뒤에 일어나는 LLM에서 만들어내는 생성된 문장은 여전히 환각이라는 겁니다.
그래서 이런 문제들이 계속 지적이 되고 있었고요.
그러면서 최근에 나온 게 RAG 시리즈 중에 앞에 Graph가 붙습니다.
달라지는 건 뭐냐면 문서 다큐먼트나 데이터베이스에서 갖고 오는 정보가 아니라
여기에 있는 부분이 지식그래프 형태로 바뀐다는 겁니다.
기존에 있었던 PDF나 어떤 문서가 아니라 안쪽에 있는 지식그래프 구조의 데이터를 갖고 와서 LLM에서 발생하는 RAG의 한계를 지워버리겠다.
이런 것들이 Graph RAG의 한 가지 큰 특징인 거죠.
혹시 여러분들이 제가 얘기한 거에 대해서 이렇게 기억을 하고 계시면 모르겠는데
제가 팩트를 체크를 해봐야 되는데요.
이 그림에서 제가 보면서 참 서글프다라고 생각하는 게 있어요.
혹시 감이 오시나요?
못 느끼시는 게 정상이에요.
왜냐하면 이 슬라이드 한번 보세요.
이 사람이 비판한 건 “우리는 앵무새가 아니다.
” 이렇게 얘기하잖아요.
여기 앵무새가 있잖아요.
저 앵무새 로고는 랭체인의 로고거든요.
정말 반어적으로 해석을 하는 거죠.
자기의 로고가 우리가 앵무새가 아니라는 그런 의미의 함축적인 의미이긴 한데 저는 이렇게까지 이렇게 비꼴 수 있을까, 그런 생각을 좀 했었습니다, 저는.
농담이고요.
농담인데 진짜 같아요.
생각해 보시고요.
한 가지 달라지는 거는 Graph RAG에 오면서
여러분들이 주의해야 될 건 Graph RAG라고 할 때,
Graph 한 칸 띄고 RAG는 지식그래프를 이용하는 방법이고요.
GraphRAG로 붙은 거는 마이크로소프트에서 개발한 기술이에요.
오픈 소스거든요.
그래서 GraphRAG로 붙어 있는 건 어떤 걸 하냐면
RAG 방식하고 같은데 얘는 우리가 네트워크 분석할 때 커뮤니티 디텍션 이런 거 하거든요.
비슷한 것들을 찾아내는 작업을 먼저 하는데 그 커뮤니티를 찾아 가지고 비슷한 영역을 찾은 다음에 그거를 LLM에 주겠다라는 거예요.
그러니까 조금 정확성이 올라가죠.
그래서 그래프적인 방법을 이용하는 부분에서는
RAG, Graph 한 칸 띄고 RAG, 지금의 Graph RAG
뭐 지금 이제 버전 2.
0도 나왔다라고 해서 이런 식으로 쭉 가고 있어요.
이게 패러다임의 어떤 변경 지점에 있는 거고
두 번째는 이 다음 얘기로 사실은 벌써 넘어가고 있어요.
AI Agents라고 얘기를 해서 이렇게 하나하나씩 RAG들이 있으면
그 RAG들을 다 연결을 해 가지고 내 문제를 한번에 해결하고 싶다.
그래서 최근에는 AI Agents 얘기를 상당히 많이 합니다.
여러분들이 어디까지 기술을 쫓아가실지, 지금 쫓아갈지 나중에 쫓아갈지는
여러분들의 판단의 몫이긴 하지만 기술의 변화가 상당히 빠르다는 것만 일단 체크를 해주셨으면 하는 생각입니다.
제가 이렇게 얘기를 하면 재미가 없을 것 같아 가지고요.
두 가지 데모를 하나 보여 드릴게요.
소위 요즘에 이 정도는 정말 많이 발전했고 Graph RAG나 RAG에 있어서
이런 문제 해결하는구나
사례 첫 번째,
Neo4j는 그래프 데이터베이스 회사고요
솔루션 이름도 같습니다.
근데 아마 그래프 데이터베이스 시장에서는 요즘에 가장 핫해요.
여기에서는 LLM을 적극적으로 활용을 해서 지식 베이스를 구축을 하는 사례를 보여 줍니다.
한 번 보시면 얘는 어떤 걸 하냐면요.
유튜브에서 어떤 유튜브에 있는 스크립트를 뽑아내는 작업을 하고요.
이건 알파폴드에 대한 거고요.
두 번째는 위키피디아에 가서 구글 딥마인드라고 하는 위키피디아 콘텐츠를 쭉 가지고 와요.
그러면 이 툴이 제공하는 건 뭐냐면
LLM을 이용해서 지식그래프를 자동으로 생성을 합니다.
지식그래프를 자동으로 생성을 한 다음에,
데이터를 전부 다 연결을 시켜주고요.
그리고 LLM이 하는 것처럼 검색도 자연스럽게 해줍니다.
그래서 이 과정은 아마 여러분도 이게 무료로 하실 수 있을 거예요.
가입하시고 테스트 해보면 두 가지의 멀티모달 형태의 데이터를 가지고
여러분들이 데이터 만들 수 있고요.
이거는 이제 엔티티를 추출한, 자동으로 추출한 걸 보여 주고요.
엔티티를 추출하고 나면 데이터를 이렇게 시각적으로 이렇게 보여 주죠.
다만 여기에서 보여 주는 관계를 보시면 관계의 이름이 딱 하나예요.
한 종류의 관계를 만듭니다.
그게 특징이 있고요.
제가 이거에 대해서는 나중에 설명을 할 거고요.
이렇게 더 많은 그래프를 자동으로 쭉 생성을 한 다음에 우리가 기대한 것처럼 이쪽에
Query Answering을 자동으로 해줍니다.
‘이 기술이 좋다.
’라고 생각할 수 있는 부분은 뭐냐면 프리텍스트예요.
프레임 텍스트나 아니면 비디오나 오디오에 있는 데이터를 자동으로 뽑은 다음에
데이터를 구조화 시키는 거에서는 상당히 큰 장점이 있죠.
여러분들이 한 번 정도 이렇게 작업을 해 보겠다
저는 괜찮은 방법이라고 생각을 합니다.
두 번째 사례는 WhyHow.
AI라고 하는 회사인데요.
최근에 오픈소스로 이 전체를 개방을 했습니다.
제가 확인한 바로는 지금 여러분들이 보시는 이 인터페이스
UI적인 건 아직 열지는 않았는데, 뒤쪽에 있는 프레임웍은 열었어요.
똑같습니다.
Neo4j에서 얘기하는 것처럼 프리텍스트를 자동으로 엔티티를 추출하고
데이터를 여러분들이 탐색할 수 있는 그런 형태로 되어 있고
WhyHow 같은 경우에는 파이썬 SDK도 제공을 합니다.
그래서 여러분들이 코랩 같은 데서 특정 어떤 소스를 주면은 얘가 전부 다 파싱하고
LLM에서 프리디파인되어 있는 프리트레이닝 다 하고요.
그런 다음에 이 작업이 완료가 되면 이렇게 시각적으로도 보여 주고
엔티티 뽑아 놓은 거에서 여기에서는 관계를 따라갑니다.
그래서 내가 어떤 노드, 엔티티를 선택을 하느냐에 따라서
정보를 다른 정보들을 쭉 보여 줄 수 있는 기술도 사실 런타임에 다 돌아갑니다.
지금 이제 제가 말씀드린 건 뭐냐면 기술이 LLM이라는 걸 가지고
환각을 줄이기 위해서 지식그래프를 사용을 하는데
상당히 많은 접근이 지금 되고 있고 실제 우리가 테스트해 볼 수 있는 게 있다라는 겁니다.
그래서 이 기술이 과거처럼 ‘이렇게 되면 좋겠다.
’가 아니라 거의 같은 시기에 돌아간다는 게 큰 특징이라고 생각을 합니다.
좀 구분을 해서 이제 여러분들께 말씀을 드릴 건데요.
제가 지금까지 앞쪽에서 설명드렸던 거는 일반적으로 우리가 RAG를 쓰겠다 그러면
벡터 데이터베이스를 그냥 쓰는 거예요.
그 안에는 그래프적인 요소가 없는 거고요.
Graph RAG로 넘어오면 데이터 구조가 지식그래프로 바뀐다는 건 큰 특징입니다.
다만, 제약점이 있죠.
왜냐면 Graph RAG도 환각을 다 줄이냐?
그러진 못하거든요.
그 이유에 대해서 뒤에서 설명을 드릴 거고요.
그래서 지금 최근의 움직임은 지식그래프와 LLM을 연결하는 방법은 뭐냐면
structured 데이터하고 unstructured 데이터를 같이 사용을 하고요
큰 그림을 보시면 벡터 데이터베이스에 있는 거를 이용해서
그래프 데이터베이스를 연동하는 그림이 최근에 생긴 흐름이고요.
이런 흐름을 잘 사용하면 오픈소스도 많이 있거든요.
이렇게 해결이 되면
지식그래프하고 LLM이라는 거를 연결을 해서 데이터의 환각을 줄이려고 하는 시도와
어떤 접근은 충분히 가능하다.
다만, 지금까지 제가 한 3개 정도의 예를 드렸는데 이 3개는 Labeled Property Graph라고 얘기를 합니다.
그래프의 모양이 살짝 다릅니다.
그동안 지식그래프 얘기하면 우리는 RDF 그래프라고 하는 한 20년 된 이런 구조를 썼는데 최근에 Property Graph를 사용을 하거든요.
이 차이점이 가장 커요.
사실 이거를 좁히려고 하는 연구가 지금 많이 진행이 됐고요.
그래프를 여러분들이 그래프 데이터베이스를 이용해서 LLM을 연동을 하겠다 그러면
이 시장과 솔루션도 상당히 많아졌기 때문에 이런 것들을 여러분들이 검토해서 접근한다면 충분히 가능하다고 봅니다.
그러면 지금부터 안 되는 이유를 여러분들한테 설명을 드릴게요.
일단 지식그래프에 대한 접근점에 대해서 한 가지 말씀드리고
LLM적인 걸 말씀을 드릴 건데 지식그래프적인 접근은
우리나라에서 대부분의 지식그래프와 온톨로지 프로젝트는 스몰 데이터를 가지고 있어요.
왜냐하면 조직의 어떤 큰 완벽한 데이터를 가지고 한 게 아니라,
작은 데이터를 가지고 있고 업데이트도 잘 되지 않고, 내년에는 과제가 없어지면 못해요.
그리고 우리나라의 대부분의 지식그래프 프로젝트는 시각화하고 끝났어요.
그래서 우리한테 오해가 있거든요.
지식그래프는 시각화다.
그런데 지식그래프는 데이터를 통합하는 프로젝트입니다.
그렇기 때문에 살아있는 데이터를 써야 되고요.
이 데이터가 어딘가에서 계속 써져야 돼요.
참조 가능해야 돼요.
그리고 마지막이 완전한 데이터를 갖고 있을 때,
지식그래프 기술을 쓸 수 있다는 거예요.
반면에 여러분들이 그래프를 처리할 때 이런 데이터는 그래프를 사용할 이유가 없어요.
첫 번째가 매출 총액처럼 숫자 데이터, 단순히 숫자만 있는 것.
그리고 시계열 데이터도 비슷하겠죠.
주식에 대한 것들, 이런 것들은 굳이 그래프를 쓸 이유는 없다는 거죠.
그리고 마지막으로 완전히 그냥 독립적으로 존재해요.
로그 데이터 같은 것들.
이런 것들은 굳이 그래프로 처리할 이유는 없다는 겁니다.
이제부터 앞쪽에 RAG나 Graph RAG가 왜 안 돌아가는지를 여러분들의 머리를 조금 이렇게
지끈지끈하게 해드리겠습니다.
뭐냐면 지식그래프나 온톨로지는 개념을 만드는 거예요.
여성분들께 죄송한데요.
여성분들도 이해할 수 있게 설명할 겁니다.
남자분들 중에 군대에 다녀오신 분 있나요?
네.
많이 있잖아요.
군대에 있을 때 제일 듣기 싫은 소리가 뭐였어요?
요즘은 이런 얘기하면 안 되는 것 같아요.
군대에 있을 때, 저 군대에 있을 때,
제일 듣기 싫은 소리가 뭐냐면요.
너 참 개념 없다.
그게 제일 듣기 싫어요.
저 개념 있는 것 같은데 개념 없대요.
개념이 뭐냐 하면 우리가 공통적으로 갖고 있어야 되는 거예요.
제가 발표를 하러 왔는데 여러분들한테
상상하지 마세요.
제가 수영복으로 왔어요.
수영복 차림으로.
“쟤 깬다.
”
그럴 수도 있지만,
“아니 발표에 왜 저러지?” 이럴 수 있잖아요.
그게 우리는 개념이라고 얘기를 하거든요.
그리고 인간이 가장 뛰어나게 할 수 있는 활동 중에 하나가 뭐냐면
인간은 그 개념을 단어로 만들 줄 알아요.
심벌로 만들어요.
언어로 만들 줄 알거든요.
그래서 여기 있는 랭귀지 시스템이라고 하는 거는
실물의 교회가 있지만, 우리는 걔를 개념을 만드는 과정에서 계속 추상화를 할 수 있어요.
추상화를 쫙 시킨 다음에 저렇게 원에다가 십자가 하나만 해도 이거 교회야.
그리고 church 그러면 우리는 막 그리잖아요.
내가 다니는 교회, 당신이 다니는 교회, 내 집 옆에 있는 교회
우리는 상상할 수 있어요.
그게 인간이 가지고 있는 상상력이라고 했는데 이거를 LLM이 대체하겠다.
이런 게 이제 우리의 도전사항인 거죠.
그래서 인간이 가장 잘했던 건 이런 것들을 하는 건데
이런 것들을 우리는 지식 표현이라고 얘기를 했었습니다.
이건 이제 온톨로지 영역에서 얘기를 한 건데
그래서 세상에 수도 없이 많은 나무가 있으나
우리는 tree 하는 순간
저것도 나무, 이것도 나무 다 구분할 수 있잖아요.
그러다 보니까 우리가 가지고 있는 건 뭐냐면
개념을 정의할 수 있는 구조를 알고 있었던 거예요.
그런데 LLM을 쓰고 LLM에 Graph를 붙이거나
아니면 Graph RAG를 붙였을 때의 문제는 뭐냐면
이런 개념 구조를 자동으로 만든다는 거예요.
그러니까 인간이 가지고 있는 구조로 하는 게 아니라 그 구조에 수학적인 확률을 넣어서 구조를 만들어내는 거예요.
그러니까 우리가 그동안 얘기했던 사람은
동물 밑에 있는 거야라고 하는 게
어떤 때는 맞고 어떤 때는 틀릴 수도 있다는 거예요, LLM에서는.
그런데 사람들은 그렇게 판단하지 않거든요.
그래서 그런 부분들에 대해서 우리가 생각해봐야 할 지점이 있고요.
온톨로지를 표현하는 것은 사실은 온톨로지가 정말 발전하지 못했던
한 가지 이유 중에 하나는 복잡하다는 거예요.
그런데 만약에 저 그림은 심장이거든요.
심장은.
제가 한때 의료정보학을 했었거든요.
심장은요.
여러분들이
“심장은 뭐예요? 정의해 보세요.
”
그러면 심장은요, 근육이에요.
우리가 알고 있는 건 심장은 근육이거든요.
그래서 심장도 운동하면 튼튼해져요.
튼튼해지죠.
정말 튼튼해지나요?
잘 모르겠습니다.
심장은 근육계예요.
그런데 심장은 동시에 순환계예요.
피를 돌리잖아요.
그래서 온톨로지를 모델링을 할 때
제가 “심장은 근육계야.
” 아니면 “심장은 순환계야.
”
이렇게 하면 안 돼요.
심장은 part of예요.
양쪽을 다 갖고 있어야 돼.
이런 게 온톨로지의 표현력이거든요.
그런데 제가 LLM한테 “심장은 뭐야?” 그랬더니,
어떤 LLM은 “근육계야.
”
어떤 LLM은 “순환계야.
”
이렇게 얘기한다고 하면
우리의 판단은 달라질 수밖에 없다는 겁니다.
그래서 이런 표현력이 필요한데 이런 온톨로지 구조가 필요한데
이런 것들을 현재의 Graph RAG까지는 고민하지 않았다는 겁니다.
그래서 최근에 어떤 얘기를 하냐면 이런 부분이 그러면 지식그래프가 답이냐
Gen AI가 답이냐 이게 아니라 서로 보완관계가 있을 거라는 겁니다.
이 보완관계를 만드는 거고 그래서 그런 관점에서 우리는 최근에 Neuro-Symbolic AI라고 하는 양쪽의 보완관계를 만드는 작업을 이제 해야 된다 이런 주장을 하고 있고요.
지금부터 제 연구 사례를 설명을 드릴 텐데요.
아무도 관심 없으나 너무나 중요한, 저한테는 중요합니다.
주소에 대해서 말씀드릴게요.
여러분들은 주소를 잘 신경 안 쓰잖아요.
제가 왜 국립국어원이 오늘 주소를 신경 써야 되는지를 데모로 하나 보여드릴 거예요.
주소는 우리나라 주소는 사실 되게 많은 정보를 함축적으로 가지고 있어요.
제 학교 주소가 서울특별시 동작구 흑석로 84거든요.
행정구역, 도로, 건물 이런 정보를 다 가지고 있거든요.
그런데 우리는 그걸 텍스트로만 써요.
그래서 제가 행안부하고 같이 전체 주소를 전부 다 지식그래프로 만드는 작업을 작년, 올해 수행을 했거든요.
그 결과를 간단하게만 제가 보여 드릴게요.
이 작업을 하면서 제가 가장 중요하게 생각했던 거는 이런 데이터 모델을 만드는 거였어요.
우리나라 주소를 어떻게 데이터 모델로 표현할 수 있느냐.
그런 작업을 했고, 이 작업을 행안부하고 같이 올해
작년하고 올해 5개의 표준을 만들었는데
이 표준은 뭐냐면 우리나라에서 얘기하고 있는 주소와 건물, 건축물
이런 것들에 대한 모든 것을 공통으로 쓸 수 있는 데이터 모델을 만든 거예요.
지식그래프 형태의 모델을 만든 거고요.
여러분들이 이게 왜 우리나라 국어, 언어하고 뭐가 중요할까?
매우 중요합니다.
제가 행안부하고도 같이 국립국어원에 문의를 했던 거예요.
다른 부서겠죠.
문의했던 게 뭐냐면요.
우리나라에서 여러분들, 특별시하고 자치시, 일반시 구분하실 수 있으세요?
특례시, 제가 사는 용인은 특례시거든요.
특례시는 일반시일까요? 자치시일까요?
구분하기 되게 힘들거든요.
그럼 특례시는 영어로 표현할 때 어떻게 쓸까요?
우리나라의 법체계는 굉장히 독특합니다.
서울특별시, 광역시 이건 영어로 쓰고요.
메트로폴리탄 시티 이렇게 쓰고요.
밑에 내려가서 그냥 시 그러면 SI 이렇게 쓰고요.
구, GU 이렇게 쓰고 그래요.
표기법이 없어요.
그러면 이건 어떻게 되냐면 LLM에 아무리 물어도 안 돼요.
그래서 제가 이 자료를 한 장을 만들어 가지고
행안부, 국립국어원, 다른 부처, 유관 부서 우리는 이걸 어떻게 표현하는 게 좋습니까?
이런 문제가 실제 있다라는 거예요.
그리고 더 큰 문제는 이런 거죠.
이 오른쪽을 보시면 제가 Claude에다 이런 걸 물었어요.
수원은 어떤 행정구역이에요?
이렇게 물어보면 틀린 답이 나와요.
저렇게
그러면 주소는요.
행정구역만 있는 게 아니에요.
지명도 있잖아요.
우리 지번주소라는 것도 있고 법정동도 있거든요.
그런데 제가 어떤 지명으로 무언가를 찾았을 때 정확한 답을 찾기 매우 어렵습니다.
왜냐하면 그런 말뭉치가 사실 잘 공유되어 있지 않습니다.
지명에 대한 말뭉치는 국토부에서 만든 소량밖에 없어요.
그러니까 그런 것들을 이용해서 우리가 LLM에 어떤 데이터를 넣고 처리하는 건 매우 어렵습니다.
이제 정리를 좀 해보겠습니다.
다시 AI로 돌아가서요.
Geoff Hinton은 지금 이야기하는 디지털 지능이 우리가 갖고 있는 지능보다 훨씬 더 뛰어날 것, 넘어갈 수도 있다 이런 얘기하거든요.
이런 얘기도 하고요.
Yann LeCun이에요.
Yann LeCun은 휴먼 레벨 AI는 안 된다고 했었거든요.
도그 레벨, 캣 레벨 이렇게 얘기했었는데
일주일 전으로 알고 있는데 5년에서 10년 정도면 제너럴 AI가 될 것 같다.
그런데 지금의 방식은 아니라는 거예요.
트랜스포머 기반의 AI는 아닐 것 같다 이렇게 얘기를 합니다.
그런데 문제는 이런 거예요.
여기서 얘기한 것처럼 이미 실리콘 밸리를 중심으로 해서
스케일링에 대한 얘기를 했었거든요.
더 많은 데이터와 더 많은 CPU 장비를 갖고 있으면 성능이 좋아질 거다.
그런데 이 기사들 다 무슨 얘기를 하냐면
이번에 구글, 제미나이나 이런 여러 개의 대형 언어 모델을 갖고 있는 데서 성능이 그렇게 좋아지지 않는다는 거예요.
그래서 스케일링에 문제가 생긴 게 아니냐.
이게 문제가 될 거라고요.
스케일링 얘기는요.
이게 이제 메타의 3.
1인데 54일 동안 돌렸고요.
16000개 Nvidia H100이에요.
이거 금액으로 따지면 얼만지 모르겠어요.
그러니 당연히 이제 저희는 못 따라가는 거죠.
그런데 이렇게 해도 3.
1이 그렇게 눈부신 성능이 안 나온다라는 거예요.
이런 걸 좀 고민을 해 볼 필요가 있고요.
제가 말씀드리는 것 중에 하나는 적정 기술을 제가 말씀을 드린 건데
적정 기술은 뭐냐면 위키피디아라고 지식그래프 형태의 위키 데이터가 있거든요.
이 데이터는 이 심플한 question 0.
26초 걸려요.
cpu도 많이 쓰지 않아요.
반면에 챗지피티나 다른 데는 훨씬 많은 시간이 든다는 거죠.
그러면 우리한테 필요한 건 뭐냐면 적정한 문제에 대해서 기술을 쓸 수 있고,
적용해 볼 수 있는 인프라를 고민을 해 볼 필요가 있다는 거죠.
그냥 기술 중심으로만 가는 것보다는 이 방법이 좋을 거고.
최근에 Semantic Web계에서는 아키텍쳐가 상당히 많이 바뀌었습니다.
그러니까 현실 가능한 구조로 이런 구조가 좀 많이 바뀌었어요.
그래서 JSON-LD나 SHACL 이런 형태의 새로운 표준이 나왔다는 걸 좀 기억을 해 두시고
제가 이 자료를 발표하는 동안 2주 전에 Semantic Web계에서 가장 큰 컨퍼런스를 했었는데
정말 리마인드할 수 있는 기회의 컨퍼런스였거든요.
2001년도에 “Semantic Web은 이럴 거야.
” 라고 했던 그 기사를 썼던 사람인데
Ora Lassila가 올해 키 노트를 하면서 뭐라고 얘기했냐면
이 기사를 한번 다시 봐라.
이 기사는 우리는 지식 표현하려고 하는 게
Semantic Web이나 지식그래프의 목표가 아니라 맨 마지막에 온톨로지와 에이전트라는 게 필요하고 결국은 요즘 얘기하는 LLM이나 Graph RAG에서 얘기하는 건 결국 이렇게 갈 거라고 얘기를 합니다.
그리고 제가 한 3분만 더 써도 되나요?
제가 아까 말씀을 드렸는데 제 디펜스 논문의 심사위원이 Tom Gruber라고 얘기했고 이분이 시리를 만들었다고 했잖아요.
사람이 제가 좋아하는 건데 어떤 사람이 저는 꿈을 찾아가는 걸 되게 좋아하는 것 같아요.
이 영상은 1987년도에 애플이 만든 영상이에요.
영어니까 안 들으셔도 돼요.
저기 있는 게 사실 에이전트거든요.
얘는 지금 자기 일정을 물었고요.
공항에 가는 것도 물었어요.
그러면 자기의 스케줄과 자기 강의와 이런 것들을 다 연결했거든요.
사실 우리가 생각하는 에이전트는 이런 모습일 겁니다.
지금 우리가 에이전트 얘기를 많이 하지만 재밌는 건 이게 1987년도에 만든 Knowledge Navigator라고 얘기를 하는 건데요.
Tom Gruber라고 하는 사람이 시리를 만들었을 때 시리의 모체는 이 영상을 보고 만들었어요.
“나는 이걸 만들겠다.
”라고 했었거든요.
이런 꿈을 찾아가는 건 참 좋은 것 같습니다.
저도 언젠가 제 연구의 끝은 이런 방향으로 가겠죠.
그래서 여러분들도 그런 방향으로 갔으면 좋겠고
한국어에 대한 부분 그리고 지식그래프 그리고 생성형 AI 이런 것들에 대해서 여러분들이 같이 고민하는 시간이 됐으면 좋겠고요.
마지막으로 제가 말씀드리고 싶은 건
영어에서 “One-sided feed all doesn't work.
” 이렇게 이야기하잖아요.
하나의 기술이 하나의 어떤 해결 방법이 모든 것에 맞지 않거든요.
그래서 우리가 제가 아까 기술에 대한 회복 탄력성을 말씀을 드렸는데
조금 기술을 문제 중심으로 한번 보고 필요한 사람들끼리 협업하는 게 지금 가장 필요하지 않을까 그런 생각을 합니다.
감사합니다.
*질의응답*
[질문]
안녕하세요.
저는 플리토를 운영하고 있는 이정수라고 합니다.
아까 말씀하신 것처럼 사실 여러 가지로 GPU라든지 아니면 데이터에 대한 파라미터의 수를 늘려도 작년이나 재작년과는 다르게 사실은 학습 곡선 자체가 좀 많이 슬로우다운하고 있다고 말씀을 하셨잖아요.
이제 보면 사실 저희가 텍스트 기반의 데이터들은 많이 들어가고 멀티모달로 스피치 데이터라든지 다양한 데이터는 들어가고 있지만 사실 비전 데이터 같은 경우가 상당히 많이 빠져있는 걸로 보이거든요.
특히 비전 데이터 중에서 라이브 비전 데이터 같은 경우,
실제로 사람이 눈으로 보고 판단을 해서 본인이 갖고 있는 지식이랑 결합을 시켰을 때 훨씬 더 좋은 정보가 나올 수가 있는데 저희가 사용하는 대부분의 Large Language Model은 텍스트 기반 혹은 음성을 텍스트로 한 거에 대한 기반으로 결괏값을 주다 보니까 인간처럼 사실 눈이라는 개념이 들어가게 된다면 아까 교수님께서 말씀하셨던 슬로우다운되는 그래프를 다시 한번 점프업을 시킬 수 있는 기회가 오지 않을까, 저는 개인적으로 그런 생각을 해본 적도 있었거든요.
혹시 그 부분에 대해서 의견이 있으신지 좀 여쭤보고 싶습니다.
[대답]
말씀하신 것처럼 같은, 비슷한 맥락의 생각입니다.
결국은, 사실 이걸 지적한 거는 제가 지적한 건 아니고 아까 말씀드렸던 Yann LeCun 같은 경우가 캣 레벨, 도그 레벨, LLM이다 이렇게 지적한 이유가 뭐냐면 인간이 이야기하고 이해하는 그런 수준을 텍스트만 이야기하지 않잖아요.
우리가 광고 문구에 “사랑은 언제나 목마르다.
” 얘기할 때 우리 연애할 때 느끼는 게 뭐예요.
항상 2% 부족한데 표현하지 않는 건 사랑이 아니라고도 얘기해요.
제가 막 횡설수설 하는데 알잖아요.
근데 그 안에서 우리가 헷갈리는 게 뭐냐면
표현하지 않는 걸 어떻게 아냐는 거예요.
그러니까 Yann LeCun이나 Fei-Fei Li가 월드랩스를 만들면서 지적한 건 뭐냐면
텍스트는 의미를 계산을 해냈어요.
그런데 아까 제가 Semantic Triangle이라고 해서 잠깐 설명을 하고 넘어간 것 중에 뭐냐 하면 피지컬이 없어요.
지금 만들어진 LLM, 텍스트로 만든 LLM은 제가 마이크를 잡든 뭐든 얘는 실물을 refer하지 못해요.
그러니까 말씀하신 그 영역은 비전을 통해서 혹은 보이스나 다른 어떤 멀티모달을 이용해서
그 부분을 만들어내면 환각을 줄일 수 있는 가능성은 있습니다.
다만 텍스트를 지금 학습시키는 만큼의 인프라만큼 멀티모달로 넘어갔을 때의 그 영역은 더 커질 수밖에 없다는 거죠.
만약에 그런 식으로 간다고 하면 사실 여기 앉아계신 모든 분들에 대한 고민이 더 커질 거예요.
그러니까 일종의 규모의 경제인 거잖아요.
그러니까 메타나 오픈 AI나 이런 쪽 계속 그런 식으로 몰고 가고 있고 사실 우리나라의 연구비 다 합쳐도 안 되잖아요.
그러니까 그런 부분에 과연 우리 어떻게 할까 이런 고민이 제가 그건 말씀은 안 드렸지만,
그런 부분에 있어서 우리가 좀 지혜를 모아야 할 때가 아닌가 그런 생각이 듭니다.