[제997회] 디지털 시대 근거 구축에 서사가 중요한 이유

등록일
2025.05.27
조회수
339
키워드
금요강좌
담당부서
경제교육기획팀

자막

[제997회] 디지털 시대 근거 구축에 서사가 중요한 이유
(2025. 05. 16(금), 연세대학교 사회학과 강정한 교수)

(강정한 교수)

안녕하세요. 방금 소개받은 연세대학교 사회학과의 강정한입니다. 제가 오늘 발표하게 될 내용은 아마 여기 주로 있는 금요강좌랑은 조금 다른 내용이긴 할 텐데, 한편으로는 조금 그런 내용을 접하면서 다른 생각도 한번 해 보시고, 뇌를 다른 방향으로 쓰시면서 휴식도 하실 수 있는 시간이 됐으면 좋겠습니다.

[전산사회과학을 알아보기 전에...] (p.2)

여기에 기반이 되는 어떤 과학적 배경은 전산사회과학, 이제 computational social science라고 부르고요. 좀 사회과학적인 데이터 사이언스, 그러니까 데이터 사이언스는 공학적인 의미에서도 쓰긴 하지만 좀 사회과학적인 데이터 사이언스에 좀 기반해서 드리는 말씀인데. 여기가 또 한국은행이기도 하고, 제가 잘은 모르겠지만 여기 오신 분들 전공에 또 경제학도 많을 거라고 생각을 해요. 그래서 주류 경제학의 흐름과 제가 오늘 말씀드리려고 하는 내용의 흐름이 어떻게 연결되는지를 조금 먼저 짚어 볼까 합니다. 신고전주의 경제학, 전 사실 경제학을 제대로 배운 적은 없지만 보통 이렇게 모형 세우잖아요. 이제 많은 경우 미분 방정식의 형태를 띠는데. 이렇게 해갖고 미분 방정식을 해서 거기서 이렇게 utility function이, 그러니까 효용을 maximize 하는 점을 찾고 이렇게 해갖고 솔루션을 내 가지고. 이게 fair price다 라든가 이런 결론을 도출을 하죠. 그래서 이 경우에는 수리적인 모형이 굉장히 중심이 됐었어요. 그러다가 이제 행동경제학이 부상을 했습니다. 저거는 마치 심리학처럼 실험실에서 실험을 많이 하는데 보통은 이제 인센티브로 상금을 걸고 하는 실험들이 많아요. 그래서 이때 사람들의 의사 결정이 보통 완벽히 합리적이라고 생각하는 효용 함수와 어떻게 다른가 이런 것들을 많이 했습니다. 그래서 카너먼, 트버스키가 행동경제학으로 노벨상을 타면서 실제 주류 경제학의 흐름이 바뀐다는 걸 알 수 있게 됐고요. 아마 생각에 대한 생각인가, 번역한 책 제목이 그렇게 나왔을 겁니다. 근데 이제 요즘은 또 달라졌죠. 흔히 이제 econometrics, 계량경제학의 흐름 중에 현실 데이터를 갖고 인과관계적으로 밝히는데, 현실 데이터 자체는 인과관계 데이터가 아니에요. 근데 이거를 어떻게 가능하면 인과관계적으로 설명을 할 수 있을까 하는 거고. 여기서는 시장에 관련된 데이터만 다루지 않죠. 인간 사회의 모든 데이터를 봅니다. 그래서 이런 식의 계량경제학이 가능해진 중요한 이유 중에 하나가 굉장히 많은 데이터가 digitalize 되면서 가능해졌어요. 꼭 디지털 데이터 아닌 것도 물론 이용해서 하지만, 그래서 저기 지금 맨 위에 보이시지만 괴짜경제학은 굉장히 히트를 친 책이죠. 저 시절에는 이제 좀 괴짜스러운 경제학이었지만 지금은 어느새 주류가 됐습니다. 그리고 이제 그 아래 책이 번역본도 있을 텐데, mostly harmless econometrics라고 좀 제목 자체도 약간 위트가 있다고 해야 되나, 하고 저걸로 노벨 경제학상을 탄 분들이죠. 그래서 반사실적 사고 실험을 통해서 어떻게 인과관계를 인과관계가 아닌 데이터로 규명할 것인가, 이런 것에 관심을 많이 가졌습니다. 그래서 크게 봐서 어떤 수리적인 사회학도 이 흐름과 크게 다르지 않아요. 합리적 선택 이론이라는 것이 유행을 했을 때는 사람의 어떤 효용 함수나 합리성을 가정을 하면서, 어떤 사회적 행동을 하는가를 연구를 했습니다. 이제 그러다가 좀 더 agent based modeling이라는 거를 했죠. 저기서는 그런 분석적인 함수를 가져간다기보단 에이전트들의 행위에 규칙을 주고 결과가 어떻게 나오는 걸 보는 거고, 저 경우에는 그러니까 수리적으로 풀 수 없는 결과도 보기 위해서 저런 걸 많이 했고. 좀 행동경제학과 실제로 닮아 있습니다. 그러다가 이제 요즘에 computational social science라고 많이 불리는 거는 비슷해요. 각종 데이터를 가지고 어떻게 하면 인과관계적으로 설명을 할 것인가에 관심이 있는데. 제가 이제 서사 쪽을 좀 주목하는 이유는, 그래서 제가 오늘 드리는 말씀은요. 주류 경제학이나 주류 computational social science가 저 흐름으로 갈 거라는 얘기는 아닙니다. 그 얘기가 아니라, 이런 흐름 속에서 이제 제가 이따 말씀드리겠지만, 일종의 이 현대 민주주의 사회를 살아가는 시민으로서 딜레마가 발생하는데, 이 딜레마를 해결하려면 어떤 종류의 학문을 해야 그래도 좀 솔루션이 나올까 하는 것에 대한 제 해답이라고 생각을 하시면 되겠습니다. 그래서 이 컴퓨테이션 방법 중에 자연어 처리가 굉장히 발전을 했고요. 이 자연화 처리가 이제 어떻게 보면 더 붐을 이루게 된 이유 중 하나는 최근 생성형 AI죠. 그러니까 생성형 AI를 보시면 간단한 걸 집어넣는데 인간이 쓴 언어 같은 되게 풍부한 비정형의 텍스트를 아웃풋으로 주는. 기존의 머신러닝과는 굉장히 다른 형태를 띠고 있습니다. 그래서 이런 시대에 특히나 서사 혹은 내러티브라고 하는 거는 전형적인 어떻게 보면 이제 스토리텔링이죠. 제가 이제 그거에 대해서 말씀을 드리고, 이게 과연 가능할까 하는 것에 대해서 좀 말씀을 드릴 텐데. 저 동그라미 친 부분에 해당을 합니다.

[서사의 특성] (p.3)

그래서 잠깐 이 computational 흐름에서 벗어나서, 사회학에서 서사는 보통 어떤 식으로 정의가 되는가를 좀 말씀을 드릴게요. 보통 저희가 이야기가 있는데 소설을 읽는다고 생각을 하시면, 하나의 소설에는 여러 등장인물이 있습니다. 그럼 등장인물 각각의 서사가 있어요. 그리고 어떻게 보면 소설에 등장인물이, 그러니까 여러분들이 무슨 드라마를 보셔도 그렇지만 되게 잘 만든 드라마는 버릴 등장인물이 없잖아요. 그게 무슨 뜻이냐면, 각 등장인물의 서사가 다 설득력이 있고 여러분들이 거기에 공감을 하거나 머릿속에 이렇게 박힌다는 뜻이죠. 그래서 보통 소설 하나를 전지적 작가 시점으로 쓸 순 있지만, 특정 서사 자체가 전지적 작가 시점이라는 건 좀 말이 되지 않습니다. 그래서 전지적 작가는 보통 등장인물별로 그 서사를 다 보여 줄 수 있는 그런 거죠. 그래서 특정 서사라고 하면 보통 어떤 그 행위의 주체, 어떤 성격을 갖고 있는 행위의 주체의, 어떻게 보면 주관적인 경험, 그것의 스토리텔링에 해당하는 겁니다. 그래서 사회과학에서는 사회학에서는 소수자 연구에 많이 쓰여요. 그러니까 이제 소수자라 하면 특정 어떤 사회적 정체성을 갖고 있는 경우인데, 보통 이제 주류 사회에서 잘 경험할 수 없고 우리가 그들의 경험이 무엇인지, 그들의 이야기를 직접 어떻게 보면 들어보는 방식의 연구를 접하게 되는 거죠. 그래서 이거를 왜 은유나 유추라고 생각을 하게 되냐면, 그러니까 보통은 우리는 각자 자신의 서사가 있습니다. 인생을 살아온. 보통 그 틀 내에서 생각을 하는데, 내가 나와는 굉장히 다른 사회적 정체성의 서사를 경험을 해요. 그런 연구를 보거나 하면 일종의 공감을 하게 되고 이해를 하게 되는데. 그거 자체는 완벽한 이해라기보다 내 서사가 있고 내 정체성을 바탕으로 그걸 확장하는 방식으로. 좀 어떻게 보면 유추해서 이해를 하게 된다는 거죠. 그래서 서사 발굴이란 걸 좀 정리를 해 보면, 결국 특정한 서사를 발굴한다는 것은 독자로 하여금 어떤 사건이나 사회적 맥락에서 그 특정 정체성, 혹은 행위자성이라고 부르기도 하는데. 그런 행위자의 재연 과정, 자신의 어떤 스토리텔링 재연 과정에 동참을 해서 감정 이입적으로 몰입하고 세상을 새롭게 해석하는 은유를 배우는 것이다. 그게 이제 서사 발굴이라고 좀 정의를 해 볼 수 있습니다. 그래서 이걸 일단 잠시 이렇게 휙 하고, 이제 데이터 과학 computational 하잖아요. computational 한 데이터 과학이 과연 이런 서사 연구를 할 수 있을까? 이거랑 친화적이라는 게 말이 되는가? 하는 것에 대해서 좀 말씀을 드리도록 하겠습니다.

[데이터과학으로 정체성 연구하기] (p.4)

근데 이제 제가 이런 식으로 좀 체계적으로 생각을 한 거는 최근 몇 년이고요. 제가 왜 저기에 이르게 됐는지 제 연구의 서사를 말씀을 드릴게요. 그래서 제가 이제 데이터 과학자로서 좀 컴퓨테이션 한 걸 하는 사람들은 보통 되게 건조한 숫자나 이런 거를 다루죠. 근데 이제 제가 원하건 원하지 않건 굉장히 되게 감정의 소모가 있는 연구의 소용돌이 같은 걸로 들어가게 되는 경험을 합니다. 첫 번째로 드릴 예가 정체성 연구인데 도대체 정체가 뭐냐? 이 사이트 좀 오래됐는데 혹시 아시나요? 상대적으로 젊은 분들은 이 사이트가 뭔지 아실 거예요. 메갈리아라고 좀 급진적인 여성주의 사이트였습니다. 굉장히 불꽃같이 타올랐다가 생각보다 금방 문을 닫아요. 근데 어쨌건 저 메갈리아의 정체가 뭐냐는 것에서 굉장히 논란이 많았고, 저거를 컴퓨테이션 하게 연구를 하게 됐습니다. 대학원생과. 근데 이제 당시에 메갈리아 사이트에 굉장히 특이한 점이 있었는데 뭐냐면, 글을 쓸 때 로그인을 안 하고 그냥 쓸 수도 있고요. 로그인을 해서 내 닉네임을 걸고 쓸 수도 있어요. 그래서 분석적으로 저희는 그냥 쓰는 글을 완전 익명이라고 이름을 붙였고, 로그인해서 쓰는 경우는 온라인 커뮤니티 해 보신 분은 알겠지만 저희가 로그인해도 익명은 익명이지만 그 닉네임을 걸고 여러분이 거기서 쌓아온 어떤 것이 있죠. 이력이. 정체성이 있습니다. 그래서 그거는 이제 부분 익명이라고 하고. 이 그림에서 보이는 건 뭐냐면 가운데는 이제 흔히 말해서 자연어 처리 중에 토픽 모델링이라는 게 있어서 이 텍스트에 어떤 토픽들이 있는지를 추출을 하는데. 내가 부분 익명이건 완전 익명이건 상관없이 나타나는 토픽들이고요. 위쪽은 로그인하고 닉네임을 걸고 썼을 때 더 잘 나타나는 토픽이고, 아래쪽은 로그인 안 하고 완전 익명 상태에서 더 자주 나타나는 토픽이에요. 그래서 실제로 로그인하느냐, 안 하느냐에 따라 쓰는 내용이 꽤 달라진다는 걸 알 수 있습니다.

(P.5)

이 가운데 네 개는 지금 여기서 부분 익명, 그러니까 로그인을 하건 안 하건 다 같이 참여하는 건데. 저 중에 아래쪽 두 개를 보시면 페미니즘하고 성차별이 있습니다. 그래서 지금 저 배치 자체가 오른쪽이 부분 익명, 왼쪽이 완전 익명인데. 로그인 여부에 상관없이 좀 가운데 쪽에 단어들이 모여 있고, 이게 기본적으로 여성주의 사이트이기 때문에 성차별이나 페미니즘에 대해서는 로그인 여부와 상관없이 비슷한 얘기를 상대적으로 하고 있다고 볼 수가 있어요. 근데 이제 위에 성소수자와 고인희화화는 실제적으로 메갈리아 내부 논쟁이 되게 심했던 토픽인데, 그 토픽에 대해서는 양쪽이 다 참여를 하지만 실제로 보시면 되게 큰 글씨 같은 게 주로 완전 익명 쪽에 대게 나와 있고요. 저 가운데, 부분 익명과 완전 익명을 가르는 선 사이에는 생각보다 별로 공통된 단어들이 없어요. 그래서 저거는 로그인 여부에 따라, 그러니까 다 같이 참여를 했어도 심지어 입장 차이가 다른 그런 토픽이라는 걸 알 수가 있습니다. 그래서 저 4번 성소수자 논쟁 이후에는 실제로 되게 큰 갈등이 있었고, 저 사이트는 이제 문을 닫게 되죠.

[그래서 정체는?] (p.6)

자 그래서 이제 만약에 여러분이 관찰자로서 여기의 정체는 뭘까 하는 질문을 던지신다면, 이제 어떤 경로를 겪게 될까를 한번 생각을 해 보시면. 특히나 저게 후기로 갈수록 대부분의 글들이 로그인 안 하고 완전 익명으로 쓰입니다. 그래서 여러분이 만약에 그냥 단순히 호기심에 방문을 해서 글을 클릭하잖아요. 그럼 그냥 완전 익명 글만 거의 읽게 돼 있어요. 그럼 저기에 나오는 글들은 굉장히 개인적이고, 메갈리아 공식 뭐라고 해야 되나, 메갈리아 공식 미러링 단어, 비속어 리스트 같은 게 있는데 그런 단어로 이루어진 글들을 굉장히 많이 보게 돼요. 이제 반면에 만약에 여러분들이 이걸 초창기부터 흐름을 알고 있고 소위 네임드 유저가 누군지 알고 있고 이렇다면, 로그인하고 쓴 글들을 중심으로 해서 보시게 되면 부분 익명 글의 흐름을 아실 수 있고. 저기 나옵니다만 이런 글들은 주로 어떤 실제로 굉장히 큰 어떤 캠페인이 있었고, 결혼, 성범죄, 성적 착취 이런. 보통 페미니즘에서 전통적으로 많이 다뤄온 내용들이 있다는 걸 알 수가 있어요. 그래서 실제로 하나의 사이트에는 동일한 정체성을 가진 단일한 걸로 이해할 수가 없고, 심지어 여기를 관찰하는 관계, 그러니까 로그인을 하냐 안 하냐에 따라서 다른 청중을 향해서 어떻게 보면 대화를 하고 있다고 볼 수도 있고요. 여러분들도 실제로 어떤 종류의 관찰자인지에 따라서 정체를 굉장히 다르게 파악한다는 겁니다. 제가 이제 이걸 통해서 얻은 경험 중 하나는 모두가 동의할 수 있는 하나의 답을 얻는 게 사회과학의 목표가 아니라, 왜 위치에 따라서 혹은 경험에 따라서 다른 대답을 얻게 되는가 하는 게 더 먼저 이루어져야 되는 연구라는 생각을 하게 되죠.

[인과관계적 설명에서 서사가 필요한가?] (p.7)

그래서 이제 정체성에 대한 연구를 좀 하게 됐고, 그다음에 이제 제가 아까 특징이 최근의 흐름이 인과관계라고 했는데. 여기에 왜 서사가 필요한가? 과연? 하는 문제를 좀 말씀을 드려 볼게요. 추론의 형식 중에 가추라는 게 있습니다. 이게 abduction이라 하는데. 여러분들이 가만히 생각을 해 보시면 학교에서 배운 과학적 추론은 둘 중에 하나예요. 연역 아니면 귀납. 가추라는 거는 과학적 추론이 아니에요. 근데 사실은 우리가 심지어 과학자로 살아갈 때에도 혹은 실생활에서 가장 많이 하는 게 가추예요. 그게 가장 드러나는 게 이런 거죠. 추리소설, 장르 영화 이런 거 보시면 범죄가 일어나면 재구성에 들어갑니다. 어떻게 이게 일어났을까? 그게 인가관계를 재구성하는 거죠. 이건 실제로 법정에서도 이루어지는 거예요. 여기에 이제 가추가 굉장히 중요한 역할을 하게 돼요. 제가 가추의 예를 들어 드릴게요. 이거는 사실 대학원생이 주 청중일 때를 생각하면서 만든 건데, 한번 보시면 그래도 어느 정도 공감하실 수도 있어요. 이제 A B C로 나눠서 보시면, 여러분 이제 지도 교수한테 이메일을 보내는데 답장이 없어요. 주어진 현상입니다. 근데 여러분이 알고 있는 정보 B가 있어요. 내 지도 교수는 지도 학생한테 화가 나 있으면 답장을 잘 안 한다. 이게 주어진 정보죠. 그래서 가추로 나온 결과가 뭐냐면, 따라서 지도 교수는 나에게 화가 나 있다. 이렇게 생각을 하면서 이제 걱정을 합니다. 실제로. 이게 이제 가추의 단계인데 이걸 형식화를 해 볼게요. 일단 답장이 없다는, 이메일 답장이 없다는 결과값 Y가 관찰이 됩니다. 여러분은 어떤 정보가 있다고요? 지도 교수가 학생한테 화가 나 있다, 그걸 X라고 하면, 이게 원인이라면 답장을 안 할 확률 저건 조건부 확률이죠. X가 조건이었을 때 Y일 확률이 되게 높다는 게 팩트로 주어져 있어요. 그래서 여러분의 추론의 결과는 뭐예요? 제가 Y라는 결과를 관찰했을 때 지금이 조건부 확률에서는 Y가 주어진 거죠. 그랬을 때 X가 원인일 확률이 되게 높다고 이제 결론을 내리신 거예요. 추론을 한 거죠. 그래서 조건부 확률의 앞뒤를 헷갈린 거예요. 사실 가추는 생각을 해 보면. 근데 우리가 저거를 엄청나게 많이 쓰고 심지어 유용합니다. 왜? 가설을 도출하는 추론 중에 하나거든요. 저게 진짜 원인인지는 모르지만. 그래서 보통 이런 가추의 과정을 거치고요. 이거는 사회과학에서 특히 인간 행동을 이해하려고 할 때는 굉장히 많이 쓰는 방법이긴 해요. 비과학적이나, 유용하기 때문에 굉장히 잘 사용한다고 말을 할 수가 있습니다.

[Narrative = story|identitiy] (p.8)

그래서 조건부 확률 개념을 썼으니까, 저는 이게 그냥 제일 심플한 정의라고 생각을 하는데. 그래서 내러티브는 뭐냐? 특정 사회적 정체성, 아이덴티티가 기본으로 조건으로 주어졌을 때, 그 조건 하에서의 스토리텔링이라고 생각을 합니다. 그래서 이런 면에서 제가 한 가지 예를 들어 드릴게요. 일단 저게 뭐냐면, 보시면 2019년 동 기간 대비해서 2020년 3월부터 4월 사이에 아카이브나 바이오 아카이브는 이제 보통 논문을 저널에 공식 개제하기 전에 올리는 프리프린트를 올리는 거죠. 이거 내가 먼저 쓴 거야라고 찜 해 놓는 용도로 많이들 올립니다. 과학자들이. 근데 저기 보시면 이제 분홍색이 1년 전, 그거에 비해서 1년 후가 빨간색 2020년인데, 남성 과학자건 여성 과학자건 거기에 올리는 저자의 수가 다 증가하는데 보시면 남성과학자가 훨씬 더 많이 증가했어요. 어떻게 보건 간에. 저건 이제 경제학에서도 아까 말씀드린 계량경제학에서 이중차분법이나 Difference-in-Differences라는 개념으로도 볼 수 있는데. 저게 근데 2020년 저때가 언제냐면 생각해 보시면 코로나 터진 직후예요. 글로벌이. 그래서 글로벌 코로나 아웃브레이크 이후에 과학자의 생산성이 아카이브 기준으로 증가했다고 볼 수 있는데, 차이의 차이를 보면 여성 과학자보다 남성 과학자가 훨씬 증가를 했어요. 그럼 왜 그럴까? 저게 이제 저희가 가추를 하는 단계예요. 이유가 뭐지? 여기 사진 하나를 가져왔습니다. 이제 보면 코로나 시기에 집에 갇혀 가지고 여성 과학자가 남성 과학자에 비해서 어떤 상황에 처했을까라는 서사를 사실 보여 주는 거죠. 저 사진 자체가. 사실은 제가 저 그래프랑 저 사진이랑 다 여성 과학자의 칼럼에서 가져온 거예요. 그 당시 썼던. 그래서 이제 이런 문제에 대해서 쓴 칼럼이 있었어요. 이런 일이 여기서만 벌어지느냐? 이건 제가 제 아들의 허락을 안 받고 쓴 건데. (웃음) 저희 집에서도 벌어졌죠. 저기 우리 애가 게임을 하고 있는, 친구들과 게임하고 있는 저 컴퓨터가 엄마의 업무용 컴퓨터예요. 그래서 이거를 여기에 등장하지는 않지만 컴퓨터를 빼앗기고, 일에 지장을 받는 엄마가 있다는 걸 알 수 있죠. 그래서 여기 약간 일하는 엄마의 서사가 들어가 있는데. 혹시 여기서 게임 좋아하시는 분이라면 저걸 저렇게 바라볼 게 아니라고 생각하신 분 있을지 몰라요. 게임은 기본적으로 그래픽 카드가 중요하잖아요. 근데 고작 저런 노트북을 갖고 애가 오죽 자기 컴퓨터가 없었으면 엄마 노트북으로다가 친구랑 게임을 하고 있을까 하고 생각하실 수도 있어요. 그러니까 여기에는 똑같은 그림인데 저거를 만약에 저 청소년의 서사로 보자면 더 좋은 기회가 없기 때문에 할 수 없이 저러고 있는 거죠. 그럼 이제 엄마의 서사도 있고, 청소년의 서사도 있는데 그 둘의 서사만 있느냐? 저 사진을 누가 찍었을까요? 제가 찍었죠. 그래서 저는 이런 칼럼도 읽었고, 집에서 우리 애가 저러고 있는 걸 봐 가지고 진짜 저런가 해서. 가능하면 모든 저널 페이퍼들을 긁어 가지고 진짜 저렇다는 거를 밝혀 가지고, 논문을 퍼블리시해서 오히려 생산성을 올립니다. 그래서 보시면 세 명의 서사가 사실은 다 들어 있어요. 그래서 어떤 하나의 현상을 가지고 각자 겪는 경험이나 스토리는 다르다는 거를 좀 알 수 있습니다.

(p.9)

이것도 좀 저에게는 중요했던 연구 과정이었고요. 이게 좀 지났는데, 여러분들 한번 검색을 해 보세요. 기억 잘 못 하실 수도 있는데 지난 대선 당시에, 지지난이네요. 어느새. 굉장히 중요했던 현상이고, 저게 2018년도에 있었는데 마침 제가 카이스트 전산학부에 한 학기 연구학기를 가 있었는데, 거기 대학원생이 네이버의 뉴스의 댓글을 분석하고 있었는데 저 사태가 터집니다. 소위 말해서 드루킹이 매크로를 돌린 경우였어요. 그래서 이제 사회학자였던 했던 제가 어쨌든 같이 연구를 하게 되면서 그 내용들을 다 보게 되고, 이게 왜 이럴까 분석들을 하게 되는 거죠.

(p.10)

그럼 이제 이거를 잘 맥락을 모르시는 분들이 있을 텐데. 지금은 네이버가 저런 식으로 제공을 안 하지만 포탈 뉴스에 들어가 보시면요. 보통 뉴스가 하나 뜨면 그 밑에 댓글이 쭉 정렬이 돼서 달리잖아요. 그 정렬이 어떻게 되는지 보여 주는 건데, 저기 지금 보이시는 것처럼 특정 뉴스가 있고요. 거기에 달린 댓글들 각각을 저 2차원 평면에 하나의 점으로 표시할 수가 있습니다. 그걸 어떻게 표시하냐면 그 댓글이 받은 추천 수와 비추천 수로. 가로축이 추천이고요, 세로축이 비추천이에요. 그럼 네이버는 자신들의 정렬 방식을 투명하게 밝혔어요. 뭐라고? 추천 수 빼기 세 배의 비추천 수. 그거를 순호감도로 보고 그 순호감도가 높은 거부터 정렬을 해 줘요. 그래서 보시면 예를 들어서 지금 제가 그래서 이렇게 배열을 했고, 옆에 정렬된 댓글들을 보여드렸습니다만, 저기 보시면 오른쪽 메뉴에 있는 저 점 있잖아요. 저게 추천 수와 비추천 수고, 거기 있는 사선이 뭐예요? 저기 있는 사선이 그 추천 수가 비추천 수 세 배랑 동일한 사선이에요. 그래서 거기서 저 선으로부터 이 가로의 거리, 그 거리가 길수록 순호감도가 높은 거고 그 댓글부터 맨 위에 보여줘요. 그래서 오른쪽에 제가 예시로 보여 드린 거에 제일 위에 있는 댓글은 바로 저기서 이 선으로부터 거리가 제일 먼 추천 수 2만 7-8천 되는 저 댓글입니다. 그래서 기사가 뜨고요. 여러분들 한번 생각을 해 보시면 보통 그래서 이렇게 맨 위에 있는 게 촌철살인이 있으면 맞아 맞아 하고 또 추천을 누르죠. 싫어하는 쪽에선 비추천을 누르겠지만 이게 눈덩이 굴러가듯이 보통 추천 수가 막 증가해요. 그래서 거기 있는 댓글들을 저 2차원 평면에 다 그려 보면 저런 모양이 나와요. 이렇게.

(p.11)

근데 지지난 대선 기간에 굉장히 정치적으로 민감한 기사들을 보면, 그 기사의 댓글들을 그려보면 저렇게 나와요. 뭔가 좀 이상하지 않나요? 범죄가 발생한 뭔가 징후가 있습니다. 어떻게 이렇게 눈덩이 같은 효과가 없고, 추천 수가 꽤 높았던 댓글들은 이 영점 댓글이라 그러는데, 순호감도 제로인 데로부터의 거리가 다 일정하잖아요. 그렇죠? 저게 어떻게 가능하지? 그래서 이제 저게 매크로가 돌아간 증거로. 증거라기보다, 증거까지는 아니고 징후로 봅니다. 그래서 댓글을 하나 작성했을 때 의도적으로 작성을 하고요. 좌표를 찍어요. 가서 추천 수를 막 누르는 거죠. 정치적으로 민감하니까 반대편에서 와 가지고 비추천을 누릅니다. 비추천은 추천 수의 1/3만 해도 끌어내릴 수 있어요. 순호감도 제로로. 근데 그게 여러 개의 댓글에 한꺼번에 작전이 들어가면 양쪽에서 막 하는데, 계정 하나당 한 번밖에 못 누르니까 계정을 계속 새로운 계정으로 동원을 해야 되는 거죠.

(p.12)

그래서 이제 여기서 구성을 해 보면 범죄의 재구성은 이런 식으로 됩니다. 처음에 댓글을 하면서 그 댓글에 작전이 들어가죠. 그럼 처음에 댓글을 작성한 측에서 보통 호감도를 올리기 위해서 쫙 누릅니다. 계정을 동원해서. 그럼 반대편에서 거기다 이제 비추천을 눌러요. 보통 이제 반대편은 글쎄요. 매크로를 돌린다기보다 손으로 할 가능성이 높아요. 근데 어쨌건 해서 쭉 이거를 다시 비추천을 눌러서 0점 선으로 비추천을 올려서 이렇게 끌어내려요. 다시 추천을 막 늘리고, 다시 비추천을 눌러서 0점 선으로 해서 이렇게 계단식으로 그거의 추천 수와 비추천 수의 조합이 이렇게 발전을 하게 되죠.

(p.13)

그래서 그렇게 보면 왜 이제 저기 있는 저 일렬로 늘어져 있는 게 하나의 댓글이니까, 저거의 숫자를 세면 이게 작전이 들어가고 좌표가 찍혔던 댓글들이다. 그 댓글을 추론할 수 있고요. 저거를 이렇게 쭉 선을 내려 보시면 저게 이제 X축하고 만나는 점이 있잖아요. 한 400 정도 됩니다. 그러면 계정을 한 400개씩 동원을 해 가지고 처음에 추천을 누르고, 상대가 0점으로 끌어내려면 다시 400개를 동원했고 이랬을 가능성을 추론을 해 볼 수가 있는 거죠. 그래서 보통 저걸 화력 교환이라고 하는데, 결과적으로 저 경우에는 이제 추천을 누른 측이 이겼죠. 그리고 작게는 2회, 많게는 2,500까지 갔으니까 많게는 한 4-500개씩 한 다섯 번 정도 동원했을 거라는 추론을 해 볼 수가 있는 거죠. 여기서 입장이 갈리는데, 저는 이제 사회학자로서 저 정도면 굉장한 증거라고 생각을 하는데 전산학 하시는 분들은 다른 원인에 의해서도, 어떤 우연적 원인에 의해서도 저런 결과가 나올 수 있지 않을까 해서 굉장히 조심스럽게 생각을 하세요. 저희가 저거는 전산학 쪽에 발표를 했고, 거기는 이제 어떤 초점이 있지만 제가 참여했던 사람 입장에서는 가장 머릿속에 남아 있는 거는 저런 그 재구성 과정이었죠.

[포털 뉴스 댓글토론은 공론장인가?] (p.14)

그래서 그 당시 이제 굉장히 핫했던 픽은 저거였어요. 그래서 포털뉴스 댓글 토론장은 과연 공론장인가? 저는 아니라고 봅니다. 저기의 댓글들 읽어 보시면 공론장이라 하면 저희가 뭘 토론을 해야 되잖아요. 전혀 그런 거 없어요. 그냥 싸우는 곳인데, 그 당시에 마침 이제 제가 그 연구를 했는데 저 영화, 어벤저스 인피니티 워죠. 저게 개봉을 했었어요. 극장 가서 제가 저걸 보는데, 연구하던 와중에 막 매크로가 돌아가는 장면이, 보시면 좌표를 짓고 양쪽이 이렇게 해서 진짜 화력 교환을 합니다. 한 판 붙는 거예요. 붙는데 실제로 인간 배우는 앞에 몇 명 안 되고 뒤에 있는 건 다 컴퓨터 그래픽이죠. 그러니까 자동화를 통해 갖고 저거를 이렇게 동원을 해 가지고 사실 전쟁을 이기는 상황이랑 굉장히 비슷합니다. 그래서 어떻게 됐어요? 네이버는 정치 뉴스에 대해서는 당시에 정렬 자체를 안 해 주기로 결정을 합니다. 공론장이라고 전 생각하지도 않았지만, 당시에 거기 자체가 그냥 더 이상 뭔가를 할 수 있는 곳이 아닌 폐허가 됐죠. 어떻게 보면 좀 극단적으로 얘기를 하면.

(p.15)

그래서 그런 경험을 했던 것이 저한테도 어느 정도 중요했고. 그래서 좀 더 최근에 와 가지고 저런 식으로 좀 제가 정리를 하게 됐습니다. 여러분들 탈진실 사회라고 들어보셨나요? post-truth society라 그러는데. post-truth는 세계적으로 되게 유명한 사전에서 몇 년 전에 벌써 꽤 됐겠지만 올해의 단어 이런 걸 선정해요. 그거 보시면 검색해 보시면 탈진실이 몇 년 전에 올해의 단어로 선정이 됐었습니다. 이제 탈진실이 뭐라 그러냐, 그 뜻이 뭐냐 하면. 여러분들이 어떤 행동을 할 때 그 판단 기준에 진실보다는 감정이 더 중요한 거예요. 대표적인 행동이 뭐죠? 투표. 저희 또 대선 시즌이 다가오고 있는데. 아무튼간에 투표할 때 보통은 이제 진실보다는 감정에 의한 가치 판단이나 그런 게 더 중요하다는 게 탈진실 사회의 특징으로 봅니다. 이건 이제 너무 오래된 장면이긴 한데, 트위터에 대해서 초창기 미국의 공화당은 빨간색, 민주당은 파란색. 유저들의 성향을 나름 자동으로 판별을 해 가지고 시간이 지남에 따라 그들 사이에 리트윗이나 대외 관계가 어떻게 되는지 봤더니. 서로 섞이는 게 아니라 오히려 시간이 갈수록 이렇게 양쪽으로 쫙 해 가지고 정치적 양극화가 일어나고, 자기들끼리 대화하고 이제 가운데서는 점점 얇아지는 걸 보여줘서 굉장히 주목을 많이 끌었던 연구입니다. 그래서 이제 그런 일이 왜 일어나느냐 하는 건 사회과학에서 많이 연구를 해요. 그래서 아까 말씀드린 반향실 효과. 말하는 쪽에서 계속 커지는 거. 그다음에 이제 확증 편향. 그래서 보던 것만 또 보면서 bias가 생기는 인지적인 문제. 그다음에 좀 더 사회적으로는 그걸 정체성 정치라 그러죠. 굉장히 바뀌지 않는 어떤 자신의 속성, 사회적 속성에 근거해서 판별하는 것. 이런 것들이 이제 원인으로 지목되는데. 그런 거에 대해서 오늘 말씀드리자는 건 아니고요.

[Q. 현대사회는 어떻게...] (p.16)

다만 제도 좀 데이터 사이언스를 하는 사람이니까, 여기서 보통 데이터 사이언스 하는 사람들 사이에 굉장히. 그리고 이게 특히 계량경제학에서 그런데. evidence based decision making이란 말을 굉장히 많이 써요. 근거에 기반해서 우리는 이제 뭘 할 수 있는 시대가 됐다. 그래서 계량경제학적으로, 혹은 컴퓨테이션 하게 패턴을 보면 뭐가 에비던스인지 보이고 특히 이게 인과관계가 결정된다면 그거에 근거해서, 이게 원인이니까 거기에 개입을 하면 이런 결정이 나올 거야. 이렇게 해서 거기에 대한 확신이 굉장히 커졌어요. 근데 실제로 우리가 살아가는 방식은 전혀 그렇지 않아요. 그냥 탈진실 사회에 살고 있습니다. 한편으로는 그래서 근거 기반 의사 결정이 가능하다고 믿으면서 다른 한편으로는 시민으로서 전혀 그렇게 살고 있지 않아요. 사실은. 그래서 이런 모순이 공존하는 거 자체가 제가 이제 서사에 좀 관심을 갖게 된 이유고. 아까 제 그런 연구 경력 플러스 해서. 그러니까 이 두 개가 모순이 공존하는 이유는 사실 디지털 기술과 AI의 발전이 거기 있습니다. 확증 편향을 이렇게 더 불러일으키는 게 알고리즘의 커스터마이즈 된 추천 시스템 때문이다. 이런 얘기들 많이 하잖아요. 그렇죠. 반면에 그렇게 디지털라이즈 된 데이터가 있으니까 우리는 근거에 더 접근할 수 있다고 하고요. 그래서 이제 너무 제 얘기만 하면 좀 권위가 떨어지니까.

(p.17)

가장 최근에 이 책을 낸 유명한 사람의 얘기를 좀 가져와 보겠습니다. 유발 하라리가 가장 최근에 넥서스라는 책을 냈고 번역도 됐는데요. 이제 넥서스에서 하라리가 얘기하는 게 정보에 대한 순진한 관점이 하나 있고, 자기는 복잡한 관점을 갖고 있다. 순진한 관점은 뭐냐면 정보가 많아지면 진실에도 접근할 것이고 그렇게 접근한 진실은 지혜와 힘을 동시에 증가시킬 것이라는 건데 하라리가 보기에는 그렇지 않다는 거고요. 사실 우리가 정보로부터 진실을 구성하는 과정은 의도적으로 어떤 거는 버리고 어떤 거는 강조하는 과정을 피할 수가 없습니다. 각각의 그 노드들 사이에 특정한 종류의 넥서스를 구성한다는 거죠. 그래서 정보는 사실 진실과 질서 사이에 균형에 의해서 이루어지고, 사회적 차원에서 저 균형이 어디로 가느냐를 갖고 어떤 사회 정치 시스템이나 종교를 다 설명을 해요. 어쨌건 간에 그래서 힘이라는 거는 저 진실과 질서 사이의 균형점을 어떻게 하느냐에 따라 달라지는 문제, 권력이라든가. 이렇게 보고 있습니다. 그래서 아까 말씀드린 것처럼 우리가 디지털라이드된 정보가 많이 있다 그래서 진실의 근접하리라는 사실 보장이 없어요. 오히려 많아질수록 저희는 더 가공된 정보를 원합니다.

(p.18)

근데 제가 이제 이 문제를 풀려고 하라리의 저 책을 참조한 건 아니고, 이 책은 또 최근에 나오기도 했고 저는 좀 더 전통적인 사회학자인 하워드라는 학자가 쓴 에비던스라는 책. 책 이름 자체가 에비던스예요. 저기서 말하는 중요한 메시지 중에 하나는, 지식과학 사회학자로서 어차피 진실은 팩트가 아닌 에비던스로 구성이 된다. 근데 에비던스라는 건 뭐냐? 그거는 과학자의 패러다임이나 관점이 들어가 있을 수밖에 없다는 거죠. 세상을 적극적으로 해석하는 방식으로부터 사실은 자유로울 수가 없어요. 그래서 이제 데이터 자체는 에비던스가 될 수 없다는 거고. 제가 생각해 봤을 때 저거를 사회적 데이터에 적용을 해 보면, 그러니까 여기서 말하는 소셜 데이터라는 건 뭐냐면 여러분들이 소셜 미디어를 통해서 페이스북이건 인스타그램이건 이런 데 올리는 종류의 여러분이 생산한 데이터들이죠. 그 생산한 데이터는 여러분의 어떤 정체성을 바탕으로 이런 종류의 콘텐츠를 생산한 동기가 있고, 이유가 있고, 사연이 있고 이런 데이터예요. 그렇다면 여기서부터 우리가 추출해야 되는 에비던스는 눈에 보이는 패턴, 굉장히 통계적으로 하드 하게 뽑아낼 수 있는 패턴. 우리가 흔히 팩트라고 주장을 하는 것들이죠. 저것뿐만이 아니라 거기에 들어가 있는 이 콘텐츠를 생산한 사람의 내러티브까지 보여줄 수 있을 때 그게 훨씬 사실상 강력한 증거가 된다. 이런 태도가 필요하다고 생각을 합니다.

(p.19)

그래서 한번 제가 가설적인 예를 들어 볼게요. 진짜 이렇게 내러티브가 중요하냐? 이런 데이터를 모았다고 치죠. 저기서 이제 패턴은 상대적으로 분명합니다. 팩트는 뭐예요? 노력할수록 성공한다는 거예요. 근데 너무 뻔한 말이라 그런지 우리가 저거에 대한 서사는 별로 신경을 안 써. 근데 이제 디지털 시대의 문제가 뭐냐면요. 마음만 먹으면 패턴에서 벗어난 아웃라이어도 얼마든지 모을 수 있어요. 보통 유튜브에서 굉장히 극단적인 얘기를 하지만, 구독층이 높은 사람들은 보통 저런 아웃라이어를 모읍니다. 그래서 얼마나 노력 없이도 성공한 예들을 모아 가지고 그럴듯하게 서사를 입혀요. 반대쪽도 입히죠. 노력을 안 했는데 성공할 수 있는 것들에 대해서 왜 그런지 나름 인과관계로 가추를 합니다. 그러면 관심 없던 제삼자도 어느 순간 보고 있으면, 세상이 진짜 이렇게 움직이나? 노력했는데 성공 못하는 사람들하고 노력 없이 성공하는 사람들로 이루어진 게 세상인가? 이런 생각을 하기 시작을 하고. 만약에 이제 저게 진짜 많은 사람이 믿으면 믿을수록 현실 자체에 영향을 미치면서 저 지배적인 경향성, 노력할수록 성공한다는 팩트라고 생각하는 저 통계적 패턴조차도 변화할 수가 있어요. 이렇게만 말씀드리면 저건 또 가설적 상황이니까. 제가 개인적으로 경험한, 이건 제가 전문 연구자로서 막 밝힌 건 아니지만 예들을 조금 말씀을 드려 볼게요.

[통계와 대립되는 서사의 힘: IMF 노숙자 서사] (p.20)

이게 이제 제 연령과 세대가 드러나는데. 오래전에 IMF 금융위기가 있었죠. 그러고 조금 더 그게 있었는데. 아무튼 최근에 한 2016년도에 고교생들이 이과 선호가 갈수록 뚜렷해진다. 그리고 저 때 이제 대학교에서 문송합니다, 문과라서 죄송합니다. 이런 말이 나와요. 저도 이제 대학에 있다 보니까 저런 거 좀 민감한데. 가만히 생각을 해 보면 2011년 도면 IMF 경제위기가 있은 다음에 한 3, 4년 후입니다. 한 3년. 이과생은 IMF 외환위기 이후에 급격히 감소했어요. 그 많은 사람들이 다 문과로 이동을 했으니까 문송합니다라는 그 현상 뒤에는 약간 기형적으로, 아무튼 심하게 문과로 이동했던 것의 부작용이 섞여 있어요. 그럼 그런 일이 왜 일어났을까? 사실 IMF 때나 그 직후에도 취직은 이과가 더 잘 됐습니다. 저거는 어떤 패턴에 근거한 decision making이 아니었다고 볼 수 있어요. 외환위기 이제 제가 기사를 가져왔는데. 이제 당시에 카이스트 아시죠? 카이스트에서 IMF 이후에 엄청난 과학자들의 환멸이 몰려옵니다. 그래서 전문 연구자로서 대기업이 취직할 경우 제1 해고 대상이었다. 정치적 힘이 없는, 의사 결정권이 없는 이공계 박사들은. 그다음에 이제 당시에 정말 심각할 정도로 갑자기 노숙자가 늘었는데, 저 사람들은 예를 들면 그런 거예요. 서울공대 나와 가지고 대기업 다니다가 중소기업 사장으로 독립했는데, 대기업에 납품했는데 금융위기 때문에 잔금을 받지 못해서 부도가 나 가지고, 진짜 하루아침에 노숙자가 되는 이런 게 이제 서사죠. 저런 것 때문에 저게 이제 모든 종류, 모든 고등학생들에게 영향을 미칩니다. 사실은. 그래서 생각을 해 보면 여기 기사에도 나오지만, 이럴 바에야 안정된 의사 변호사를 하는 게 낫다는 인식이 퍼진 것. 그래서 의사를 하겠다는 사람은 이과에 남고, 변호사를 하겠다는 사람은 문과로 옮긴 거예요. 근데 고시라는 게 아주 특정 진짜 경쟁률과 상관없이 정해진 숫자만 뽑죠. 그러니까 저 초엘리트가 통과할 수 있는 고시를 보고 그 많은 사람들이 움직인다는 것만 보면 굉장히 불합리한 결정을 내린 거 같지만, 거기엔 또 그럴 만한 이유가 있고. 서사가 더 중요하게 작용한다는 걸 알 수 있습니다.

[통계와 대립되는 서사의 힘: 수시 불공정 서사] (p.21)

그다음에 정시와 수시. 이거 굉장히 풀기 힘든 난제인데. 저기 이제 한겨레 측에서 한 서베이를 보시면요. 저게 2018년도지만 고3의 68%가 정시가 더 공정하다고 생각을 해요. 근데 보통 교육 관련 전문가들의 연구 결과에 따르면 꼭 그렇지 않아요. 오히려 수시가 더 공정하다는 얘기가 많습니다. 공정의 정의가 뭐냐에 따라 다른데, 보통은 부모의 사회 경제적 배경에 영향을 덜 받는 정도로 공정을 생각을 해요. 그렇게 보면 수시가 영향을 덜 받는다는 게 전체적인 패턴이란 연구 결과가 많이 있어요. 근데 여기 그래프를 보시면 응답자의 성향에 따라서 월평균 가구 소득이 높을수록 정시가 더 공정하다는 생각을 해요. 뭔가 이게 진짜 공정한 거야, 월평균 소득이 높을수록 저렇게 생각하면 뭔가 불공정할 것 같잖아. 그렇죠. 그다음에 이제 이런 연구는 물론 다양한 연구가 있습니다만, 대입 제도에 따라서 정시 우세기와 수시 우세기로 나눠 보면요. 정시냐 수시냐에 따라서 하위 50%의 대학 입학은 별로 영향을 받지 않아요. 반면에 수시 우세기에서는 상위 10%가 그다음 20%보다 더 대학을 잘 갔다는 결과가 나옵니다. 상위권 대학 입학률 측면에서. 그러니까 수시냐 정시냐는 전체의 70%는 상관이 없고요, 상위 30% 내에서. 이것도 이제 한 연구 결과긴 하지만 수시가 될수록 최상위 10%가 아마 유리했을 것이라고 생각할 수 있는 거예요. 그러니까 이거는 상위권 싸움의 문제고, 어떻게 보면 수시가. 근데 이제 저희가 생각하는 서사랑 일치하는 게 있죠. 사회 엘리트들이 그 제도의 어떤 틈을 타고 막 이제 그런 것들이 언론에 보도가 되잖아요. 우리가 수시가 불공정하다고 생각하는 거는 사실은 상위권 10%의 얘기고, 그중에서도 언론에 노출된 몇몇 케이스의 얘기일 가능성이 사실은 높습니다. 물론 그렇더라도 문제죠. 혹은 고등학생들이 교실에서 그런 케이스들을 보죠. 특히 상위권 학생들. 나 내신 관리해야 되는데, 고등학교 입학할 때부터 내신이 굉장히 좋았던 애는 학교에서 관리가 들어가 가지고 쟤는 뭘 해도 점수를 잘 줘. 각종 수상에, 뭐에, 그런 케이스를 보면 수시가 불공정하다는 생각이 확 들어오죠.

[킬러 문항 불공정 서사 vs 지역 청년 서사] (p.22)

그래서 정시가 공정하다는 여론이 너무 세지니까 최근에 정시를 늘렸어요. 근데 정시가 문제가 없겠어요? 특히나 이제 입학 경쟁은 심한데 변별력은 줘야 되니까. 그래서 이제 킬러 문항에 대한 문제가 또 떠오르기 시작합니다. 정시 자체는 문제가 없는데, 킬러문항이 문제다. 그래서 이게 이제 어떤 불공정의 뇌관인 것처럼 또 얘기가 돼요. 근데 이제 제가 굉장히 인상 깊게 본 신문 칼럼이 있었는데. 저는 이제 대학에 있다 보니까 각 대학 총장들에게 교육 관련 대담을 나눈 걸 보여 주는데. 부산 동서대 총장님께서 한 얘기죠. 사실 킬러 문항 논쟁은 서울 일부 대학에만 해당한다면서, 미달 사태가 나는 지방 대학들은 아무 의미가 없다는 거예요. 이걸 잠깐 염두에 두시고 그다음에 저 밑에 보면 최종렬 교수님은 복학왕의 사회학이라는 글을 쓰셨어요. 여러분들 한번 검색해서 보세요. 재밌죠. 그러니까 기안 84의 '복학왕'이 거의 유일하게 지방 청년의 서사를 전달하는 콘텐츠예요. 근데 보면 최종렬 교수님이 하신 얘기가, 우리가 생각하는 청년 담론은 알고 보면 대부분 수도권, 서울 중심 청년 담론이라는 거죠. 사실 여기에 와 계신 많은 분들도 아마도 서울에 거주하고 있으니까 여기와 계시겠죠. 담론이라는 게 그래요. 그래서 아까 말씀드린 것처럼 사회 조사도 관련하니까 대표성, 통계적 대표성을 되게 중요시하는 과학적 방법이 있습니다만, 우리 사회에 영향을 미치는 건 가만 보면 수시 정시 논쟁, 상위권 30%의 국한된 얘기고. 킬러 문항 논쟁, 그건 그냥 서울 대학의 문제인 거고. 그러니까 어떤 정체성과 관련된 서사의 대표성이 점점 없고, 특정 서사는 사회에서 계속 누락될 때 그런 상황에서 사람들의 어떤 의사 결정이 이루어지고 사회적 패턴으로 보일 때 사회적 문제가 더 심해질 수 있다는 거죠.

[정보의 2X2 유형화] (p.23)

자 그래서 제가 아까 말씀드린 게 통계적 경향성뿐만 아니라 어떤 서사도 중요하다고 했을 때, 그 유무에 따라 2X2 조합을 만들어 볼 수 있습니다. 둘 다 없는 건 완전한 무지의 상태니까 고려 대상이 아니고요. 보통은 이제 어떤 경향성은 없는데 서서만 있는 경우가 있어요. 이게 이제 보통 음모론이 판치는 어떤 루머죠. 그럼 거기에 관련 진짜 거기에 어떤 패턴이 있느냐를 조사하는 게 보통 팩트 체킹이에요. 보통은 에비던스를 구축하는 과정을 루머의 어떤 경향성 판별로 생각을 하는데, 제가 볼 때는 사회과학자로서는 이 부분들이 오히려 더 중요하지 않을까 하는 생각을 점점 하게 됩니다. 그러니까 저희는 데이터 마이닝을 통해서 패턴이 있어요. 근데 거기에 숨어 있는 서사가 뭔지 잘 몰라. 심지어 그 서사는 단일 서사가 아니라 거기에 참여한 수많은 사회적 정체성에 따라 다른 이야기와 동기가 있습니다. 그래서 그거를 복원하는 거 자체가 또 에비던스, 근거로 가는 데에 있어서 굉장히 중요하다는 생각을 해요.

[Common Sense and Sociological Explanations] (p.24)

그러면 왜 아까, 이제 제가 가추에서도 말씀을 드렸는데. 서사를 이해한다는 게 진짜 과학에서 어떤 얘기냐 하는 거를 좀 말씀드리기 위해서 이 얘기를 가져왔는데. 던컨 와츠라는 사람은 사실은 응용수학 박사예요. 근데 소셜 네트워크에서 좁은 세상 효과라는 어떤 퍼즐이 있는데, 여러 가지로 설명을 해 오다가 이 사람이 이제 그거를 거의 한 방에 정리해 버리는 모델을 내세워서 유명해진 사람이고. 그래서 이제 사회학자로서 어떻게 보면 박사는 응용수학이었지만 사회학과의 faculty로 콜롬바에서 몸을 담게 됩니다. 이건 제 추측인데, 그러면서 아마 이 사람이 자연과학자로서 진짜 사회학은 이상하다는 관찰을 좀 하기 시작한 거 같아. 뭐냐하면 저긴데요. 사회학에서는 설명에서 empathy라는 게 되게 중요한 거예요. 사회 과학은. 사실 사회학뿐만 아니라. 이게 일종의 인간이 갖고 있는 멘탈 시뮬레이션의 효과인데, 이런 거죠. 우리가 자연과학자로서 어떤 분자의 움직임을 이해하는데 내가 거기에 감정 이입을 해서 분자가 왜 이렇게 움직일까를 이해할 필요가 없잖아요. 그러니까 interpretation 할 필요가 없습니다. 근데 사회과학은 보통 사회적 현상이 나오면 저게 왜 저렇게 나왔지? 행위자는 왜 저렇게 행위했을까에 대해서 감정이입적으로 한다는 거예요. 그래서 이게 굉장히 경우에 따라서는 비과학적인 방식의 설명 방식, 혹은 여기 제목이 Common Sense지만 상식적인 결론에 도달할 수도 있어요. 여기에 관심 있으신 분은 상식의 배반이라는 던컨 와츠가 쓴 책을 보시면 됩니다. 근데 여기 이제 경제학 하시는 분들 많지만 아담 스미스가 보이지 않는 손뿐만 아니라 도덕감정론이라는 책으로 유명해요. 저도 그 책을 일부만 읽었습니다만, 책 제목이 그 요지를 말해 줘요. 도덕의 기반은 이성이 아니라 감정이라는 거예요. 감정 중에서도 뭐? sympathy. sympathy가 뭐냐면 사실은 굉장히 괴로움을 겪는 사람한테 감정 이입을 했더니 그 고통의 맥락을 체험하면서 내가 그 고통을 직접 느끼는 게 아니죠. 그러면서 그거에 대해서 갖게 되는 것. 그게 이제 sympathy죠. 그게 이제 어떻게 보면 우리 윤리나 도덕의 근본적인 판단의 기준이라고 봅니다. 그래서 결국에는 아까도 말씀드렸습니다만 누군가의 서사에 공감을 한다는 거는 한편으로는 과학에서 중요한 활동이고, 특히나 이제 질적 연구를 하시는 분들한테. 우리가 그냥 아까 말한 탈진실 사회이건 뭐건 간에 윤리적이거나 가치판단을 하는 데에 있어서 굉장히 중요한 요소라는 거예요. 근데 이게 사실은 AI 시대에 점점 중요해지고 있다고 보고요. 사실 여러분들은 AI를 어떻게 쓰시는지 모르겠는데, 학교에서 리포트 쓰시거나, 연구자도 심지어 기존 연구 검토할 때도 쓰시고. 인지적이거나 진짜 지능, 이게 인공 지능이긴 한데 지능적으로 쓰시는 것도 있지만 진짜 AI가 성능이 좋다는 거. 생성형 AI는 왜 성능이 좋다고 생각하세요? 이게 약간 여러분들한테 공감을 불러일으켜요. 맞아하면서 진짜 대화 상대 같은 그런 게 있잖아요. 그래서 사실은 우수한 AI라는 건 인간의 동감을 불러일으키는 능력이 굉장히 뛰어날 때 가장 범용성으로 발달을 하고, 우리가 되게 자연스럽게 그거를 받아들이게 되는 경향이 큽니다. 그래서 더군다나 보통은 생성형 AI의 환각 증상은 되게 터무니없는 문장을 만들 때는 우리가 쉽게 보지만, 굉장히 어떤 인지적인 질문을 던졌고 그거에 대해서 대부분은 팩트로 대답을 했는데 일부가 살짝 팩트가 아닌 게 섞여 있으면, 그 전체는 진실이 아니면서 이상한 현실을 구성할 수 있죠. 그래서 더군다나 AI는 동감을 불러일으키는 존재이기 때문에 이 문제는 과학적으로 중요하게 다뤄야 된다고 생각을 합니다.

[데이터과학(CSS)이 이걸 과연?] (p.25)

자 그래서 제가 주장을 하는 게 그래서. 결국 내러티브에 중심을 두기 위해서 기존의 그런 컴퓨테이션 하는 방법을 버리자는 얘기냐, 그건 아니에요. 저는 사실 이런 연구를 하는 사람으로서 이게 실제로 AI의 발전 방향하고 굉장히 정합성이 높다고 생각을 합니다. 그래서 보시면 아래쪽 교집합을 보시면, 실제로 요즘에 사회적으로 AI가 범용성이 될수록 책무성 혹은 accountability라고 부르는데 저게 굉장히 중요해지고 있죠. 그래서 여기서 어떤 AI가 문제가 되는 prediction을 했을 때 결과가 왜 그렇게 나왔는지 이해할 수 있어야 된다는 거예요. 그래서 실제로 AI가 범용성이 될수록 해석 가능성을 높여야 되는 문제는 사실은 우리가 근거를 구축할 때 내러티브를 복원하는 거랑 굉장히 유사한 방식의 어떤 사회적인 요구라고 볼 수 있고요. 해석 가능성보다 조금 수준을 낮춰서 이제 설명 가능성. 이건 좀 더 공학적인 문제인데. 줄여서 explainabe AI 혹은 이제 줄여서 XAI라고도 불러요. 그래서 실제로 저 explainability가 증가하면 AI의 성능 자체도 좋아집니다. 이제 그런 것들이 실제로 우리가 내러티브를 복원하는 것과 또 비슷하고요. 생각을 해 보시면 이게 그냥 시장 측면에서도 여러분들이, 이제는 고인입니다만 스티브 잡스 같은 경우에 생각을 해 보세요. 아이폰 같은 거 들고 나와서 제품 설명할 때 막 복잡한 설계도 보여주면서 우리가 어떻게 기술적으로 뭐, 이런 거 하나요? 안 하죠. 그냥 깔끔하게 이렇게 해갖고 들고 나와 가지고 그냥 여러분들한테 어떤 여러분의 삶이나 생활에 혹은 지향점에 변화가 생길지. 그러니까 여러분의 사용자 경험에 대해서 이렇게 확 와닿게. 가능하면 감정이입적으로 느낄 수 있게 보통 제품 설명을 하죠. 그래서 실제로 테크 인더스트리에는 테크놀로지 자체도 중요하지만 사용자 경험이라고 부르는 저 감정이입적 체험 자체가 굉장히 중요하고, 그게 이제 성패를 가릅니다. 그래서 이제 marketable 하기 위해서는 실제로 저 부분이 중요하기 때문에, 그래서 실제로 잠재적 사용자들의 내러티브를 잘 알아야 거기에 맞는 상품을 개발할 수도 있어요.

(p.26)

그래서 다시 조금 더 학문적인 얘기로 다시 조금 더 돌아가서 보면. 실제로 연구는 보통 저 두 가지가 따로 놉니다. 하드 사이언스 하는 사람들은 에비던스, 어떤 근거로서 패턴을 중요시하고. 질적 연구하는 분들은 그런 근거로서 어떤 내러티브 같은 거를 파고들죠. 근데 저거를 합치할 수 있는, 꼭 합치를 해야 되는 시대가 점점 왔다고 생각을 하고요. 그렇게 생각하는 이유 중에 또 중요한 이유 중에 하나는 실제로 AI가 사회에 정착하는 과정에서 말씀드린 대로 이게 accountable 해야 되고 explainabe 해야 되고 marketable 해야 되고. 하는 활동하고 굉장히 정합성도 높다는 생각을 합니다.

[서사복원적 데이터마이닝 방법론: 이야기의 복원] (p.27)

이렇게만 말씀드리면 좀 너무 뜬구름 잡는 거 같으니까, 이거는 좀 더 전문적인 얘기고 이거는 NLP 하시는 분들이 그러니까 자연어 처리하시는 분들이 더 잘 아는 얘기긴 합니다만 그냥 잠깐만 말씀을 드릴게요. 이게 그냥 원론적으로만 있는 얘기는 아니다. 실제로 구현의 툴이 있다는 걸 좀 말씀을 드리면. 여기 기본적으로는 semantic role, 그러니까 어떤 텍스트에 있어서 의미론적인 역할을 구분을 하는 게 좀 중요하죠. 그래서 어떤 문장이 있으면 그게 보통 주어하고 목적어 관계라고 보는 그거보다는 주체와 객체 사이의 관계인데. 예를 들면 맑스는 베버보다 일찍 태어났다, 짐멜은 배버보다 일찍 태어났다는 걸 이렇게 주체로부터 객체로 가는, 그리고 그 관계는 어떤 서술어로 규정하는 이런 식의 라벨링 작업을 자연어 처리에서 합니다. 그리고 우리말도 가능하지만 특히 영어 같은 경우에 수동태가 많죠. 수동태인 경우는 사실 목적어가 주체고 주어가 객체예요. 그러니까 수동태가 있을 땐 이거를 반대로 인식을 해 가지고 라벨링을 할 수 있어야죠. 그래서 이런 것들을 다 하면 우리가 저런 식으로 주어와 목적어와 그것 사이의 관계를 서술어로 해서 굉장히 많은 텍스트로부터 이런 식의 결론을 뽑아낼 수도 있어요.

[서사복원적 데이터마이닝 방법론 2: 화자의 복원] (p.28)

여러분 컬러 프린터가 됐는지 모르겠는데, 이거는 실제로 여기서 파이썬 라이브러리에서 저런 식의 내러티브 추출을 제안한 그 연구자의 예입니다. 저걸 보시면 미국 의회에서 공화당 의원과 민주당 의원들이 하는 발언들을 갖고 아까 말씀드린 주체 객체 화살표, 이거를 내러티브의 기본 단위로 해서 뽑아낸 다음에 다 같이 그린 거예요. 그래서 저 중 일부를 하이라이트 해서 보시면, 저기 아래 크게 보면 화살표가 모이는 노드가 뭐냐면 job이에요. job. 그래서 일자리라는 게 많은 국회의원들의, 미국 국회의원들의 내러티브에서 대상으로 등장을 합니다. 서브젝트가 아니라 오브젝트로. 근데 이제 빨간색은 공화당 의원들이 주로 하는 거고, 파란색은 민주당 의원들이 주로 하는 내러티브인데 빨간색 한번 보세요. 보시면 small business, create job 이거죠. 그러니까 공화당 의원들은 주로 자영업 같은 그런 식의 스몰 비즈니스가 일자리를 창출한다는 얘기를 주로 하고 있고, 민주당 의원들은 worker, lose job. 노동자들이 일자리를 잃고 있다는 얘기를 주로 하고 있다는 걸 알 수 있죠. 그래서 화자에 따라 혹은 그들 의원의 정치적 정체성에 따라 어떻게 다른 내러티브를 하는가? 이런 것들을 파악하는 툴 같은 건 있어요. 물론 문제는 한국어에는 아직 잘 적용되지 않고요. 여러분들도 경험하시겠지만 지금 많은 아까 생성형 Large Language Model을 쓰시지만 한국어 고유의 그런 것들을 만든다는 것이 쉬운 일은 아니에요. 그래서 그런 식의 학문적인 어려움들은 있으나, 또 저것들을 만드는 것 자체가 불가능하진 않고 실제로 활용할 수 있는 툴이 있다는 말씀을 드립니다.

(p.29)

그래서 마지막으로 좀 정리를 해 보면, 이렇게 양적인 연구와 질적인 연구는 좀 지향점이 다르죠. 크게 봐서 양적인 연구는 좀 더 prediction에 초점이 있고, 질적인 연구는 해석에 초점이 있습니다. 사회과학은 저 둘 사이가 참 안 친해요. 친하지 않은데, Computational social sciences라고 그러면 당연히 좀 양적인 것의 한 흐름으로 생각이 되고, 그렇게 또 연구를 해오고 있어요. 근데 반면에 이제 내러티브는 질적인 연구의 대표적인 방법 중에 하나고. 근데 자연어 처리를 생각해 보면 텍스트를 다루니까 그냥 생각해 보기에도 질적 자료에 굉장히 친화적인 방법이란 말이죠. 근데 말씀드린 것처럼 이런 탈진실 사회나 디지털의 부작용을 겪는, 그리고 그런 딜레마. 의사 결정, 근거 기반 의사 결정과 탈진실 사회의 딜레마를 겪는 입장에서는 NLP적인 방법을 내러티브를 우리가 추출하고, 그래서 굉장히 나와는 다른 사람의 경험을 대신 간접 체험하고 그거를 이해하는데 활용을 하는 것이 실제로 사회과학에서 아직 많이 되고 있지 않고 또 중요하다. 그리고 그게 가능한 툴들은 있다고 생각을 해서요. 굉장히 라지 데이터보다는 상대적으로 적은 데이터고 훨씬 prediction 자체에 초점이 있다기보다는 그런 감정이입적인 해석 과정에 동참하는 방식으로. 또 Computational social sciences도 활용될 수 있다고 생각을 합니다. 그래서 제 발표는 여기까지 마치는데, 특히 이제는 AI가 내러티브 자체를 generate 하잖아요. 그렇죠? 여러분 한번 물어보세요. 물어보시면 챗gpt가 그럴듯하게 어떤 여러분 모르는 미지의 대상에 대해서 스토리텔링을 해 줄 겁니다. 여러분이 물어보는 방식에 따라서. 그래서 특히 저런 인공적인 AI 자체가 하나의 에이전트로 그리고 이제 사회적 주체로 우리들의 세계에 들어오긴 했죠. 그렇지만 저런 상황에서 특히 인간의 내러티브와 또 AI의 내러티브라고 부를 수 있을까요? 아무튼 그거를 또 분리하는 것이 점점 중요해지기 때문에 앞으로 저런 활동이 필요하지 않나 생각을 합니다.

[감사합니다.]

이것으로 강의는 마치도록 하겠습니다. 감사합니다.

내용

제997회 한은금요강좌

 ㅇ 일시 : 2025. 5.16(금), 14:00~16:00

 ㅇ 주제 : 디지털 시대 근거 구축에 서사가 중요한 이유

 ㅇ 강사 : 연세대학교 사회학과 강정한 교수

                     

※ 강의자료의 저작권은 한국은행에 있습니다. 자료를 재편집하여 게시 또는 사용하는 것은 허용하지 않으며, 원자료에 대한 직접 링크 또는 심층링크하는 방식으로 이용하는 경우만 허용하고 있음을 알려드립니다. 저작권과 관련한 자세한 안내는 한국은행 저작권보호방침을 참고하여 주십시오.

유용한 정보가 되었나요?

담당부서
경제교육실 경제교육기획팀
전화번호
02-759-4269, 5325

내가 본 콘텐츠