메인화면으로
빅 데이터 인문학, 21세기 판 동도서기?
  • 페이스북 공유하기
  • 트위터 공유하기
  • 밴드 공유하기
  • 인쇄하기
  • 본문 글씨 크게
  • 본문 글씨 작게
정기후원

빅 데이터 인문학, 21세기 판 동도서기?

[프레시안 books] 에레즈 에이든 · 장바티스트 미셸 <빅 데이터 인문학>

대학에 들어가서 처음 수강 신청을 하던 때가 생각난다. 선택의 여지가 거의 없었다. 물리학 개론, 미적분학, 국어 작문, 영어 등. 입시 준비를 하며 막연히 떠올렸던 대학의 이미지와는 많이 달랐다. '관심 있는 분야를 두루 공부하는 곳이 대학인 줄 알았는데….'

그땐, 인문학이나 사회과학을 전공하는 통칭 문과 친구들이 부러웠다. 그 친구들은 수강 편람 뒤지는 재미를 좀 느끼는 것처럼 보였다. '이럴 줄 알았으면 나도 문과 갈 걸.'

세월이 흘렀고 관심사가 계속 달라졌으며, 직업과 직장도 몇 번 바뀌었다. 그래도 가끔 질문을 듣는다. 왜 이공계 출신이 기자를 하느냐고. 사실 지겨운 질문이다. 우리나라 교육에서 바뀌어야 할 게 워낙 많으니, 우선순위에선 한참 밀리겠지만, 그래도 꼭 집어넣고 싶은 요구가 있다면, 그건 바로 '문과-이과 구분 폐지'다. 제도적으론 이미 폐지됐다. 1997년 12월 30일 고시된 '7차 교육 과정'에선 이런 구분이 사라졌다. 하지만 학교 현장에선 여전히 이런 구분이 살아 있다. 대학 입시 때문이다. 대학이 신입생을 문과와 이과로 나눠 뽑으니, 고등학교도 그에 맞춰 아이들을 구분한다. 일부 대학이 문과-이과 교차 지원을 허용하는 등 이런 구분을 깨기 위한 시도가 있었지만, 큰 틀에서는 변화가 없다.

문과와 이과라는 구분이 얼마나 허무맹랑한 것인지는, 조금만 생각해봐도 알 수 있다. 철학과 수학 사이의 거리, 그리고 철학과 경영학 사이의 거리, 어느 쪽이 더 멀까? 사람마다 생각이 다를 게다. 하지만 분명한 건 반드시 전자가 더 멀어야 한다고 고집할 이유는 없다는 점이다. 하지만 문과와 이과라는 구분을 택하는 순간, 철학과 경영학이 한 묶음이 된다. 철학과 수학의 거리가 철학과 경영학의 거리보다 더 가까울지 모른다는 생각은 설 자리를 잃는다. 이게 옳은 일인가?

이젠 문과-이과 구분을 허물자는 목소리도 꽤 힘을 얻기는 했다. 예컨대 현 정부는 교육 과정 개편을 추진하면서 이런 목소리를 받아들였다. 그런데 이게 또 황당하다. 현 정부 출범 초기 교육부가 추진했던 방안은, 문과-이과 구분이 문제가 있으니 이런 구분 없이 아이들에게 똑같은 교육을 하자는 쪽에 가까웠다. 문과-이과 구분을 허물자는 주장의 핵심은, 모든 아이들에게 똑같은 과목을 가르치자는 게 아니다. 한편으론 선택의 폭을 넓히고, 다른 한편으론 서로 섞이게끔 하자는 것이다. 10대 시절엔 수학이나 과학에 더 관심이 있던 아이가 20대 시절엔 문학을 전공할 수도 있다. 반대 경우 역시 가능해야 한다. 물론, 그러자면 대학 교수들이 더 바빠져야 한다. 10대 시절에 수학을 아주 많이 공부한 학생과 그렇지 않은 학생이 대학에서 함께 물리학을 배우는 게 가능하려면, 학생들의 지식 편차를 섬세하게 고려한 교육 과정 설계가 필수적이다. 이 역시 교육 개혁의 중요한 과제일 게다.

800만 권을 바탕으로 한 새로운 시도, 구글 엔그램 뷰어

ⓒ사계절
프레시안 북스 담당자에게서 <빅 데이터 인문학 : 진격의 서막>(사계절, 2015년 1월 펴냄)에 대한 서평을 써달라는 부탁을 받았다. '이공계 출신 기자니까'라는 뻔한 고려에서 나온 부탁인 듯해서, 처음엔 조금 시큰둥했다. 그래도 책을 읽고 서평을 쓰기로 한 건, 일단 호기심 때문이었다. 저자인 에레즈 에이든과 장바티스트 미셸은 대단히 화려한 이력을 지닌 과학자들인데, 이들의 성취 가운데 하나가 '구글 엔그램 뷰어'다. 이는 과학기술자와 인문학자의 협업이 우리보다는 원활한 지적 토양에서 나온 결실이기도 했다. 그게 호기심을 자극했다.

그런데 '구글 엔그램 뷰어'가 대체 뭐냐고? '백문이 불여일견.' 지금 웹 브라우저를 열고 주소 창에 입력해보라. "books.google.com/ngrams"

알버트 아인슈타인(Albert Einstein), 셜록 홈즈(Sherlock Holmes), 프랑켄슈타인 (Frankenstein) 등의 단어가 영어로 된 책들에 등장한 빈도를 보여주는 그래프가 뜬다. 물론, 다른 단어를 넣고 검색해도 된다. '구글 엔그램 뷰어'가 기반으로 삼는 데이터는 800만 권의 책이다. 요컨대 이들 책에 나온 단어들을 죄다 검색해서 결과를 보여주는 것이다.

이는 '구글 북스' 프로젝트의 연장선 위에 있는데, 구글은 '세상의 모든 책'을 디지털화하려는 계획을 갖고 있다. 실제로 상당히 진행됐다. 지금까지 약 3000만 권이 디지털 자료로 저장됐다. 이 가운데 800만 권이 '구글 엔그램 뷰어'의 기반 자료다.

무슨 이야기인지 실감이 안 난다면, 네이버가 서비스하는 '뉴스 라이브러리'를 떠올리면 된다. 1920년부터 1999년까지 발행된 <경향신문>, <매일경제>, <한겨레>, <동아일보> 등을 디지털 자료로 저장해둔 것이다. 일제 강점기의 기사를 검색 한 번으로 찾을 수 있다. 현대사에 관심 있는 이에겐 대단히 요긴하다. 국사편찬위원회가 온라인으로 서비스하는 <조선왕조실록> 역시 비슷한 경우다. 500여 년 조선 역사가 꼼꼼히 기록된 실록 전체를 손쉽게 검색할 수 있다. 한글 검색도 가능하다. 이런 작업을 훨씬 큰 규모로 진행하는 게 구글의 프로젝트라고 보면 된다.

이렇게 대단한 작업이 진행 중인데, 왜 우린 실감을 못하고 있었지? 까다로운 문제가 많다. 대표적인 게 저작권 문제다. 이런 문제만 없다면, 우린 검색 한 번으로 거의 모든 지식을 찾아낼 수 있을 게다. 여기에 자동 번역 서비스까지 더한다면, 환상적인 결과가 나올 수 있다. 물론, 부작용 역시 예상된다.

머리 좋기로는 누구에게도 뒤지지 않을 것으로 보이는 저자들 역시 저작권 문제 앞에선 묘수를 찾지 못했던 모양이다. 결국 우회로를 택했다. 특정 단어가 800만 권의 책에 담긴 빈도를 보여주자는 게다. 이런 서비스라면 저작권을 침해하지 않는다. 그리고 이것만으로도, 우리는 꽤 의미 있는 통찰을 얻을 수 있다. 예컨대 과거에 자주 쓰이던 단어가 어느 시기를 기점으로 잘 쓰이지 않게 됐는지, 다른 단어가 이를 대체하는 시기는 언제쯤인지 등.

car(자동차)라는 단어를 입력해보자. 1919년에 한 번 정점을 찍고 빈도가 떨어지다, 다시 올라가서 1944년을 기점으로 꺾이더니, 1950년까지 죽 내려가다가 다시 올라가서 1954년을 찍고 다시 내려가서 1963년부터 쭉 올라간다. 영어 독자들의 자동차에 대한 관심 추이를 엿볼 수 있다. 1919년, 1944년, 1950년, 1954년, 1963년에는 각각 어떤 일이 있었을까?

저자들은 이 책에서 흥미로운 분석 결과를 계속 소개한다. 1862년 전에는 "나는 필요하다(I need)"라는 구절이 "나는 원한다(I want)"라는 구절보다 더 많이 쓰였다. 그런데 1862년을 지나면서 "나는 원한다"라는 구절이 압도적으로 많이 쓰인다. 가벼운 장난도 선보인다. 사탄(satan, 악마)과 산타(santa)는 알파벳 순서만 조금 다른 단어다. 그런데 1882년 전에는 '사탄'이 '산타'보다 많이 쓰였다. 영어 책에서 '사탄'의 빈도는 19세기 말 이후 하향 추세다.

안타깝게도, '구글 엔그램 뷰어'는 아직 한글 서비스는 제공하지 않는다. 비슷한 경험을 한글로 하고 싶다면 <조선왕조실록> 홈페이지를 이용하면 될 듯하다. 우리가 쓰는 한자어가 근대 이후에 도입된 것인지 아닌지를 쉽게 알 수 있다. 또 조선의 지식인들이 해당 한자어를 어떤 맥락으로 썼는지도 알 수 있다. 동양 최대의 베스트셀러 <삼국지연의>로 검색하면 선조 3년의 기사가 나오는데, 신하들이 "<삼국지연의>는 허망하고 터무니없는 내용이 많다"며 비판하는 내용이다.

인문사회과학 분야에서 빅 데이터 분석을 통해 성과를 낸 사례는 이미 꽤 있다. 최근 대단한 인기를 끈 토마 피케티의 <21세기 자본>이 대표적이다. 경제 통계뿐만 아니라 문학 작품 등 온갖 자료를 분석했는데, 빅 데이터 분석이 성과를 낸 사례다.

그렇다고 해서 '구글 엔그램 뷰어', '구글 북스', <조선왕조실록> 홈페이지 등이 당장 인문사회과학 연구에 큰 영향을 끼칠 것 같지는 않다. 저작권 문제뿐 아니라 넘어야 할 산이 많다. 하지만 새롭고 다양한 시도가 늘어나리라는 점은 쉽게 예상할 수 있다. 이제까지 어느 인문학 연구자가 800만 권의 책을 뒤지며 조사할 수 있었겠는가.


빅 데이터 인문학에 대한 기대와 우려

저자들은 이야기한다. 가톨릭 교리에 도전했던 갈릴레오 이후 두 가지 거대한 지적 전통이 뿌리내렸다고.

"하나는 과학으로, 경험적 관측을 통해 우주의 본질을 알아내는 것을 목표로 한다. 다른 하나는 인문학으로, 신중하고 비판적인 분석을 통해 인간의 본성을 공부하는 것이다. 이 형제는 함께 서구 문명에 자유와 민주주의부터 공학과 기술에 이르기까지 강력한 선물을 제공했다. 그런데 이 강력한 형제가 그동안 너무 오래, 멀리 떨어져 있었다." (245쪽)

그리고 구글이 앞장선 새로운 시도는 그동안 떨어져 있던 형제들이 다시 만나게끔 했다.

"어느 누구도 이것을 정확히 뭐라고 불러야 할지 모른다. 그리고 이것이 어디로 가고 있는지 아는 사람도 없다. 그러나 한 가지는 확실하다. 과학과 인문학이 다시 한 번 같은 목표를 향해 가고 있다는 것이다. 갈릴레오가 17세기에 우리 세계에 대한 이해를 바꿔놓았듯이, 21세기에는 이 두 개의 렌즈는 서로 등을 맞댄 채 갈릴레오가 했던 것과 똑같은 일을 해낼 것이다." (248쪽)

아마 이 대목이 저자들이 던지고픈 핵심 메시지이리라. 공학이나 과학을 전공한 IT 개발자와 영문학 연구자가 함께 셰익스피어의 고전을 들여다본다. 다시 같은 목표를 향해 가는 과학과 인문학. 문과-이과 장벽이 여전히 두꺼운 현실을 떠올리면, 확실히 매력적이다.

그래도 의심은 남는다. 책의 부록으로 담긴 국문학자와 컴퓨터과학자, 언론인 등의 대담까지 읽어도 풀리지 않는 의심이다. 동양 사회가 근대 과학기술을 받아들일 때의 충격은 대단했다. 중체서용(中體西用), 동도서기(東道西器), 화혼양재(和魂洋才) 등 한국, 중국, 일본 지식인들의 반응은 비슷했다. 인문학을 중심으로 공부했던 동양 지식인들은 동양의 정신을 지키면서 서양의 기술만 활용하자고 했다. 하지만 역사가 그렇게 전개됐나. 아니다. 애당초 '도(道)'와 '기(器)'는 엄격히 분리되기 힘든 것이었다. 서구의 기술은 근대 이후 서구의 정신 혁명에서 비롯됐다. 상대적으로 열악해보였던 동양의 기술 역시 동양 정신이 그어 놓은 한계와 관계가 있다.

이른바 '빅 데이터 인문학'을 둘러싼 논의에서도 비슷한 답답함이 든다. '빅 데이터 혁명'이 열어놓은 새로운 지평에서 인문학은 '통찰'을, 과학은 '기술'을 제공해서 길을 연다는 식인데, '동도서기(東道西器)'의 21세기 버전이라는 느낌이다. '도(道)'와 '기(器)'가 분리되기 힘든 것처럼, 통찰과 기술 역시 칼로 자르듯 나눌 수 없다. 기술 혁신은 새로운 통찰과 뗄 수 없다. 새로운 기술이 다시 통찰의 변화를 낳는다. 오랜 세월 텍스트와 씨름하며 쌓아온 인문학자들의 노하우 역시 일종의 기술로 볼 수 있다. 기술이 과학만의 몫이 아니며 통찰이 인문학의 전유물이 아니라는 걸 인정할 때, '빅 데이터 인문학'도 제 길을 찾아갈 수 있지 않을까.

이 기사의 구독료를 내고 싶습니다.

+1,000 원 추가
+10,000 원 추가
-1,000 원 추가
-10,000 원 추가
매번 결제가 번거롭다면 CMS 정기후원하기
10,000
결제하기
일부 인터넷 환경에서는 결제가 원활히 진행되지 않을 수 있습니다.
kb국민은행343601-04-082252 [예금주 프레시안협동조합(후원금)]으로 계좌이체도 가능합니다.
프레시안에 제보하기제보하기
프레시안에 CMS 정기후원하기정기후원하기

전체댓글 0

등록
  • 최신순