2024년 한국을 대표하는 온라인 슬롯 |

빅 데이터? 이건 또 뭔가 싶죠?

이런 독자는 지금 당장 포털 사이트에 "빅 데이터"를 입력해 보세요. 29일 현재 네이버(naver.com)에서는 1만6849건의 뉴스가 검색됩니다. "빅 데이터 시대 카운트다운" "빅 데이터로 본 강남", "삼성전자, 빅 데이터 본격 행보", "빅 데이터가 '빅 브라더' 된다면…'데이터 사이언티스트' 육성 절실", "민심의 보고 '빅 데이터'" 등의 제목이 눈에 띕니다.

구글(google.com)에 영어로 "Big Data"를 입력하면 결과는 더 극적입니다. 무려 문서 2320만 건이 검색됩니다.

책들은 또 어떻고요? <빅 데이터, 경영을 바꾸다>(함유근·채승병 지음, 삼성경제연구소 펴냄), <여기에 당신의 욕망이 보인다-빅 데이터에서 찾아낸 70억 욕망의 지도>(송길영 지음, 쌤앤파커스 펴냄), <빅 데이터, 세상을 이해하는 새로운 방법>(박순서 지음, 레디셋고 펴냄), <빅 데이터 혁명>(권대석 지음, 21세기북스 펴냄) 등 2012년 3월부터 1년 새 "빅 데이터"를 제목에 포함한 책도 서른여섯 권이나 나왔습니다.

이 정도면 뭔가 대단한 일이 진행 중인 것 같습니다. 하지만 빅 데이터를 둘러싼 이 난리법석 속에서도 그것이 도대체 무엇인지 친절하게 설명하고, 또 그것이 왜 중요한지 집요하게 따져 묻는 모습은 없습니다. 늘 그렇듯이 한 쪽에는 '열광'과 '호들갑'이 그리고 다른 쪽에는 '냉소' 혹은 '무관심'이 있습니다.

'프레시안 books'와 "과학과 미래 그리고 인류를 위한 비전"을 찾는 <크로스로드>가 공동으로 진행하는 '과학 수다'는 이번에 빅 데이터의 이모저모를 파헤쳐 봅니다. 한국과학기술원(KAIST) 물리학과에서 박사 학위를 받고 나서, 경계를 훌쩍 넘어 삼성경제연구소에서 연구 중인 채승병 박사가 빅 데이터 가이드로 나섰습니다.

이번에도 물리학자 김상욱 교수(부산대학교)와 천문학자 이명현 '프레시안 books' 기획위원이 빅 데이터의 이모저모를 따져 보는 까다로운 질문자가 되었습니다. 수다 정리는 뉴미디어에서 10년째 밥벌이를 하면서 빅 데이터 생산에 작은 기여를 하고 있는 <프레시안> 강양구 기자가 맡았습니다.

비록 지금은 기업의 돈벌이 수단에 머물러 있지만, 인공 지능과 같은 과학기술의 혁신을 선도하고, 궁극에는 우주의 미래를 책임질지도 모르는 빅 데이터의 세계로 여러분을 초대합니다. <편집자>

ⓒ프레시안(손문상)

'빅 데이터'는 '큰 데이터'가 아니다

▲ 채승병 삼성경제연구소 수석연구원(물리학 박사). ⓒ프레시안(손문상)

강양구 : 오늘 수다의 주제는 '빅 데이터(Big Data)'입니다. 그대로 번역하면 '큰 데이터'인데요. (웃음) 최근에는 기업이나 언론에서도 이 용어를 많이 사용하곤 하는데, 정의는 저마다 제각각입니다. 본격적으로 얘기를 시작하기 전에, 도대체 빅 데이터가 무엇인지 그 정의부터 따져볼까요?

채승병 : 빅 데이터는 이른바 '3V'로 통칭되는 다음 세 가지 특징을 염두에 두고 정의를 내려야 합니다. 3V는 '규모(Volume)', '다양성(Variety)', '속도(Velocity)'인데요. 명실상부한 빅 데이터로 불리려면 이 세 가지 특징을 어느 정도 만족해야 합니다. 우선 규모부터 살펴볼까요.

이명현 : 데이터의 규모는 빅 데이터의 본질과 관계된 특징이죠. 도대체 어느 정도나 큰 데이터를 빅 데이터라고 부르는 겁니까?

채승병 : 엄밀한 정의는 없지만, 대략적으로 수 테라바이트에서 많게는 수 페타바이트 정도 크기의 데이터를 빅 데이터로 간주합니다. 10테라바이트를 빅 데이터의 양적 기준으로 삼으면 될 것 같아요. 그런데 10테라바이트라고 해도 대다수 독자는 그게 얼마나 큰 양인지 감이 없겠죠? (웃음)

비유를 해보죠. 요즘에는 가장 작은 USB 메모리의 용량도 수 기가바이트를 넘습니다. 1기가바이트(10억 바이트)를 생수통 절반을 채울 정도의 모래로 비유해 볼게요. 그렇다면, 1테라바이트(1조 바이트)는 85제곱미터(약 25평) 아파트에 10센티미터 깊이로 모래를 채울 정도의 양입니다. 1페타바이트(1000테라바이트)는 해운대 백사장의 모래 정도고요.

그런데 이 정도의 빅 데이터가 드물지 않아요. 스위스 제네바 근처의 유럽입자물리연구소(CERN·세른)에는 100미터 지하에 전체 길이 27킬로미터의 LHC(Large Hadron Collider, 대형 강입자 충돌기)가 있어요. 이 LHC에서 2010년 한 해에만 무려 13페타바이트의 데이터가 쏟아져 나왔습니다.

과학뿐만이 아니에요. 세계 최대의 유통 업체 월마트는 전 세계 15개국에 8500곳이 넘는 매장을 가지고 있어요. 월마트에서 관리하는 각종 거래 데이터만 벌써 2500테라바이트를 넘어섰어요. 데이터 웨어하우징 인스티튜트(TDWI)의 조사 결과를 보면, 미국 기업의 약 37퍼센트가 이미 10테라바이트 이상의 데이터를 갖고 있다고 합니다.

강양구 : 일단 빅 데이터의 양적 기준은 10테라바이트 정도라는 건 확인했습니다. 그런데 빅 데이터가 단순히 큰 데이터는 아니죠?

채승병 : 맞아요. 단순히 큰 규모만으로 빅 데이터라고 할 수 없는 이유는 오늘날 쏟아지고 분석해야 할 데이터의 형태가 매우 다양하기 때문입니다. 이제까지 분석의 대상이 되었던 데이터는 대부분 비교적 형태가 균질한 것이었어요. '마이크로소프트 엑셀'과 같은 스프레드시트로 열과 행을 정리해 당장 표로 만들 수 있는 데이터입니다.

하지만 최근에 쏟아지는 데이터는 이처럼 미리 형식이 정해지지 않았요. 당장 우리가 일상적으로 이용하는 인터넷 포털 사이트에 쌓이는 데이터만 보세요. 뉴스, 블로그나 온라인 커뮤니티 게시판의 글이나 사진, 유튜브 등에 올라와 있는 동영상, 팟캐스트, 음악 등 아주 다양합니다. 이런 데이터를 일목요연한 표로 만드는 일은 아주 어려운 작업입니다.

이처럼 데이터 하나하나마다 크기와 내용이 달라서 통일된 구조로 정리하기 어려운 데이터를 '비정형 데이터'라고 부릅니다. 이런 비정형 데이터는 갈수록 그 비율이 늘어나서, 앞으로 맞닥뜨릴 전체 데이터 가운데 약 90퍼센트 이상을 차지할 것으로 전망됩니다. 바로 빅 데이터의 중요한 특징을 다양성이라고 보는 이유입니다.

이명현 : 마지막으로 속도가 있네요. 데이터가 쏟아지는 속도가 예전과는 비교할 수 없을 정도로 빨라졌다는 얘기죠?

{#8976334477#}

▲ <빅 데이터, 경영을 바꾸다>(함유근·채승병 지음, 삼성경제연구소 펴냄). ⓒ삼성경제연구소

채승병 : 2011년 5월 2일 새벽(파키스탄 현지 시각)에 미군이 파키스탄 북동부 아보타바드의 안전가옥에 은신 중이던 오사마 빈 라덴을 급습해 사살했어요. 작전이 종결되고 시신을 후송하는 단계에서, 백악관은 5월 1일 밤 9시 45분(미국 동부 시각)에 몇 시간 내로 대통령의 중대 발표가 있을 거라고 예고했습니다.

불과 40분 만인 밤 10시 24분, 부시 행정부 당시 도널드 럼스펠드 국방장관 보좌관이었던 키스 어반이 "믿을 만한 소식통을 통해서 빈 라덴이 죽었다는 소식을 들었다"고 트위터에 올렸어요. 이 소식은 순식간에 전 세계로 퍼져나갔는데, 그 속도가 무려 초당 5000회에 이를 정도였습니다. 대통령의 공식 발표(밤 11시 35분) 전에, 이미 전 세계의 사이버 공간은 이 소식으로 떠들썩했지요.

빅 데이터 시대 이전에는 어떤 사건이 일어나도 그 데이터를 수집, 처리해서 사람에게 전달하기까지 시간 간격이 컸어요. TV 생중계가 보편화하기 이전에는 보통 아침, 저녁에 신문에 보도되기까지 하루, 이틀 정도의 시간차가 있었습니다. 하지만 이제 대중은 동영상 생중계 혹은 트위터와 같은 사회 연결망 서비스(SNS)를 통해서 거의 실시간으로 소식을 접합니다. 당연히 이 과정에서 수많은 데이터가 굉장히 빠른 속도로 축적되지요.

강양구 : 규모, 다양성, 속도를 염두에 둔 빅 데이터의 정의는 대충 이런 식이 될 것 같군요. <빅 데이터, 경영을 바꾸다>에서 정의한 내용입니다.

"빅 데이터란 보통 수십에서 수천 테라바이트 정도의 거대한 크기를 갖고, 여러 가지 다양한 비정형 데이터를 포함하고 있으며, 생성-유통-소비(이용)가 몇 초에서 몇 시간 단위로 일어나 기존의 방식으로는 관리와 분석이 매우 어려운 데이터 집합을 의미한다." (<빅 데이터, 경영을 바꾸다>, 36쪽)

채승병 : 그런데 현실에서 빅 데이터는 데이터 집합뿐만 아니라 더욱더 넓은 의미로도 쓰이고 있어요. 빅 데이터를 다루려면 비교적 작은 크기의 정형화된 데이터에서 쓰이던 것과는 다른 차원의 기술과 인력이 요구됩니다. 따라서 좁은 의미의 빅 데이터를 관리하고 분석하는 데 필요한 기술과 인력 등을 한데 묶어서 빅 데이터로 정의하기도 합니다. 이런 식으로요.

"빅데이터란 기존의 방식으로는 관리와 분석이 매우 어려운 데이터 집합, 그리고 이를 관리, 분석하고자 필요한 인력과 조직 및 관련 기술까지 포괄하는 용어이다." (<빅 데이터, 경영을 바꾸다>, 37쪽)

▲ 김상욱 부산대학교 교수. ⓒ프레시안(손문상)

빅 데이터, '인공 지능'을 꿈꾸다!

김상욱 : 얘기를 듣고 보니 학생에게 가끔씩 던지는 질문이 떠오릅니다. "아메바가 크냐, 작냐?" 당연히 학생들의 첫 반응은 '웬, 바보 같은 질문?' 이런 식이죠. "아메바가 작지 그럼 커요?" 하고 반문합니다. 하지만 아메바는 사람보다는 작지만 원자보다는 크죠. 그래서 물리학자는 절대로 크다, 작다 이런 말을 비교 대상 없이 쓰지 않아요.

물리학자에게는 그냥 '크다' 이런 말은 의미가 없어요. 저 같은 양자 물리학자에게는 우주, 사람, 아메바 모두 뉴턴의 만유인력의 법칙이 그대로 적용되는 같은 규모의 세계거든요. 그런데 빅 데이터는 그냥 '크다' 이런 것만 강조하는 것 같아요. 빅 데이터가 기존의 작은 데이터와 어떤 근본적인 차이가 있나요?

채승병 : 맞습니다. 굉장히 중요한 지적입니다. 일단 데이터의 속성이라는 면에서는 근본적인 변화라고 할 만한 건 없어요. 더구나 빅 데이터에 맞춤한 관리, 분석 방법이 계속해서 나오고 있지만 '그것이 과거 데이터를 다루는 접근과 근본적인 차이가 있느냐', 하고 물어보면 답변이 군색한 게 사실이고요.

그래서 빅 데이터 유행을 좀 비판적으로 보는 학자 중에는 이렇게 비아냥거리는 사람도 있습니다. '만날 하던 건데, 빅 데이터라고 사기를 쳐!' 이렇게요. 그런데 좀 다른 측면에서 따져보면 어떨까요? 빅 데이터의 효과를 염두에 두면, 그것이 세상을 이해하는 우리의 접근 방식을 근본적으로 바꾸는 계기가 될 수 있거든요.

그러니까 과학자 입장에서는 '빅 데이터, 이게 뭐야' 하고 대수롭지 않게 생각할 수 있지만, 일상생활과 밀접하게 맞닿아 있는 부분 즉 비즈니스 현장과 같은 곳에서는 빅 데이터가 엄청나게 큰 변화를 유발할 수 있거든요. 우리가 빅 데이터를 놓고서 얘기할 때도 바로 그런 변화에 초점을 맞춰볼 필요가 있을 것 같아요.

강양구 : 구체적인 예를 놓고서 수다를 이어가면 어떨까요?

채승병 : 아까 세른의 LHC 얘기도 잠깐 했습니다만, 물리학 천문학 생물학 등 과학의 여러 분야에서는 이미 빅 데이터를 계속해서 다뤄왔습니다. 그러니까 자연을 이해하는 중요한 수단으로 빅 데이터를 활용해온 거죠. 앞으로도 자연과학에서 빅 데이터의 중요성은 더욱더 커질 거예요.

이명현 : 천문학에서도 이제 과거의 찍은 사진을 디지털 이미지로 가공을 하기 시작했어요. 그 과정에서 해상도가 좋아지면서, 예전에는 보지 못했던 새로운 사실이 드러납니다. 금성만 해도 그래요. 금성이 예전에는 죽은 행성이라고 생각했는데, 1970년대에 금성을 찍은 사진을 다시 해상도를 높여보니까 화산이 폭발하는 등 활발히 활동하고 있는 거예요.

명왕성도 공식 발견한 해는 1930년입니다. 그런데 이미 그 이전에 한 천문대에서 찍은 사진에 명왕성이 찍혀 있었던 거예요. 나중에 사진을 디지털 데이터로 바꾸는 과정에서 확인이 된 거죠. 이렇게 데이터를 재해석하는 과정에서 나타나는 발견이 많으니 아예 '프리커버리(precovery)'라는 새로운 용어까지 등장했어요.

채승병 : 그런데 이제는 과학뿐만 아니라 선거와 같은 사회 현상을 이해하는 중요한 수단으로 빅 데이터의 활용을 모색 중이에요.

오바마 대통령이 재선에 성공한 지난 2012년 미국 대선도 그 중 한 예입니다. 민주당이든 공화당이든 미국의 정당이 선거에서 데이터의 중요성을 강조해온 건 어제오늘의 일이 아닙니다. 그런데 지난 2008년 미국 대선 때부터 이런 데이터에 질적인 변화가 나타났어요. 오바마 대통령을 지지하는 흑인, 여성, 20~30대의 피 끓는 열정이 인터넷 게시판을 달군 거죠.

특히 트위터, 페이스북과 같은 SNS를 통한 선거 운동이 활발했는데요. SNS를 비롯한 인터넷 게시판에 축적된 엄청난 데이터는 과거 선거 운동에 활용된, 예를 들자면 여론 조사 데이터 등과는 질적으로 다른 것이었어요. 그리고 선거가 끝나고 나서 민주당은 이런 데이터를 통합하는 작업을 수행합니다.

그리고 이렇게 축적된 빅 데이터를 바로 이번 대선에서 활용한 거예요. 지역별, 세대별, 인종별, 계층별로 차별화된 정책을 다양한 방식으로 홍보하고, 또 SNS의 여론 동향을 2008년과 비교해서 판세를 점검하고, 불리한 쪽에 막대한 홍보비를 쏟아붓는 식의 맞춤형 선거 운동을 한 거죠. 그리고 그 결과 오바마 대통령은 예상 외의 낙승을 거뒀습니다.

이번 미국 선거 운동의 사례는 빅 데이터가 앞으로 어떻게 활용될 수 있을지를 보여주는 예입니다. 인류의 역사를 살펴보면, 과학기술의 관점에서 보면 보잘 것 없는 혁신이었는데 그것이 결과적으로 사회에 굉장히 큰 영향을 준 게 많아요. 빅 데이터가 바로 그런 역할을 하리라고 예상합니다.

강양구 : 공감합니다. 뉴미디어에서 기자 생활을 하다 보니, 기존에 다양한 형식으로 흩어져 있던 데이터를 단순히 통합하는 것만으로도 전혀 다른 효과를 낳는 모습을 종종 보거든요. 그런 점에서 빅 데이터가 사회에 주는 충격은 생각보다 훨씬 더 클 수도 있으리라고 생각합니다.

▲ 이명현 '프레시안 books' 기획위원. ⓒ프레시안(손문상)

이명현 : 얘기를 듣다 보니, 언뜻 생각이 났는데요. 물리학에서 '창발(emergence)' 개념이 주목을 받고 있습니다. 네트워크를 구성하는 여러 요소들이 상호 작용하면서 각각의 요소에서는 볼 수 없었던 전혀 다른 성질을 보이는 현상을 일컫는 개념이죠. 빅 데이터도 일종의 창발이 아닐까요? 개별 데이터에서는 기대할 수 없었던 어떤 효과를 데이터의 집합이 낳는 거니까요.

채승병 : 바로 생각나는 게 구글 번역 서비스입니다. 예전의 번역 서비스는 연역적인 접근이었어요. 문법부터 시작하는 겁니다. 번역을 해야 할 영어 문장이 있으면 "I"는 "나" "am"은 "이다" "boy"는 "소년" 이렇게 따지는 거예요. 그렇게 1대1로 대응을 시킨 다음에 미리 입력한 문법에 따라서 번역어를 조합하는 거지요. 그 결과는 도저히 읽을 수 없는 번역 문장이었고요.

그런데 구글 번역 서비스는 귀납적인 접근입니다. 수많은 문장을 통째로 일정한 유형(pattern)으로 분류해서 입력해 놓고서, 상황에 따라서 적당한 번역 문장을 내놓아요. 이런 번역 서비스가 제대로 되려면 엄청난 데이터가 축적되어야 합니다. 현재까지는 데이터가 적지만, 앞으로 더 많은 데이터가 쌓이면 굉장히 그럴 듯한 번역 서비스를 제공받을 수 있을 거예요.

강양구 : 듣고 보니, 한 후배 기자가 사내 게시판에 올려서 기자들끼리 낄낄대던 일화가 생각납니다. 구글 번역 서비스에서 한국어를 영어로 번역을 하면 그 결과가 신통치 않아요. 그런데 한국어를 문법 구조가 비슷한 일본어로 번역을 하면 꽤 그럴듯하거든요. 그런데 이 일본어를 다시 영어로 번역하면 애초 한국어 문장에 상응하는 상당히 정확한 영어 문장이 나옵니다.

도대체 왜일까요? 일본 야동(야한 동영상)의 힘이죠. (웃음) 영어권의 사용자들이 일본에서 생산된 야동, 애니메이션, 만화 등의 대사를 자꾸 번역을 하다 보니, 일본어를 영어로 번역한 데이터가 쌓이고, 그 결과 일본어를 영어로 번역하면 그럴듯한 문장이 나오게 된 겁니다. 의외의 곳에서 방금 지적한 빅 데이터의 효과가 나타난 거예요.

이명현 : 사실 구글 번역 서비스는 인간 지능과도 유사하죠. 그런 점에서 빅 데이터는 '인공 지능(AI, Artificial Intelligence)'과도 통하는 것 같네요.

채승병 : 맞습니다. 우리가 문법부터 배워서 말을 하는 게 아니잖아요. 계속 듣고, 쓰다 보니 특정한 문장의 유형이 머릿속 신경망에 각인이 되고, 또 그런 데이터가 쌓이면서 '이럴 때는 높임말을 해야지' 하는 예외적인 상황이 부가되면서 일상생활에서 의사소통이 가능해졌잖아요.

그런데 예전에는 인공 지능을 연구하는 과학자들이 이런 인간 지능의 작동 방식을 적용할 수 없었어요. 왜냐하면 인간 지능처럼 작동하는 인공 지능을 구현하려면 엄청난 데이터가 필요하니까요. 그런데 빅 데이터 시대가 되니까, 이렇게 인간 지능과 유사한 방식의 인공 지능이 드디어 가능한 거죠.

구글은 공공연하게 자신을 인공 지능 회사로 자리매김합니다. '왜 이렇게 데이터를 축적하느냐고? 왜냐하면 우리는 인간을 행복하게 해주는 진짜 똑똑한 인공 지능을 만들고 싶어서.' 바로 이게 구글의 비전입니다. 그리고 실제로 구글은 엄청난 데이터를 활용해 좀 더 똑똑한 검색 결과를 사람에게 내놓고, 좀 더 똑똑한 광고 방법으로 기업을 유혹하죠.

김상욱 : 그렇다면, 이런 빅 데이터는 거스를 수 없는 흐름이겠군요. 왜냐하면, 방금 예를 든 구글의 방식이야말로 자연스럽잖아요. 우리가 아는 지능을 가진 대부분의 생명체가 그런 식으로 학습을 하니까요. 다만 지금까지 우리는 생명체가 하는 방식을 흉내 내지 못했죠. 엄청난 자원이 필요했으니까요. 그런데 이제는 빅 데이터로 그런 게 가능해지고 있다는 거잖아요.

그런 점에서 빅 데이터야말로 궁극의 데이터라는 생각도 드는군요. 이거 얘기를 들을수록 빅 데이터의 매력에 빠져들고 있습니다. (웃음)

ⓒ프레시안(손문상)

빅 데이터, '해석'이 중요하다

강양구 : 여기서 제가 좀 찬물을 끼얹어 볼게요. (웃음) 앞으로 빅 데이터는 자연과학뿐만 아니라 인문·사회과학에서도 여러 가지 충격을 줄 가능성이 큽니다. 인간이나 사회를 이해하는 데 빅 데이터가 활용될 여지가 앞으로 많아지리라는 겁니다. 그런데 그럴 때마다 굉장히 조심해야 할 것 같아요. 최근에 <프레시안> 지면에서 비판한 좋은 예가 있어요. (☞관련 기사 : 부자 신문 <동아일보>의 '무지' 혹은 '혹세무민'?)

얼마 전 <동아일보>에서 "중증 질환, 부자가 더 걸린다", "가난이 병은 옛말, 부자 동네 4대 중증 환자 더 많다" 등의 자극적인 제목의 기사를 실었어요. 이 기사는 국민건강보험공단의 의료 이용 자료를 놓고서 빅 데이터 분석을 시도한 거예요. 그런데 우리가 아는 상식과는 정반대잖아요. 그래서 <동아일보>와 해당 기자가 "얼씨구나!" 하고 1면에 실었겠죠.

그런데 이 기사를 본 건강 불평등을 연구하는 학자 몇몇이 <프레시안>에 공동으로 반박 기고를 했습니다. "가난한 계층, 가난한 동네에서 질병 유병률, 사망률이 높다는 논문이 매년 수십 편씩 나오고 있고, 심지어 보건복지부와 질병관리본부의 <국민 건강 통계>도 이런 사실을 뒷받침하고 있다"고요.

도대체 어디서부터 잘못된 걸까요? 이 빅 데이터 분석이 완전히 잘못된 이유는 '맥락'을 고려하지 않았기 때문이에요. 국민건강보험공단의 의료 이용 자료는 의료 기관의 진료비 청구를 위해서 작성된 자료이기 때문에, 질병이 있어도 의료 이용을 하지 않거나 혹은 질병이 없는데도 의료 이용을 하는 경우를 배제하지 못합니다.

그러니 이 빅 데이터 분석의 정확한 해석은 이런 거죠. '부자들은 중증 질환 의료 이용을 더 많이 하는 반면에, 저소득층은 그렇지 못하다.' <동아일보>가 완전히 헛짚은 건데요. 앞으로 인간이나 사회를 이해하려는 빅 데이터 분석이 많아질수록 이런 식의 잘못된 해석이 많아질 것 같아서 걱정입니다.

채승병 : 정확한 지적입니다. 사실 그건 빅 데이터가 아니라 모든 데이터 분석에서 공통적으로 부딪치는 문제입니다. 빅 데이터에 대한 사회적 관심이 높아질수록 갈수록 '해석'의 중요성이 커지고 있어요. 그리고 더 나아가 빅 데이터에 어떤 가치를 담을 것인지를 놓고도 논쟁이 많아지고 있고요.

아예 요즘에는 빅 데이터 분석에 이공학도만 참여하는 것을 놓고도 문제 제기하는 이들이 많아요. 이공학도에게만 맡겨서는 제대로 된 해석이 나올 수 없다는 겁니다. 왜냐하면 인문·사회과학자가 같이 참여했을 때 좀 더 정확한 해석이 가능할 테니까요. 아까 국민건강보험공단의 의료 이용 자료를 해석하는 데도 건강 불평등 연구자가 참여했다면 어땠을까요?

강양구 : 아까 선거 얘기를 했잖아요. 그런데 SNS를 비롯한 인터넷 공간에 축적된 빅 데이터를 선거 등에 활용할 때도 좀 더 주의가 필요할 것 같아요. 왜냐하면 그런 빅 데이터에는 세대 간, 계층 간의 '디지털 디바이드(digital divide, 정보 격차)'의 문제가 분명히 각인되어 있거든요.

우리나라만 하더라도, SNS 공간의 여론은 거의 20~30대가 장악하고 있습니다. 그런데 지난 대선 때 확인했듯이 막상 뚜껑을 열어보니 어땠나요? 빅 데이터의 대부분이 디지털 정보라는 점을 염두에 두면, 해석을 할 때는 이런 점을 꼭 염두에 둬야 한다고 생각합니다. 현장에서 보기에는 어떤가요?

채승병 : 맞아요. 난점입니다. 지난 대선 때 민주당이 판세를 잘못 읽은 것도 바로 그런 점을 제대로 보정하지 못한 탓입니다. SNS 여론만 보고서 '이겼다!' 이런 거예요. 한 편에서는 이런 민주당을 보고서 '그러니, 너희가 하수지!' 하고 비아냥거리기도 하고요. (웃음) 어차피 데이터 분석에는 '편견'이 들어갈 수밖에 없는 거고 그걸 보정하는 게 또 실력이니까요.

방금 지적한 디지털 디바이드는 그 자체로 굉장히 중요한 문제입니다. 요즘에는 정부나 지방자치단체에서 제공하는 여러 가지 유용한 생활 정보가 많잖아요? 그런데 정작 그런 정보는 꼭 필요한 저소득층 또는 노령 인구에게는 제대로 전달이 안 됩니다. 인터넷을 통해서 그런 정보를 공지하는데, 저소득층이나 노령 인구의 인터넷 이용률이 낮으니까요.

그래서 파격적이지만 이런 것도 고민해 봅니다. 지금 전 국민에게 주민등록증을 지급하잖아요. 이제 어느 시점이 되면 스마트폰까지는 아니더라도, 최소한 일상적으로 인터넷 공간에 접속할 수 있는 디바이스는 전 국민에게 하나씩 지급해야 하지 않을까요? 물론 주민등록증에도 알레르기를 일으키는 분들이라면, 이런 제안에 경악을 하겠지만요. (웃음)

빅 데이터와 빅 브라더를 넘어서

ⓒ프레시안(손문상)

강양구 : 사실 빅 데이터는 곧바로 '빅 브라더(Big Brother)'를 연상시킵니다. (웃음) 조지 오웰의 <1984>(정희성 옮김, 민음사 펴냄)에 나오는 빅 브라더에 가장 가까운 기업이 구글이나 애플 같아요. 우리가 구글의 안드로이드폰이나 애플의 아이폰을 사용하면, 우리의 모든 데이터가 축적되고 있거든요.

좋은 쪽으로 해석하면 과거에는 상상도 하지 못했던 인공 지능 서비스를 받을 수 있지만, 다른 쪽으로 해석하면 세련된 방식의 감시 사회의 도래잖아요. 감시당하는 이들이 자발적으로 자기 정보를 가져다 바치면서 감시를 자청하니까요. 기막힌 사회죠. 이런 점을 염두에 두면, 빅 데이터는 곧바로 개인 정보 보호 즉 프라이버시와 연결됩니다.

채승병 : 정말로 중요한 문제입니다. 그래서 혹자는 빅 데이터라는 이름을 잘못 붙였다고 투덜대기도 해요. (웃음)

강양구 : 곧바로 빅 브라더가 연상이 되니까요. (웃음)

채승병 : 맞습니다. 빅 데이터를 놓고 얘기를 나누는 회의에 가면 만날 부딪치는 문제가 바로 프라이버시입니다. 빅 데이터가 어마어마한 인권 침해의 소지가 있다고 걱정하는 사람이 한둘이 아니죠. 그리고 이들은 굉장히 빽빽한 규제의 필요성을 강조합니다. 실제로 빅 데이터에는 그런 프라이버시 침해 위험이 분명히 있습니다.

영국 같은 경우는 세계에서 가장 CCTV가 많은 나라잖아요. 더구나 요즘엔 CCTV 해상도도 아주 좋습니다. 영국 경찰청에서 이런 CCTV 정보를 어떻게 활용하겠어요? CCTV의 동영상 데이터를 안면 인식(facial recognition) 기술과 접목시키면, 할리우드 영화 <마이너리티리포트>에 나오는 것처럼 범죄자의 위치를 실시간으로 확인할 수 있죠. 뉴욕 경찰청도 마이크로소프트와 손잡고 같은 일을 시작했고요.

이러니 빅 데이터가 무시무시한 경찰국가의 출현을 예고하는 게 아닌가, 하는 의혹이 생길 수밖에 없습니다. 이런 우려는 당연히 충분히 공론화가 되어야 한다고 생각합니다. 하지만 그런 해악만 강조하는 건 바람직하지 않아요. 어떤 새로운 과학기술이 등장하면 항상 그것의 위험에 대한 경고가 있었죠. 인류는 그 위험을 최소화하면서 과학기술의 발전을 도모해 왔습니다.

이런 관점에서 빅 데이터를 디지털 시대의 석유로 비유해보고 싶어요. 석유가 발견되자마자 가장 먼저 일상생활에서 쓰인 건 휘발유였어요. 그런데 그 휘발유를 처음에는 세탁용 세제로 사용했습니다. 휘발유를 붓고 한창 옷의 때를 지우는 근처에 촛불이 있으면 무슨 일이 생기겠어요. 휘발유가 펑 터져서 집안이 쑥대밭이 되는 사고가 빈번했습니다.

당연히 휘발유의 위험을 경고하는 뉴스도 많았어요. 만약 그 때 휘발유의 위험만 강조하면서 석유 정제를 법으로 금지했으면 어떻게 되었을까요? 석유 시대는 한참 뒤로 늦춰졌을 겁니다. 하지만 인류는 휘발유의 폭발력을 내연기관에 활용할 생각을 했고, 결국에는 자동차로 대표되는 석유 시대를 열었지요.

김상욱 : 지금 빅 데이터를 둘러싼 상황이 촛불 때문에 휘발유가 폭발한 그 순간과 비슷하군요. 아닌가, 지금은 아직 휘발유로 빨래를 하는 중인가요? (웃음)

채승병 : 그렇지요. 아직 빅 데이터가 낳는 여러 가지 문제를 느끼지 못하는 상황입니다. 하지만 조만간 빅 데이터의 문제가 여기저기서 '펑' 터질 거예요. (웃음)

ⓒ프레시안(손문상)

김상욱 : 앞에서 빅 데이터와 프라이버시를 둘러싼 얘기를 했잖아요. 그런데 사실 빅 데이터를 둘러싼 더 중요한 문제는 자꾸 정보가 돈과 연결되는 거죠. 페이스북을 열심히 하면서 가끔씩 언짢은 기분이 듭니다. 물론 내가 좋아서 페이스북을 이용하는 거지만, 정작 그 플랫폼을 제공하는 기업은 엄청난 돈을 벌잖아요.

그 기업이 그런 돈을 벌게 해주는 건 바로 저와 같은 이용자(소비자)들입니다. 그런데 정작 우리가 그 기업으로부터 받는 대가는 적습니다. 우리는 프라이버시 침해까지 무릅쓰고 그 기업의 돈벌이를 위해서 소중한 정보를 제공하는데, 그 기업은 과연 우리에게 무엇을 해주는지 물어야 한다는 거예요.

강양구 : 구글이나 페이스북은 이렇게 얘기하겠죠. '우리가 너와 친구들이 커뮤니케이션할 수 있도록 인터넷 공간도 주고, 이메일도 공짜로 쓸 수 있게 해주잖아!'

김상욱 : 그러니까, 그게 정당한 대가인지 물어야죠. 더 심각한 문제는 자신의 소중한 데이터를 제공하는 대다수가 그런 인식조차 하지 않는 거죠.

채승병 : 그런 점에서 빅 데이터 그리고 더 나아가 데이터 자원을 둘러싼 본격적인 사회적 논의가 필요합니다. 아까 빅 데이터는 일종의 거스를 수 없는 흐름이라고 얘기했어요. 그렇다면, 이제는 빅 데이터의 부작용을 걱정하면서 금지를 논할 게 아니라, 그것을 사익이 아닌 공익을 위해서 활용하는 방안을 적극적으로 고민해야 할 것 같아요.

사실 우리가 빅 브라더를 두려워하는 중요한 이유는 구글과 같은 기업이 빅 데이터와 같은 정보를 독점하고 있기 때문이잖아요. 그런데 빅 데이터가 꼭 사익을 증진시키는 데만 쓰일 이유는 없습니다. 만약 그 빅 데이터를 공유할 수 있다면, 공익을 위해서도 충분히 쓰일 수 있거든요. 한 가지 예를 들어볼게요.

돼지고기 값이 폭락해서 양돈 농가가 시름이 많습니다. 정말 주기적으로 돼지 파동, 마늘 파동, 배추 파동 등이 끊이지 않죠. 그런데 이런 온갖 파동이 반복되는 중요한 이유는 바로 정보의 부재 때문이에요. 만약 양돈 농가가 시설을 늘리고 돼지를 구매할 때, 누군가 이 돼지고기가 출하될 때의 시장 상황을 예측해 준다면 상황이 이 지경까지 되지는 않겠죠.

예전에는 그런 예측 자체가 불가능했어요. 하지만 지금은 전국의 양돈 규모와 돼지 거래를 실시간으로 확인하는 게 기술적으로 충분히 가능합니다. 그렇다면, 정부가 그런 데이터를 이용해서 1년, 2년 후의 돼지 시세를 예측하는 것도 가능하죠. 이런 게 시행된다면, 빅 데이터가 국민 경제와 양돈 농가를 위해서 유익하게 사용될 수 있지요.

이제 관점의 전환이 필요합니다. 지금은 빅 데이터를 모으고 관리할 수 있는 기업이 구글 애플 아마존 등 소수에 불과합니다. 그러니 빅 데이터가 무서운 거예요. 하지만 정부 혹은 시민 사회가 주도해서 빅 데이터를 모으고 관리할 수 있다면, 오히려 빅 데이터는 데이터 정보에 대한 자기 결정권을 확장할 수 있습니다.

강양구 : 얼른 용어를 만들어 보자면, 빅 데이터가 '데이터 민주주의'를 확장, 심화하는 도구로도 사용될 수 있다는 거네요. 그러고 보니, 국내 기업의 형편은 어떻습니까?

채승병 : 국내 기업은 구글 애플 아마존 등과 비교했을 때 데이터 정보의 중요성을 뒤늦게 깨달았습니다. 실제로 소중한 데이터 정보를 버린 경우도 많아요. 사실 웹 서버를 운영하다 보면, 하드 디스크의 용량이 모자라서 제일 먼저 버리는 게 회원들의 접속 정보였잖아요. 그런 걸 차곡차곡 쌓아 놓으면, 그게 바로 정말 활용 가능성이 무궁무진한 빅 데이터인데요. (웃음)

ⓒ프레시안(손문상)

디지털 정보의 영속성 vs. 잊혀질 권리

강양구 : 기왕에 데이터 정보 얘기가 나왔으니, 그 얘기를 좀 더 해보죠. 지금 영국 케임브리지 대학에서는 찰스 다윈이 평생 주고받은 편지 약 1만4000통을 모조리 모으는 프로젝트를 진행 중입니다. 그런데 이 프로젝트가 가능했던 중요한 이유 중 하나는 다윈이 받은 편지뿐만 아니라 자신이 보낸 편지의 사본을 대부분 필사해서 남겨놓았기 때문이죠. (웃음)

그런데 한 100년 후에 여기 있는 이명현, 김상욱, 채승병 선생님께서 이메일로 주고받은 편지를 누군가가 모으는 일이 가능할까요? 방금 얘기한 저장 용량의 한계 또 디지털 정보를 소홀히 여기는 태도 등 여러 가지 이유 때문에 우리는 일상생활에서 너무 쉽게 소중한 정보를 삭제합니다.

더구나 최근 '나우누리'나 '프리첼' 폐쇄를 둘러싼 난리법석에서 확인할 수 있듯이, 인터넷 공간에서 우리가 축적하는 정보의 영속성을 보장받을 수 있을지도 의문입니다. 수년 길게는 10년 이상 쌓여온 정보가 서비스 제공 기업의 결정에 따라서 순식간에 공중 분해될 수 있는 게 지금 우리의 인터넷 환경이거든요.

채승병 : 반대의 경향도 있지요. 유럽연합(EU)은 지난 2012년 1월 25일 '잊혀질 권리(right to be forgotten)'를 명문화한 정보 보호법 개정안을 확정했어요. 잊혀질 권리는 온라인상의 개인 정보를 삭제 요구할 수 있는 권리입니다. 회원의 정보를 이용해서 끊임없이 빅 데이터를 축적해야 하는 구글 같은 기업은 발끈하고 있고요.

어려운 문제입니다. 일단 정보의 삭제는 불가피한 부분이 있어요. 저장 용량의 기술적 한계 때문에 마냥 쌓아놓을 수는 없거든요. 그 과정에서 개인의 소중한 정보를 어떻게 보존할지가 큰 문제가 될 거예요. 그 중 어떤 정보는 개인 차원을 넘어서 이미 공공 자산이 된 것일 수도 있고요.

반면에 잊혀질 권리에서 나타난 것처럼 개인의 프라이버시 문제도 중요합니다. 기업 혹은 사회 입장에서 아무리 중요한 정보라고 하더라도, 개인이 원하지 않는다면 영구적으로 삭제할 수도 있어야죠. 프라이버시 침해나 사이버 폭력이 심각해질수록 이런 권리에 대한 관심이 높아질 거예요. EU의 정보 보호법 개정안은 그런 흐름이 가능하도록 물꼬를 튼 거죠.

저는 어떤 방향이 옳은지 아직 입장을 정해지 못했어요. 다만 디지털 정보가 중요해진 시대에 맞는 새로운 교육의 필요성을 강조하고 싶습니다. 빅 데이터를 비롯한 디지털 정보가 사회의 미래는 물론이고 개인의 미래에도 큰 영향을 미칠 수 있다는 내용을 이제는 어른, 아이를 불문하고 가르치고 토론해야 합니다.

단적인 예를 하나 들까요? 기업이 인사 관리를 하면서 트위터, 페이스북 등을 샅샅이 뒤지고 있어요. 특히 미국의 기업은 이미 채용 결정을 할 때 트위터, 페이스북 등의 정보를 중요하게 고려합니다. 왜냐하면, 개인의 사생활을 엿보면 이 사람이 노닥거릴 사람인지 혹은 술을 좋아해서 얼마 못 가 나자빠질 사람인지 등을 미리 확인하는 게 가능하거든요.

지금 당신의 행동 하나하나가 어딘가에 데이터로 기록되고, 그것이 이런 식으로 혹은 저런 식으로 이용될 수 있다는 가능성을 알아야 합니다. 법으로 보장을 받을 수 있는 부분 또 개인이 편익과 위험을 감수하고 선택해야 할 부분이 정확히 무엇인지 판단할 수도 있어야 하고요. 그 과정에서 자연스럽게 데이터 정보의 밝은 면과 어두운 면도 확인할 수 있겠죠.

지금 인사 청문회에 나와서 낭패를 보는 이들을 보세요. 과거에 당연시되었던 재테크가 지금은 심각한 문제가 되어서 자신의 앞길을 가로막잖아요. 이처럼 지금의 방만한 데이터 관리가 미래에 심각한 문제가 되어서 돌아올 수도 있다는 사실, 그리고 그 과정에서 분명히 자신이 생산한 정보인데도 자기가 통제할 수 없는 경우가 생길 수도 있다는 사실 등을 알아야죠.

강양구 : 디지털 시대 혹은 빅 데이터 시대의 새로운 라이프스타일에 대한 교육이 필요한 시점이군요.

이명현 : 이미 그런 시대가 왔어요. 이제 오웰이 <1984>에서 경고했던 빅 브라더를 우려하는 단계는 지난 것 같아요. 굳이 이름을 붙이자면, '디지털 좌파' 혹은 '빅 데이터 좌파' 같은 흐름이 필요할지도 모르겠어요. 디지털 시대의 큰 흐름인 빅 데이터와 같은 것을 무작정 거부하는 게 아니라 그걸 어떻게 공적으로 활용할 수 있을지 적극적으로 고민하는 이들이요.

ⓒ프레시안(손문상)

빅 데이터, 우주를 꿈꾸다

채승병 : 마지막으로 데이터의 중요성을 한 번만 더 강조하고 싶습니다. 물리학자로서 과학 혁명이 시작된 시점을 따져 보면, 바로 데이터가 있었거든요. 티코 브라헤가 엄청난 데이터를 수집하고 요하네스 케플러가 그것을 '케플러의 법칙'으로 공식화하면서 바로 근대 과학 혁명이 시작되었잖아요.

우리나라나 중국에서는 감으로 만들던 도자기를 독일 작센 주의 마이센 장인은 구체적인 데이터를 바탕으로 만들었어요. 철분을 비롯한 성분을 얼마씩 배합하느냐에 따라서 가장 멋진 백자가 나오는지를 데이터로 남긴 겁니다. 그런 데이터의 힘 때문에 마이센 장인은 자기의 산업화에 성공했습니다.

우리가 데이터를 어떻게 취급하고 어떤 통찰을 얻느냐에 따라서 미래가 바뀔 수도 있다는 겁니다. 최근에 정부에서 빅 데이터를 주제로 자문에 응할 기회가 있었어요. 그 때도 이런 얘기를 했습니다. 당장 눈에 보이는 사업도 중요하지만, 사실은 이런 데이터에 대한 관심이야말로 결정적인 차이를 낳을 수 있다고요. (웃음)

김상욱 : 여기에 도저히 규칙이라고는 없는 숫자의 나열이 있어요. 대다수의 사람에게 그 숫자는 아무런 의미가 없죠. 하지만 사실 그 숫자는 파이(3.1415926535……)의 1500만 번째부터의 숫자입니다. 그 숫자가 파이의 한 부분이라는 정보를 알고 있는 사람은 컴퓨터 명령어 한 줄로 구현할 수 있어요.

규칙 없는 숫자의 나열이 어떤 이에게는 굉장히 가치 있는 정보인 거죠. 과학자를 비롯해서 기존에 데이터를 다루는 이들은 바로 이 가치의 문제를 해결하지 못했어요. 가치는 지극히 맥락 의존적인 것이라서, 주관적일 수밖에 없거든요. 그런데 지금 빅 데이터를 둘러싼 여러 가지 시도는 바로 이런 정보의 가치를 다루는 새로운 접근으로 보입니다.

지금은 주로 비즈니스 현장에서 빅 데이터가 다뤄지지만, 그 과정에서 쌓인 여러 가지 통찰이 과학 더 나아가 사회의 여러 문제를 해결하는데 새로운 돌파구를 마련할 수도 있을 것 같아요. 그러고 보면, 정작 물리학의 최전선은 강의실이나 실험실이 아니라 바로 빅 데이터를 놓고서 갑론을박하는 저자거리, 즉 비즈니스 현장 같은 곳일지도 모르겠습니다.

채승병 : 그렇게 얘기해 주니 고맙습니다. (웃음)

ⓒ프레시안(손문상)

김상욱 : 그런데 데이터가 곧 정보잖아요. 오늘 과학 수다를 준비하면서 몇 가지 숫자를 적어 왔어요. 한 인간의 유전체 정보가 200테라바이트라고 합니다. 0이 열네 개 붙은 10의 14승 바이트입니다. 그런데 이것도 큰 게 아닌 게 아까도 잠시 언급했지만 세른의 LHC는 2010년에만 무려 13페타바이트의 데이터가 나왔어요. 10의 16승 바이트죠.

그럼, 우주에 있는 모든 정보를 모조리 모아보면 어떻게 될까요?

이명현 : 궁극의 빅 데이터요? (웃음)

김상욱 : 세스 로이드가 <프로그래밍 유니버스>(오상철 옮김, 지호 펴냄)에서 비슷한 시도를 했어요. '우주의 모든 가용한 자원을 총동원해서 만들 수 있는 가장 강력한 컴퓨터가 무엇일까?' 이런 질문에 답해본 거예요. 로이드가 추산한 결과를 보면, 현재 예상되는 우주의 전체 에너지는 10의 71승 줄(J)입니다.

이런 에너지로 나올 수 있는 컴퓨터는 매초 10의 105승의 연산을 수행할 수 있어요. 구글이 원래 회사 이름을 10의 100승을 가리키는 '구골(Googol)'로 하려다 실수로 잘못 등록하는 바람에 구글이 되었다고 하잖아요? 그러니까 구글이 꿈꿨던 10의 100승보다 0이 5개가 더 붙는 게 우주에서 궁극적으로 가능한 연산 속도라는 거예요.

우주의 역사가 약 137억 년이니까, 우주가 탄생한 이래로 이 컴퓨터가 해온 연산은 약 10의 122승에 불과합니다. 그렇다면, 이런 컴퓨터가 저장할 수 있는 메모리의 한계는 얼마나 될까요? 역시 계산을 해보면 10의 92승 비트가 나옵니다. 그러니까 궁극의 우주 컴퓨터는 10의 92승 비트에다 10의 122승 연산을 수행할 수 있어요.

상상할 수 없을 정도로 큰 숫자지만, 한편으로는 '이게 전부야?' 하는 생각도 듭니다. 지금 우리의 빅 데이터가 10의 20승 비트 정도인데, 우주의 한계가 10의 93승 비트 정도라는 거예요. 만약 우리의 빅 데이터가 계속 축적된다면, 어쩌면 그 자체가 우주가 될지도 모릅니다. (웃음)

강양구 : 아이작 아시모프가 1956년에 쓴 단편 소설 중에 '최후의 질문(The Last Question)'이 있잖아요. 이 이야기에서 바로 그런 이야기가 나오죠. 이 소설에서 아시모프가 '멀티백'이라고 부른 컴퓨터가 바로 '구글' 같아요.

김상욱 : 네, 이번 수다는 그 이야기로 마무리하면 어떨까요? (웃음)

우주가 컴퓨터가 된다면…

{#895909031X#}

2061년, 이야기의 초반에 컴퓨터 멀티백을 조작하는 루포브와 아델은 우주의 미래를 두고 논쟁을 벌이고, 인류가 지금부터 100억 년 뒤까지, 모든 별이 타서 꺼졌을 때까지 살 수 있을지 컴퓨터에게 물어보기로 결정했다. 루포브는 말한다.

"모든 것은 최초의 우주 폭발에서 시작했어. 그리고 모든 별들이 수명을 다했을 때 모든 것이 끝나는 거야. 1조 년 후에는 모든 것이 어둠 속에 잠길 테지. 엔트로피는 최대로 증가해야 할 것이고. 그럼 끝이야……."

이제 아델이 반박할 차례였다.

"어쩌면 우리가 언젠가 다시 물체를 만들 수 있을 거야."
"결코 아니야."
"왜 안 돼? 언젠가는 가능할 거야."
"절대 안 돼."
"좋아. 그럼 멀티백에게 물어보자."

아델은 그런 질문을 시도할 정도로 충분히 취해 있었고, 질문을 필요한 기호와 연산으로 바꾸어 입력할 수 있을 만큼은 정신이 맑았다. 그 질문은 말로 하면 다음과 같았다. '인류가 어느 날 에너지의 순수한 소비 없이 늙어 죽은 태양을 젊은 상태로 되돌릴 수 있을까?' 혹은 아마도 다음과 같이 단순하게 입력되었을 것이다. '어떻게 하면 우주의 엔트로피 총량을 대량으로 줄일 수 있을까?'

멀티백은 죽은 듯 조용해졌다. 천천히 반짝이던 불빛이 멈추었다. 딸깍거리는 희미한 소리도 끝났다. 겁먹은 엔지니어들이 더 이상 참을 수 없게 됐을 때, 멀티백에 부착된 텔레타이프가 활발히 작동하기 시작했다. 다섯 단어가 인쇄되었다.

"데이터 부족. 유효한 대답 불가능."

이야기에서 시간은 흘러갔다. 인류는 은하와 다른 은하를 개척해 나갔고, 불멸을 획득했다(어쨌든 과학 소설이다). 멀티백의 후속 버전은 더욱 강력해져, 마침내 우주의 모든 구조에 퍼져 갔다. 인류는 계속하여 어떻게 열역학 제2법칙을 되돌릴 수 있는지 변형된 질문을 컴퓨터에게 물었다. 그리고 모든 답은 같았다.

마침내 인류의 모든 지식이 다른 모든 것과 함께 멀티백에 흡수되었을 때, 컴퓨터는 답을 계산했고 말했다.

"빛이 있으라!" (<프로그래밍 유니버스>, 210~212쪽)