데이터의 역사
 
지은이 : 크리스 위긴스, 매튜 L. 존스 (지은이), 노태복 (옮긴이)
출판사 : 씨마스21
출판일 : 2024년 10월




  • 데이터는 이제 우리 사회의 모든 구조와 일상에 영향을 미치는 핵심 요소가 되었습니다. 데이터의 발전 과정과 그것이 우리 삶에 미친 영향에 대해 깊이 이해할 수 있도록 안내합니다.


    데이터의 역사


    데이터의 탄생

    숫자로 사회를 정의하다

    통계로 세상을 다스리다

    우리는 어떻게 이 세상과 사람들의 삶을 이해하기 위해서는 숫자가 반드시 필요하다는 생각을 하게 되었을까? 예술가부터 인류학자, 소설가부터 정치 지도자까지 비판자들은 오랫동안 정량화를 반대했다. 1806년 한 독일인 논객은 이렇게 썼다. “이 어리석은 친구들은 크기, 인구, 국민소득 그리고 풀을 뜯는 말 못 하는 짐승들의 수를 알기만 하면 한 국가의 힘을 이해할 수 있다는 미친 생각을 퍼뜨린다?” 그의 주장에 따르면, 천박한 통계학과 달리 국가의 진짜 통계와 진정한 지식은 역사에 관한 주의 깊은 설명과 지식에 달려 있었다. 이런 연구는 물질적인 부분을 뛰어넘어 각국의 도덕적, 정신적 기질을 파악하는 것이었다. 예를 들어, 17세기 후반부터 도덕적 교훈, 소식 전달 및 금전적 목적으로 사망률을 도표로 작성하는 사례가 점차 증가했지만, 그런 조악한 도표를 국정 운영의 중대한 질문에 무턱대고 적용하는 것은 혐오스러운 행동이었다. 숫자를 처리하는 자들은 도표 통계학자일 뿐 진정한 통계학자가 아니었다. 숫자에 기반한 설명은 “국가, 도덕 및 신성의 정신적 힘과 관계를 다루지 못하며” 그런 통계학자들은 “질(quality)은 전혀 못 보고 오직 양(quantity)만 본다”는 것이 당시 주류 학자들의 생각이었다.


    숫자가 항상 권력을 이해하고 행사하는 확실한 수단의 역할을 했던 것은 아니다. 그렇다면 어떻게 그 자리를 차지한 걸까? 왜 지금 우리는 숫자에 의지할까? 컴퓨터로 처리된 숫자가 어떻게 우리에게 약도 주고 병도 주게 된 걸까? 사람과 사물에 대한 데이터의 수학적 분석은 어떻게 세계를 이해하고 통제하며 예측과 처방을 내리는 데 대단히 지배적인 수단이 되었을까? 계몽시대 끝 무렵에 수리통계학의 비판자들은 데이터가 대단히 인위적이라는 점을 간파했다.


    여러 해 전에 리사 지털먼(Lisa Gitelman)이 언급했듯이, “미가공 데이터란 말은 형용모순이다.” 데이터를 수집하는 모든 과정에서 무엇을 고를지, 어떻게 분류할지, 누구를 포함하고 누구를 배제할지 등은 인간의 선택을 통해 이루어지기 때문이다. 모든 데이터 수집에는 수집하는 측의 인지적 편향과 더불어 해당 정보를 분류하고 저장하고 처리하기 위해 저마다 매우 다른 인프라가 관여한다. 1600년에도 1780년에도 2022년에도 데이터는 발견되는 게 아니라 만들어지는 것이었다. 이런 데이터가 어떻게 힘을 갖게 되었을까? 데이터를 수집, 저장, 분석하는 구조는 어떻게 만들어졌을까? 데이터를 이용한 주장이 어떻게 대단한 설득력을 얻고, 심지어 법적으로 필요하게 되었을까?


    18세기 유럽에서 지배자들의 주된 관심사는 전쟁, 세금, 가끔 생명 그리고 대체로 죽음이었다. 18세기 유럽에서는 잠깐의 평화로운 기간을 제외하면 줄곧 유혈 사태가 이어졌는데, 때로는 아메리카 대륙과 그 외 지역에서까지 잔혹한 충돌이 벌어졌다. 전쟁에는 돈이 들었고, 돈을 마련하려면 세금을 더 거둬야 했다. 세금을 더 거두려면 관료 조직이 커져야 했는데, 관료 조직은 데이터가 필요했다. 계몽시대 유럽의 신생국가들은 자국이 사람, 토지, 금속, 기업 등 어떤 자원을 얼마나 갖고 있는지 알아야 했다. 통계학(statistics)은 원래 국가(state)와 국가가 소유한 자원에 관한 지식이었으며, 정량적 탐구 방향이나 예측과 같은 통찰을 얻기 위해 추구하는 학문이 아니었다. 1780년에 회계장부가 폭발적으로 많아지자 이를 가리켜 이언 해킹은 “숫자의 눈사태(avalache of numbers)”라고 인상적으로 표현했다.


    이 새롭고 고도로 수치적인 통계학은 통치 질서와 사람을 이해하는 과거의 방식들을 위협했다. 새로 생겨난 통계학의 옹호자들은 정치철학의 고전들에 바탕을 두고 국가의 조직 체계를 정비하거나 고대 및 근대 국가들의 역사를 지침으로 삼기보다는 토지와 국민들에 대한 정량적 서술이야말로 통치의 지침이 되어야 한다고 강조했다. 개혁 성향의 관리들은 국민과 국가를 연구할 새로운 방법으로 무장하고서, 자신들의 방법이 국가의 성장과 안녕에 필요하다고 통치자들을 설득하려고 했다. 그들은 정책 제안의 수단으로서 자신들의 방법을 설명하고 해석하려 했다. 측정은 중립적이지 않았고 특정학 목표를 염두에 두고 계획되었으며, 정책, 특히 자원의 할당을 제안하는 수단으로 해석되었다. 18세기가 끝나갈 무렵, 신생국가 미국은 인구총조사를 국가의 기본법인 헌법에 공식적으로 포함시켰다. 지금과 마찬가지로 그 당시에도 숫자는 정치적이었다.


    개인정보의 수집과 해석에 관한 역사는 정치, 군사, 식민 통치 및 산업 권력의 대폭적인 강화를 종종 수반한다. 중국, 잉카 지역 및 기타 지역에서 토지와 국민에 관한 정보를 수집했던 오랜 전통을 감안할 때, 이러한 관행은 후기 계몽 시기의 유럽 국가들에만 국한된 것은 아니었다. 하지만 정량화는 18세기부터 20세기까지 유럽과 이후 미국 및 전 세계 식민지들에서 전례가 없을 정도로 중요한 방법으로 자리 잡았다.


    통계는 원래 산업적/경제적/군사적 경쟁이 점점 치열해지는 시기에 국가를 위한 새로운 기술이었다. 맬서스의 후예로서 우리는 인구 과잉을 우려한다. 반대로 18세기 유럽 사상가들은 인구 부족을 우려했으며, 그 원인을 종종 경제적 저개발 탓으로 돌렸다. 군주들과 그 조언자들은 국가, 그리고 인종의 힘이란 인구의 크기와 활력으로 정량화된다고 여겼다.


    17세기 잉글랜드에서 교구 주민들의 사망 원인을 정기적으로 기록한 문서들은 수치 데이터 수집의 초기 사례이다. 재클린 워니몬트(Jacqueline Wernimont)의 설명에 따르면, 사망을 수치로 나타낸 문서들은 “전염병과 집단 사망에 대한 기록이 회계장부처럼 깔끔하고 질서정연해 보이는 역설적으로 이상화된 세계를 낳았다?” 18세기부터 유럽인들은 방대한 데이터를 기록하고 조사하기 위한 새로운 수학적 도구들을 본격적으로 만들어내기 시작했다. 정부의 능력을 강화하고 정책에 활용하고 국민을 설득하기 위해서였다.


    숫자의 축적이 가속화되자 인간 생활의 더 많은 측면들이 추상적인 수학 용어로 기록되었다. 처음부터 정부, 교회 및 민간 통계학자들은 일탈, 죽음, 범죄 및 질병에 관한 수치를 도표로 작성했다. 신구를 막론하고 기관들은 삶과 죽음의 과정에 대한 내용을 기록했으며, 지금처럼 그때도 법을 어긴 사람들에 대한 흔적을 남겼다. 1700년 이래로 통계를 기반으로 하는 사고가 부상한 것은 국가, 국민 그리고 대체로 일탈자로 여겨진 사람들에 관한 데이터 수집이 폭발적으로 증가한 덕분이었다.


    데이터 분석이 1990년대 당신이 사는 지역 식료품점의 상품 마케팅에 지장을 주었듯이, 인구, 생산 및 경작지에 대한 실증적 분석은 통치를 위한 지식을 획득하는 과거의 방식에 도전했다. 데이터 연구는 과학에서 부터 작업 현장, 나아가 약국에 이르기까지 다양한 전문 분야들의 입지를 위협했다. 전원에 대한 멋진 묘사 대신에 동식물의 수를 세게 되었고, 가치에 대한 윤리적 논의보다 특정 정책의 효과를 정량적으로 모델링하는 시도가 일어났다. 죽음에 대한 끔찍한 현실보다 사망률 통계의 도표가 부각되었으며, 소비자의 잠재적 욕구에 대한 전문 지식보다 개개의 구매 행위의 수집과 분석이 중요해졌다. 개별 의사들이 약에 대해 실시한 임상 경험보다 효능과 안전성을 측정하기 위한 무작위적 실험이 중시되었다. 대학에 지원하는 한 학생의 성격을 판단하기보다 객관적 측정치를 제공할 표준화된 시험이 도입되었다.



    진화하는 데이터

    진화하는 데이터과학

    데이터과학의 속성

    2011년, 수학자에서 데이터 권위자로 변신한 캐시 오닐과 통계학자 코스머 샬리지(Cosma Shalizi)가 당시 가장 섹시한 직업인 데이터과학자의 속성을 놓고서 인터넷상에서 논쟁을 벌였다. 오닐은 데이터과학이 통계학을 사용할 수 있는 지점에 이르는 것이 관건이라고 주장하며 이렇게 말했다.


    “달리 말해서, 일단 우리가 무언가를 통계학의 질문으로 바꿀 수 있다면 만사형통이다. 그렇기는 해도, 세상만사 어느 것도 실제로 통계학 수업에 나오는 것처럼 표준적이지는 않다. 통계학 수업에 나오는 것과 비슷한 질문을 받을 확률은 0이다.”


    데이터과학자는 다루는 데이터가 그다지 표준화되어 있지 않은데도 요청받는 업무의 범위가 훨씬 넓었고, 따라서 남다른 능력이 필요했다.


    “덧붙이자면, 데이터과학자를 정의하는 구체적인 도구 집합에 익숙한 것이 관건이 아니다. 오히려 그런 도구에 관해 장인이자 영업자가 되는 것이 관건이다.


    비유하자면, 찜 요리를 안다고 해서 내가 셰프는 아니다.”


    샬리지는 다음과 같이 이의를 제기했다.


    “하지만 내가 놀란 점은 케이시 오닐이 훌륭한 데이터과학자가 갖춰야 한다고 주장하는 재능이 훌륭한 통계학자가 갖춘 재능의 부분집합이라는 것이다. 기껏해야 그런 재능은 계산에 능통한 통계학자가 가지고 있는 재능의 부분집합일 뿐이다.”


    산업적 데이터과학과 학계의 통계학 및 기계학습 간의 핵심적 차이는 종종 대규모 인프라에서 생기는 문제투성이의 현실 세계 데이터를 다루는 역량을 찬양하고 그걸 우선시하는지 여부다. 다룬다는 것은 표준적인 알고리즘들이 사용할 수 있는 형태로 데이터를 바꾸는 재능을 의미한다. 하지만 때로는 매우 큰 데이터 세트를 충분한 용량을 가진 분산된 데이터베이스에 저장하여 처리하는 것을 의미하기도 한다. 그리고 이러한 학문 분야와 달리 데이터과학은 종종 기업이든 정부 기관이든 근본적으로 조직의 사업적 요구를 지향한다고 알려져 있다.


    많은 학계 통계학자들과 기계학습 연구자들은 이런 장인적 요소들을 지식 규모 면에서 수준 낮고 배우기 훨씬 쉽다고 얕잡아보았다. 덜 이론적인 주제라고 해서 숙달하기 쉬운 것은 아니지만, 그 이유 때문만은 아니다. 오닐이 지적했듯이, 찜 요리에 대한 지식이 셰프를 만들어내진 않는다.


    자신감에 가득 찬 데이터과학은 학계와 산업계의 방향을 재설정할 수 있는 가장 중요한 학문으로서의 위상을 갖게 되었을 뿐만 아니라 지식과 권력을 재조정할 후보 학문으로서 이미 오늘날 우리 삶의 대부분을 지배하는 제도 속에 자리 잡고 있다.


    데이터 분석을 위한 도구들

    1974년, 프린스턴대학과 벨연구소를 오가며 연구했던 수학자 존 터키는 미국 국가안보국(NSA)으로부터 탐색적 데이터 분석(Exploratory Data Analysis)에 관해 강연해달라는 부탁을 받았다. 이를 수락하면서 터키는 그 기관에 “대형 슬라이드 프레젠테이션에 필요한 스크린 두 개와 프로젝터 두 개”를 제공해달라고 요청했다. 2차 세계대전 중에 암호해독에 관여한 후 오랫동안 NSA의 과학 자문을 맡았던 터키는 1940년대 이후로 온갖 통계 기법과 그래픽 기법을 사용하여 크든 작든 데이터를 탐색하기 위한 새로운 도구들을 제작해 왔다. 처음에는 데이터 탐색을 위한 문서 도구에 초점을 맞추어, 데이터를 도표화하고 분석하는 컴퓨터로 나아가는 움직임의 선봉에 섰다. 25년 전에 NSA의 컬백(Kullback)이 터키를 “데이터 저장과 인출의 일반적 문제들에 관한 심포지엄”에 초대했는데, 그 심포지엄은 NSA가 그 문제를 살펴보아야 한다는 터키의 권고를 어느 정도 받아들이면서 마련된 자리였다. 심포지엄의 목적은 데이터 저장과 인출 문제가 일반적으로 무엇인지, 특히 NSA에게 그것이 어떤 의미인지를 살펴보는 것이었다.


    제2차 세계대전 동안에 필요했던 대규모 데이터 분석을 통해서 터키는 데이터에 대한 변화된 접근법을 실용적으로 기술했으며, 그것을 구현할 도구들을 제작하려고 했다. 1962년의 한 성명서에서 터키는 자신이 데이터 분석이라고 명명한 새로운 접근법의 필요성을 역설했다. 기존 정보를 확인하는 것뿐만 아니라 새로운 정보를 발견하는 데에도 사용되고 있는 데이터 분석법의 내용은 다음과 같다.


    데이터 분석 그리고 이에 수반되는 통계학의 부분들은 수학의 특성보다는 과학의 특성을 가져야만 한다. 구체적으로 말하면 다음과 같은 특성들이다.


    1. 데이터 분석은 보안보다 범위와 유용성을 추구해야 한다.

    2. 데이터 분석은 부적절한 증거가 정답을 더 자주 가리키도록 종종 적당히 기꺼이 틀려야 한다.

    3. 데이터 분석은 수학적 논거와 수학적 결과의 증명이나 타당성의 보증을 위한 근거가 아닌 판단을 위한 근거로 사용해야 한다.


    벨연구소의 분위기 속에서 터키와 공동 연구자들은 데이터 분석을 실현하기 위한 다양한 통계적/계산적 도구를 만들었다. 16년 후에 한 실용적 교재에서 그는 이렇게 설명했다. “탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 탐정 업무, 즉 수치적 탐정 업무이거나 계산적 탐정 업무이거나 그래픽 탐정 업무이다.” 탐색적 데이터 분석은 탐정 업무의 여러 영역에 걸쳐 유용한 일반적 이해를 제공했다. “형사사법제도의 과정은 증거 찾기와 증거력의 판단으로 명확히 구분된다. 데이터 분석에서도 이와 비슷한 구분이 유용하게 사용된다. 탐색적 데이터 분석은 형사의 특성이 있다.” 탐색적 데이터 분석은 전문적 기술이며, 터키는 그 기술을 위한 새로운 도구의 제작을 찬양했다.


    터키가 1978년에 발표한 교재로, 일찍이 여러 해 동안 초고 형태로 벨 연구소 및 여러 곳에 퍼졌던 책에서 그는 재표현(reexpression)이라는 강력한 수단을 활용한 데이터 탐색 기술을 소개했다. 그는 굵은 글씨로 이렇게 설명했다. “우리는 효과적으로 표시할 때까지 결과를 살펴보았다.” 터키는 효과적 표시란 여러 형태의 데이터에 대해 시각화 기술을 사용하여 숙련도를 발전시킨다는 뜻이라고 밝히며 이렇게 역설했다. “데이터 분석으로 얻은 출력을 이미지로 표현하려면 훨씬 더 창조적인 노력이 필요하다... 사람들은 적절한 이미지를 사용함으로써 폭넓은 요약에서부터 미세한 세부사항까지 모든 범위에서 큰 유연성을 얻을 수 있다. 왜냐하면 이미지는 아주 여러 가지 방식으로 바라볼 수 있기 때문이다.” 터키는 컴퓨터가 곧 그래픽 분야를 주도할 것이라고 내다보면서도, 그 사이에 손으로 데이터를 시각화하는 다양한 기법을 개발했다.


    벨연구소의 동료들은 터키가 제시한 노선을 따라서 그 이상으로 계속 훌륭한 연구를 이어갔으며, 점점 더 상업적/과학적 시스템에서 데이터가 폭발적으로 증가하는 흐름에 맞추어 연구했다. 1993년 터키의 벨연구소 동료인 존 체임버스(John Chambers)는 수정한 성명서를 발표하면서 통계학의 야망을 확장해야 한다고 촉구했다. 단순히 찜 요리를 아는 사람과 셰프 간의 차이를 파악한 체임버스는 작은 통계학(lesser statistics)과 큰 통계학(greater statistics)을 다음과 같이 구분했다. 작은 통계학은 “텍스트, 학술지 및 박사학위 논문으로 정의”되는 데 반해, 큰 통계학은 “포괄적이고, 방법론 면에서 절충적이고, 다른 학문 분야들과 긴밀히 연관되어 있으며, 대체로 학계 외부에서 그리고 종종 외부의 직업적 통계 분야에서 이루어진다.” 작은 통계학과 달리 큰 통계학은 단순화한 간명한 데이터뿐만 아니라 학술적 발표에도 관심을 갖는다.


    큰 통계학 연구의 넓은 범주는 다음 세 가지다.

    - 데이터 준비하기. 계획, 수집, 구성 및 확인 포함

    - 데이터 분석하기. 모형 또는 다른 요약을 통해서

    - 데이터 표현하기. 글로 쓰거나 그래픽 또는 다른 형태로



    데이터, 권력이 되다

    데이터를 둘러싼 윤리 전쟁

    벨몬트 보고서의 원칙들

    벨몬트 위원회는 과학적 실험에서 얻는 집단적 이득과 개별 연구 실험 대상자 각자에게 미치는 영향의 균형을 맞추는 방법에 중점을 두었다. 위원회의 보고서는 합법적 목적과 수단 사이의 긴장을 파악하려고 고안되었는데, 이 점은 첫 번째와 두 번째 원칙인 개성 존중과 선행에서 잘 드러난다.


    개성 존중을 위해서는 연구 실험 대상자로 참여하는 개인들의 자율성과 존엄성을 존중해야 한다. 종종 “충분한 설명에 근거한 동의”라는 수단으로 구현되는 이 원칙은 이마누엘 칸트로 대표되는 윤리학 내부의 의무론적 전통에서 도출된다. 인간 실험 대상자에 관한 연구일 경우, 이 원칙하에서는 어린이나 수감자처럼 자율성을 갖추지 못한 이들에게 충분한 설명에 근거한 동의를 보장해주어야 한다.


    선행에는 연구 프로젝트의 이득과 피해를 저울질하기가 포함된다. 종종 이는 피해를 끼치지 마라라는 말로 요약되지만, 더 일반적으로는 연구 대상자뿐 아니라 사회 전반에 있어서 혜택을 극대화하고 피해를 최소화하라는 말이다. 근래에 이 원리는 인간 사회를 넘어선 피해, 다시 말해 다른 생명체나 자연환경에 대한 피해로까지 확대되었다. 이 원리 자체는 결과주의적 또는 공리주의적 철학 전통에서 도출되는데, 이와 관련된 대표적인 인물은 존 스튜어트 밀, 제러미 벤담 등이다.


    이 원칙은 특히 알고리즘 윤리에서 문제시된다. 복잡한 알고리즘을 사용할 때에는 발생할지 모를 의도치 않은 결과와 잠재적 피해를 추측하기가 어렵기 때문이다. 한편으로 추천 엔진 같은 알고리즘 제품과 서비스는 그런 피해가 드러날 때 피해를 감시하고 완화할 수 있다. 회수해서 수리해야 하는 결함 제품과 달리 알고리즘은 알맞게 수정하여 디지털적인 방법으로 다시 배치하면 된다.


    벨몬트의 세 번째 원칙은 정의인데, 이는 수단과 목적 사이의 긴장이 아니라 공정성이라는 규범에 초점을 맞춘다. 특히 수감자에 대한 연구의 경우, 위원회는 평등한 처우뿐만 아니라 억압과 그릇된 배분에 대해서도 우려했다. 여러 해가 지나 2004년에 카렌 레바크(Karen Lebacqz) 교수는 위원회에서 자신의 역할을 회고하면서 위원회가 헌신했던 정의의 가치를 강조했다. 그녀는 이 헌신이 이제는 더 강한 언어로 표현될 수 있다면서 이렇게 말했다. “우리는 정의를 이야기할 때 약자를 평등하게 취급하고 보호하는 언어로서 논의했다. 당시에 우리가 사용하지 않았지만 그 후 크게 주목받고 나에게도 매우 중요해진 언어는 억압의 언어다.” 그녀는 그렇게 말하는 방식이 연구에서 정의를 준수하는 데 어떤 효과를 가져올지를 더욱 명확하게 해준다고 강조했다. “내 생각에, 그냥 취약한 인구 집단과 억압당하는 인구 집단 간에는 차이가 있다. 그리고 정의는 억압의 해소를 요구하며, 그럼으로써 우리는 사회 구조를 오래전에 정해진 방식과는 다르게 정하게 될지도 모른다.”


    세 가지 일반 원칙은 또 다른 윤리 기준을 함의한다. 가령 프라이버시는 충분한 설명에 근거한 동의의 사례라고 볼 수 있는데, 여기서 프라이버시는 사실 자체보다는 사실의 공개를 둘러싼 상황에 적용되는 것으로 여겨진다. 가령 우리는 교사나 학생과 공유하지 않을 사실을 의사와는 공유한다는 데 동의할지 모른다. 마찬가지로 공정성이 정의의 근본적인 한 측면으로 여겨진다. 가령 공정성의 원칙은 가난한 사람과 소외 계층을 대상으로 한 의학 실험을 피하고자 한다. 그들은 이런 실험의 위험성 때문에 고통받는 데 반해, 혜택은 그런 실험 결과로 나오는 약품이나 치료를 감당할 수 있는 가진 자들한테로 흘러가기 때문이다.


    이 세 원칙은 인간 실험 대상자에 관한 연구의 응용윤리 문제를 다루기 위해 포괄적으로 설계되지만, 윤리를 적용한다는 것은 집행할 권력의 변화를 의미한다. 철학적 연구와 더불어 위원회는 IRB 과정을 성문화한 내용을 법률에 포함시킬 것을, 즉 조직 내부에서 윤리를 강력하게 제도화할 것을 제안했다.



    * * *


    본 정보는 도서의 일부 내용으로만 구성되어 있으며, 보다 많은 정보와 지식은 반드시 책을 참조하셔야 합니다.