빅데이터가 만드는 세상 (빅토르 마이어 쇤버거, 케네스 쿠키어, 2013) 독후감
“빅 데이터가 뭐야?” 질문에 설명한답시고 한참 주저리주저리 떠들어 댔다. 설명하면서 느꼈다. 나도 모르고 있었다. 나도 궁금해졌다. 정말 빅 데이터란 무엇일까? 뭘 준비해야 하는 걸까?
빅 데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이다. - p19
빅 데이터 시대는 우리가 사는 방식, 세상과 소통하는 방식에 도전한다. 그중에서도 가장 두드러진 부분은 사회가 인과성에 대한 그동안의 집착을 일부 포기하고 단순한 상관성에 만족해야 할 것이라는 점이다. 즉 ‘이유’는 모른 채 ‘결론’만 알게 되는 것이다. - p19
인과성으로부터 상관성으로의 이행이 빅 데이터 시대에 사는 우리에게 다가오는 가장 큰 변화다. 인과성을 모른 채 얻은 결과에 대한 불안함이 가장 먼저 떠오른다.
전통적 지혜와는 반대로 그렇게 인과성을 직감해서는 세상에 대해 깊이 있게 이해할 수 없다. 많은 경우 이것은 통찰이라는 환영을 심어주는 인지적 지름길일 뿐 실제로는 우리를 어둠 속에 남겨둔다. 우리가 전체 데이터를 처리할 수 없어서 택했던 지름길이 샘플링이었던 것처럼, 인과성을 자각하는 것도 두뇌가 천천히 힘들여 사고하지 않으려고 택하는 지름길일 뿐이다. - p122
“어라?” 읽다가 멈췄다. 이런 순간이 있다니 책을 잘 골랐나 보다. 나는 반대로 생각하고 있었다. 상관성은 복잡함에 압도되어 인과성을 밝히지 못해 선택한 타협점이며 인지적 지름길이라고 생각하고 있었다.
‘이론의 종말’이라는 주장은 물리학이나 화학과 같은 실질적 분야에는 이론이 존재했지만 빅 데이터 분석에는 그 어떤 개념적 모델도 필요치 않다고 암시하는 것 같다. 하지만 이것은 얼토당토않은 얘기다. 빅 데이터 그 자체도 이론 위에 세워져 있다. [.] 통계 이론과 수학 이론을 채용하고 있고 때로는 컴퓨터 과학 이론도 사용한다. [.] 이론은 우리의 방법과 결과, 둘 다를 결정짓는다. 우리가 데이터를 선택하는 방법부터가 그렇다. - p134
인과성에만 이론이 있다고 생각했다. 말도 안 되는 얘기다. 이론이 없을까 봐 걱정 안 해도 된다. 어디에나 이론은 밑바닥을 든든히 깔고 있다.
‘익명화’라는 기술적 접근법도 효과적이지 못한 경우가 많다. [.] 스몰 데이터의 세상에서는 효과가 있는 방법이다. 하지만 정보의 양이나 다양성이 커진 빅 데이터에서는 재식별이 용이하다. - p281
이름, 주소, 식별번호 등을 데이터에서 지워도 재식별이 될 수 있다는 게 흥미로웠다. 사생활 침해에 대한 우려에 대한 글인데. 나는 사람의 개성이 이렇게 드러나는 게 아닐까 하는 생각이 들었다. 많은 데이터를 수집하고 결합하는 과정에서 개인의 개성이 드러나는 것이다.
지금과 다가올 미래에 대해 조금이라도 더 이해한 것 같아 뿌듯하다. 빅 데이터에 대해 명쾌한 설명에서 시작해 우리에게 가져올 영향을 통찰력 있게 설명한다.
기억에 남는 문장
- 빅 데이터의 핵심은 예측에 있다. 혹자는 빅 데이터를 인공지능이라는 컴퓨터 과학의 분과로 설명하거나 기계 학습이라는 분야의 일부로 설명하지만 이런 식의 설명은 핵심을 오도하는 측면이 있다. 빅 데이터의 핵심은 컴퓨터가 인간처럼 ‘생각’하도록 ‘가르치려는’데 있지 않다. 빅 데이터는 엄청난 양의 데이터에 수학을 적용해 확률을 추론하려는 노력이다. - p27
- 그렇다면 이제 직관과 신념, 불확실성에게는 무슨 역할이 남을까? 증거에 반해 행동하고 경험에서 배우는 일은 이제 다시 일어나지 않는 것인가? 지금의 사회와 인간관, 진보는 이성을 기초로 한 것이다. 인과성에서 상관성으로 세상이 바뀌는데 이런 것들의 기반이 송두리째 흔들리지 않고서야 다음으로 넘어갈 수 없을 것이다. - p37
- 이 변화들은 서로 연결되어 있고 또 서로를 강화한다. 그중 첫 번째 변화는 작은 데이터에 만족할 필요 없이 방대한 양의 데이터를 분석할 수 있게 된 것이다. 두 번째 변화는 정밀함을 추구하는 대신 현실 세계에 존재하는 데이터의 들쭉날쭉한 특성을 기꺼이 받아들이게 된 것이다. 세 번째 변화는 찾기 힘든 인과성에 매달리는 대신 상관성을 존중하는 것이다. - p42
- 구글의 인공지능 분야 전문가 피터 노빅과 동료들은 <데이터의 터무니없이="" 뛰어난="" 효과성="">이라는 논문에 다음과 같이 썼다. ‘많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 뛰어나다.’ - p77데이터의>
- 들쭉날쭉함을 참는 대가로 우리는 전통적 방법과 툴로는 불가능했을 규모와 범위에서 엄청나게 가치 있는 서비스를 얻는다. 일부 추산에 따르면 전체 디지털 데이터 중에서 ‘구조화’되어 있는 것은 단 5퍼센트이다. [.] 데이터의 들쭉날쭉함을 수용하지 않는다면 웹페이지나 영상처럼 구조화되지 않은 나머지 95퍼센트의 데이터는 암흑 지대로 남게 된다. - p91
- 이에 비해 상관성과 같은 비인과적 분석은 빠르고 싸게 먹히는 경우가 많다. [.] 수학적, 통계적 방법론이 있고, 관련성이 얼마나 강한지 자신 있게 보여줄 수 있는 디지털 툴도 갖추고 있다. 게다가 상관성은 그 자체로만 유용한 것이 아니라 인과관계 연구를 위한 길을 알려주기도 한다. - p125
- 구글은 이 맞춤법 검사기를 공짜로 얻은 걸로 보인다. 구글은 매일 검색엔진에 입력되는 30억 개의 검색어에 포함된 오자들을 재사용했을 뿐이다. - p207
- 바로 ‘데이터 잔해(data exhaust)’라는 것이다. 이것은 사람들이 세상에서 활동하고 움직이는 과정에서 부산물로 떨구고 가는 데이터를 말한다. [.] 많은 회사들은 이 데이터 잔해를 수거해서 재사용할 수 있는 방향으로 시스템을 설계한다. - p209
- 데이터 잔해는 기업들에게 엄청난 경쟁 우위가 될 수도 있다. 또한 경쟁자들에 대해 강력한 진입 장벽이 되어줄지도 모른다. [.] 기존의 선두 기업들은 고객과의 상호작용으로부터 수집한 데이터 잔해를 자신의 서비스 안에 통합시켰고 이를 통해 현재의 실적을 내고 있다는 점이 문제다. - p213
- 기술이나 사고방식보다는 데이터 자체가 가장 소중해질 것임을 알려주는 증거는 빅 데이터 업계의 수많은 회사 인수전을 보아도 알 수 있다. [.] 피어캐스트를 약 1억 1,000만 달러에 사가면서 [.] 피어캐스트에 데이터를 공급했던 ITA 소프트웨어를 7억 달러에 인수했다. - p254
- 빅 데이터는 점점 더 세상과 세상 속의 우리 위치에 대해 정확한 예측을 내놓지만, 우리는 이것이 우리의 사생활과 자유에 미칠 영향에 대비한 준비가 되어 있지 않을 수도 있다. 우리의 지각이나 제도는 정보 과다의 세상이 아니라 정보 희소성의 세상에 맞게 구성되어 있기 때문이다. - p271
- 빅 데이터 예측과 그 배후에 있는 알고리즘 및 데이터 집합이 블랙박스가 되어버릴 위험이 있다는 것을 알 수 있다. 책임도, 추적 가능성도, 확신도 없는 블랙박스 말이다. 이런 위험을 막기 위해서는 빅 데이터에 대한 모니터링과 투명성이 필요할 것이다. - p327
- 물론 인과관계는 좋은 것이다. 알 수 있을 때는 말이다. 문제는 인과관계는 찾기 어려운 경우가 많고, 찾았다고 생각했는데 착각인 경우도 자주 있다는 점이다. - p350
- 하지만 발명을 촉발하는 것은 데이터가 말해주지 않는 무엇이다. [.] 왜냐하면 그것은 아직 존재하지 않기 때문이다. 헨리 포드가 빅 데이터 알고리즘에게 고객들이 원하는 게 뭐냐고 물었다면 알고리즘은 ‘더 빠른 말’이라고 답했을 것이다. - p358
- 우리는 결코 완벽한 정보를 가질 수 없기에 우리가 내놓는 예측은 처음부터 잘못될 가능성을 내포한다. [.] 이것 때문에 빅 데이터가 내놓는 통찰이 무효가 되지는 않으며 그저 빅 데이터의 제자리가 어디인지 알려주는 것뿐이다. [.] 그리고 이것은 우리가 빅 데이터라는 툴을 사용할 때 충분한 겸손과 충분한 인간성을 함께 발휘해야 한다는 뜻이기도 하다. - p360