‘머니볼’부터 美대선 페이스북 스캔들까지…모두 ‘이것’ 때문?
넷플릭스로 보는 빅데이터 시대 '명과 암'
[영화로운 경제-9]
‘영화로운 경제’는 영화를 통해 우리 주변의 다양한 경제 현상들을 살펴보는 연재물입니다. 금융·부동산 등 투자 관련 분야부터 산업과 생활경제까지 흥미롭고 유익한 경제 이야기를 쉽게 전해드릴 수 있도록 노력하겠습니다. [기사 모아보기]
그야말로 '빅데이터 시대'로 불러도 될 만큼 데이터의 중요성을 누구나 인정하는 시기가 도래했습니다. 이제 빅데이터는 기업 경영을 포함한 거의 모든 분야에서 몰두할 수밖에 없는 단어가 됐습니다. 코로나19 시대를 맞은 지금은 감염병 예방과 발병 이후 대응에도 핵심적 역할을 하고 있죠.
어느새 다가온 빅데이터 시대는 과연 우리에게 어떤 이점을 어떤 방식으로 제공하고 있을까요? 너무나 당연하면서도 매혹적인 존재가 되어버린 '빅데이터'라는 이름에 집중하느라 우리가 놓치고 있는 부정적 영향은 없는 걸까요? '영화로운 경제' 이번 편에서는 당장 넷플릭스만 켜면 접할 수 있는 영화들 중에서 빅데이터 시대의 '명과 암'을 쉽게 느끼도록 도와줄 만한 작품들을 소개해봅니다.
영화 '머니볼'은 철저하게 데이터 분석을 중심으로 선수를 기용해 좋은 성과를 거두는 미국 메이저리그 야구 구단 오클랜드 어슬레틱스의 실화를 다룬 작품입니다. 2002년 오클랜드는 야구 통계 분석 방식인 '세이버메트릭스(Sabermetrics)'를 적극 활용함으로써 적은 비용을 들이고도 높은 순위를 기록했습니다. 지금은 어느 프로야구 구단이든 일반적으로 활용하고 있는 방법이지만, 당시엔 데이터를 활용한 승리 방정식이 얼마나 효율적인지를 보여주며 야구계의 주목을 끌만한 일이었습니다. 이후 영화 '머니볼'이 개봉한 2011년에는 인터넷 기업의 부상과 '데이터 경영'이라는 트렌드와 맞물리면서 '빅데이터'나 '통계' 하면 많은 사람들이 떠올리는 작품이 됐습니다.
오클랜드의 빌리 빈 단장 (브래드 피트 분)은 2002년 메이저리그 시즌을 앞두고 고민이 많았습니다. 팀의 간판 타자와 투수가 모두 자유계약선수(FA)가 되면서 큰돈이 없이는 이 선수들을 놓치게 된 겁니다. 오클랜드 어슬레틱스는 '스몰마켓'으로 구분되는 저예산 구단이었습니다. 뉴욕 양키스 등 부자 구단들처럼 성적이 뛰어난 선수들을 비싼 돈을 들여 데려올 수 없었습니다.
어쩔 수 없이 오클랜드는 적은 돈으로 데려올 만한 유망주나 저평가된 선수를 물색하기 시작합니다. 당시 경험 많은 스카우터들의 '직관'은 절대적인 평가 기준이었습니다. 영화 속 스카우터들은 영입 후보군에 포함된 선수들에 대해 "스윙이 좋다" "폭발력이 있다" 등 직관적 평가를 내놓습니다. 빌리 빈 단장은 이렇게 말합니다. "생각을 바꿔야 한다. 우린 양키스가 아니다."
빈 단장은 이러던 중 우연히 예일대 경제학과 출신 피터 브랜드를 만나게 되는데, 브랜드는 그에게 이런 말을 합니다. "모두가 선수를 사려고만 한다. 중요한 건 승리를 사는 일이다."
오클랜드는 홈런이나 타점, 안타 숫자처럼 쉽게 눈에 띄는 기존의 통계들이 아니라 더 구체적인 성과를 나타내도록 고안된 통계들에 주목합니다. 이것이 오늘날에도 많은 야구인들이 주목하고 있는 'WAR(Wins Above Replacement, 대체 선수 대비 승리 기여도)'나 'BABIP(Batting Average on Balls in Play, 인플레이 타구의 타율)'과 같은 숫자입니다.
영화에선 비교적 간단한 통계여서 이해하기 쉬운 '출루율'을 중심으로 이야기가 전개됩니다. 오클랜드는 타율이 높지 않더라도 볼넷이나 몸에 맞는 공 등을 포함해 출루율이 높은 타자들을 비교적 낮은 비용에 확보합니다. 투구 자세가 이상하다는 이유로 저평가된 투수도 영입합니다. 전성기가 지났거나 사생활이 문란해 몸값이 낮은 선수도 이런 기준에만 맞다면 과감하게 팀에 합류시킵니다.
이런 식으로 영입된 선수 중 언더핸드 투구 폼이 우스꽝스럽다는 평가를 받던 채드 브래드포드는 오클랜드 불펜의 핵심으로 자리 잡고, 부상으로 더 이상 송구가 어려워 외면 받던 포수 스캇 헤티버그는 1루수로 뛰게 됩니다.
영화에서 채드 브래드포드를 영입하기 전 오클랜드는 "3백만 달러 급 선수인데 아무도 관심을 주지 않아 23만 7000달러만 주면 데려올 수 있다"고 분석합니다. 실제로도 브래드포드는 2002년 오클랜드에서 활약한 뒤 볼티모어 등 다른 팀으로 옮기며 300만 달러 수준의 연봉을 받게 됐다고 합니다.
오클랜드 어슬레틱스는 이런 선수 기용을 통해 '기적'에 가까운 결과를 만들어 냅니다. 오클랜드는 2002년 '리그 20연승'이라는 기록을 세우며 아메리칸리그 서부지구 1위를 차지합니다. 그 실제 과정이 영화를 넘어설 정도로 극적이어서 많은 팬들의 열광적인 반응을 이끌어냈다고 합니다. 다만 지구 1위들 끼리 승부하는 디비전 시리즈에서는 패하며 '절반의 성공'이라는 평가도 받았습니다.
2002년 뉴욕 양키스 선수의 연봉 총액은 약 1억 1446만 달러였습니다. 오클랜드 에스레틱스의 경우는 3972만 달러 수준에 불과했습니다. 하지만 두 팀의 리그 성적은 103승 59패로 같았습니다. 좋은 성적을 거둔 두 팀은 각각 아메리칸리그 동부지구와 서부지구에서 1위를 차지했습니다.
오클랜드는 이런 '저비용 고효율' 야구로 4년 연속 포스트 시즌 진출에 성공했습니다. 데이터 분석을 잘 활용하면 스포츠 경기의 승부나 기업 경영에 있어서 효율적인 전략 수립이 가능하다는 것을 보여준 사례였습니다.
사실 당시는 야구 뿐 아니라 사회 전반에서 '데이터 분석'의 중요성에 대한 인식이 빠르게 퍼지고 있던 시기였습니다. 특히 영화 '머니볼'이 개봉해 인기를 끌었던 2011년은 그야말로 빅데이터 시대로의 '대전환'이 본격화할 때였다고 볼 수 있습니다. 스마트폰 등 각종 디지털 장치의 보급과 소셜 미디어의 유행 때문입니다.
정보통신기술(ICT) 분야 시장조사기관인 IDC에 따르면 지난 2010년 한해 인류가 생성한 디지털 정보량은 1.2제타바이트(1조 2000억 기가바이트) 수준이었다고 합니다. 디지털 기기 보편화 이전까지 인류가 내내 만들어 냈던 데이터 총량이 5엑사바이트(50억 기가바이트) 수준으로 추정되기도 했다는 점을 감안하면, 이 시기에 그야말로 데이터가 폭발적으로 늘어났다는 걸 알 수 있습니다.
이러한 현상의 원인으로는 스마트 기기가 보편화됐다는 점과 더불어 데이터의 형태가 바뀌었다는 점이 꼽힙니다. 예전에는 사무실에서 입력한 숫자나 문자처럼 단순한 정보들이 저장된 정형 데이터(Structured data)가 많았다면 이때부터는 이미지, 음성, 동영상 등 구조나 형태가 복잡하고 다양한 비정형데이터(Unstructured data)가 늘어난 겁니다.
사실 이런 변화는 앞서 설명한 야구 데이터 분석에도 영향을 줬습니다. 단순히 숫자로만 야구 데이터를 기록해 분석했던 세이버메트릭스가 기술의 발달에 따라 카메라, 분석 장비 등을 활용해 이미지나 동영상까지 분석하는 형태로 발전했습니다. 투수가 던지는 공의 궤적과 타자 휘두르는 배트 스윙을 분석하는 수준까지 나아갔다고 보면 이해하기 쉽습니다. 물론 스포츠 뿐 아니라 거의 모든 분야에서 인공지능 기술의 발달과 함께 고도화된 빅데이터 기술이 활용되고 있습니다.
많은 양의 데이터를 분석하면 높은 가치를 창출해낼 수 있다는 점을 알게 되자 여러 기업들은 앞 다투어 개인들의 정보를 축적하기 시작했습니다. 우리가 이름만 들어도 알만한 거대 IT 기업들이 선봉에 섰습니다. 빅데이터 분석을 통한 개인화가 어마어마한 가치를 가지게 될 것이라는 점을 가장 먼저 깨달았기 때문입니다.
구글·페이스북 등 수많은 사용자들의 데이터를 확보한 기업들은 고속 성장에 성공했습니다. 그러나 높아져만 가는 빅테크 기업들의 가치만큼 빅데이터 시대의 어두운 그림자도 점점 우리 삶에 드리우기 시작했습니다.
빅데이터 분석 기술이 인공지능 발달과 함께 급속도로 발전하면서 소셜 미디어로 성공을 거둔 빅테크 기업들은 윤리적인 문제에 봉착하기 시작합니다. 다큐멘터리 영화인 '소셜 딜레마'는 구글, 페이스북, 인스타그램, 트위터 등 소수의 기업들이 대중에게 막대한 영향을 미치며 발생하는 부작용들을 비판적 시각으로 다룬 작품입니다.
영화에 따르면 빅테크 기업들의 문제는 개인들의 데이터를 더 많이 모으고, 이 데이터를 활용한 분석의 정확도를 높이기 위해 사용자들을 되도록 오랜 시간동안 잡아둬야 한다는 데 서 시작합니다. 영화에서 등장한 표현을 빌리면 이런 IT 기업들의 사업은 "물건을 팔지 않고 사용자들을 파는 일"이기 때문입니다.
IT 기업들은 공짜처럼 보이는 많은 서비스들을 제공해 사용자의 관심을 끌어 시선을 묶어두고, 이들에게 광고를 하고 싶은 광고주로부터 수익을 냅니다. 여기까지만 보면 소셜 미디어가 그렇게 나빠 보이지는 않습니다. 내 관심을 고려해서 광고를 띄우는 정도라면 크게 문제될 건 없어 보입니다.
그런데 이 영화는 소셜 미디어가 사용자의 관심과 취향을 파악해 광고에 적용하는 것을 넘어서서 행동과 인식을 변화시키는 걸 목적으로 한다고 주장합니다. 왜냐하면 이런 업계의 성공은 '선견지명(Great prediction)'을 통해서 이뤄지는데, 개인의 행동이나 인식 자체를 변화시킬 수 있다면 그보다 뛰어난 '예측(prediction)'이란 없을 것이기 때문입니다.
이런 활동은 결국 방대한 데이터 축적을 통해서, 다시 말하면 모든 사용자들을 모니터링함으로써 이뤄진다고 이 영화에 출연한 업계 종사자들은 증언합니다. 페이스북 등 유명 업체의 핵심 직책에서 일했던 이들의 증언에 따르면 소셜 미디어에서 행해지는 우리의 모든 활동은 감시되고 추적되고 측량됩니다. 어떤 이미지를 얼마나 오래 봤는지, 어떤 영상을 봤는지, 어떤 단어를 사용해 채팅을 했는지는 물론 '좋아요' 버튼을 포함한 모든 클릭들을 기록한다는 겁니다. 그리고 이런 데이터들이 쌓이고 분석되면 사용자들의 감정 상태나 생활패턴, 성격 유형까지도 알 수 있게 됩니다.
또한 이런 작업에는 심리학을 접목한 많은 설득의 기술들이 접목됩니다. 스크롤을 당기는 것은 마치 카지노에서 슬롯머신을 당기는 것과 같은 심리를 자극한다는 식의 설명이 따라붙습니다. 쇼사나 주보프 하버드비즈니스스쿨 교수는 "그들은 우리에 대한 정보를 우리는 상상할 수 없을 정도로 많이 갖고 있다"며 "인류 역사상 전례 없는 일"이라고 경고합니다.
이외에도 이 영화에서는 많은 윤리적 문제제기가 이어집니다. 소셜 미디어를 통해 사용자를 상대로 수많은 반응 실험들을 진행하고 있다는 점, 그리고 그 실험들은 다시 사용자들을 조종할 효과적 방법 개발에 활용된다는 점을 지적하면서는 '우리 모두가 실험실 쥐인 셈'이라고 강하게 비판합니다.
10대 청소년의 우울·불안 증가, 가짜뉴스의 횡행 등 여러 문제들과 함께 이 영화가 지적하는 큰 문제는 '분극화(Polarization)'입니다. 극단적인 성향의 콘텐츠를 제공하는 것이 사용자들을 더욱 오래 잡아두기에 용이하기 때문에 점점 양극단의 사용자가 많아진다는 겁니다. 쉽게 말하면 정치적으로는 극우·극좌 성향 개인이 늘어나는 현상이라고 보면 됩니다.
이러한 소셜 미디어의 특성은 결국 정치적으로 악용되며 '무기화'됐다는 오명을 쓰기도 했습니다. 워낙 많은 사람들이 소셜 미디어에 노출돼 있고, 개인화된 데이터들을 거대 IT 기업들이 보유하고 있다보니 정치적 도구로 악용할 수 있게 된 겁니다. 그만큼 '빅데이터'의 영향력이 미치지 않는 곳이 없다는 의미입니다.
넷플릭스의 또 다른 다큐멘터리 영화 '거대한 해킹'은 우리들의 개인 정보가 정치적으로 악용된 사례를 집중 조명하는 작품입니다. 이 영화에서 다루는 사건은 '페이스북-케임브리지 애널리티카 정보 유출 사건'으로 불리는데, 케임브리지 애널리티카(CA)라는 회사가 수천만 명에 달하는 페이스북 가입자 정보를 확보해 2016년 미국 대선과 브렉시트 홍보 등에 정치적 목적으로 악용한 일입니다.
이 데이터들은 영국 케임브리지 대학의 데이터 과학자 알락산드르 코간 교수가 개발한 성격 검사 앱을 통해 빼돌린 것들이었습니다. CA는 이 간단한 앱으로 약 30만 명의 페이스북 사용자들에게 학문 연구를 위한 것이라고 속이고 설문에 응하게 했습니다. 설문에 응할 때 동의서 작성 과정은 일괄 처리 됐는데, 이 때 동의 내용에는 자신들의 개인 정보는 물론 페이스북에서 연결된 다른 사람들의 개인 정보까지 전부 수집할 수 있다는 조항이 포함돼 있었습니다.
사건이 알려진 뒤 페이스북이 조사한 바에 따르면 실제 데이터가 수집된 사용자 수는 8700만 명에 달했습니다. 수집된 정보에는 공개된 프로필과 '좋아요' 버튼을 누른 페이지들, 생일과 주소지 등은 물론 사용자들의 타임라인이나 메시지까지 포함됐습니다. 수집된 데이터는 CA가 데이터 주인들의 성격 특성을 추출해낼 수 있을 만큼 충분히 세부적이었던 것으로 알려졌습니다. 또한 그 데이터로 이용자가 어디에 위치해 있는지까지 파악할 수 있었다고 합니다. 결국 소셜 미디어를 통해 빅데이터를 확보함으로써 어떤 정치 캠페인과 광고가 어디에서 누구에게 효과적일지 알 수 있었던 겁니다.
우리가 익히 알고 있는 것처럼 2016년 미국 대선에서 도널드 트럼프 전 대통령은 모두의 예상을 깨고 당선됐습니다. 트럼프 선거 캠프는 CA와 손잡고 하루에 100만 달러에 달하는 금액을 페이스북 광고 비용으로 사용했다고 합니다.
이 스캔들은 2018년 3월 CA의 전 직원인 크리스토퍼 와일리가 내부고발자로 나서고 뉴욕타임스, 채널 4, 가디언이 공동 취재를 통해 관련 기사를 동시 보도하면서 큰 논란을 불러일으켰습니다. 결국 페이스북 창업자인 마크 저커버그는 2018년 4월 미국의회에 출석해 "페이스북이 악용되는 것을 막기 위해 최선을 다 하지 못했다"고 사과했습니다. 미국 연방거래위원회는 2019년 페이스북에 50억 달러의 벌금을 부과했습니다.
이 사건은 개인 정보 보호의 중요성에 대한 인식을 사회적으로 확산시킨 계기가 됐습니다. IT 기업들의 데이터 활용에 대한 규제 요구도 일어나기 시작했습니다. 하지만 개인 정보 보호법에 대한 논의는 아직도 시작 단계에 불과하다는 게 전문가들의 대체적인 평가입니다.
영화 '거대한 해킹'에서 데이비드 캐럴이라는 남자는 케임브리지 애널리티카에 아주 간단한 요청을 합니다. "당신들이 가진 내 정보를 좀 보여달라"는 요청입니다. 하지만 이 요청은 거절됐고, CA가 법원에서 영국 정보위원회 고지규정을 위반했음을 인정한 이후에도 정보는 돌려받지 못합니다. 사실상 정보를 돌려받는 건 불가능해 보입니다.
'어쩔 수 없이 데이터가 넘치는 시대'가 도래했습니다. 소셜 미디어와 전자 상거래 웹페이지 등 넓고 넓은 인터넷 세상에서 계속 생성되는 수많은 데이터들을 당장 보호하기란 쉽지 않은 게 사실입니다. 그래서인지 영화는 이런 메시지를 던집니다. 이 시대를 살아가는 우리가 한번 쯤 새겨야할 말이 아닌가 싶습니다.
"인간은 데이터의 홍수를 막으려 해도 가는 곳마다 데이터를 흘리게 된다. 하지만 여기엔 해결책이 없다. 차단할 방법이 없다. 그래서 데이터가 삶에 어떤 영향을 미칠 수 있는지를 먼저 알아야 한다."
앞서 소개한 세편의 영화는 '데이터'의 유용함과 위험성을 쉽게 전해주는 흥미로운 작품들입니다. 이런 이야기에 관심이 있는 분이라면 한번 쯤 감상해볼 만합니다. 아마 우리가 넷플릭스에서 이 영화들을 찾아 재생하는 동안에도 우리의 선택들은 데이터로 저장되겠지만 말입니다.
[임형준 기자]