세계 의 트위터 데이터를 시각화 - 렘 소프

저는 몇 년 전부터 트위터를 사용하기 시작했습니다, 그리고 트위터가 정말 매력적인 이유는 사람들이 아침에 일어나서 "좋은 아침입니다" 라고 말해주는 것입니다, 물론 제 생각입니다, 저는 캐나다 사람입니다, 그래서 약간은 공손함을 좋아합니다. 그리고 저는 괴짜이기도 합니다, 그래서 트위터를 사용하는 모든 사람들의 24시간을 기록하는 컴퓨터 프로그램을 만들었습니다, "좋은 아침" 이라고 말하면서 말이죠. 그리고 제 자신에게 자문을 해보았습니다, "어떻게 보일까?" 결과는 이렇게 보일 겁니다. 네, 저희는 전세계 사람들이 아침에 일어나 "좋은 아침"이라고 말하는 물결을 보게 됩니다. 녹색으로 표시되는 사람들은 대략 아침 8시에 일어나는 사람들입니다, 어떤 분이 8시에 일어나세요? 또는 8시에 "좋은 아침"이라고 말씀하시나요? 주황색깔의 사람들은, 9시에 "좋은 아침"이라고 말하는 사람들입니다. 그리고 빨간색의 사람들은 10시에 "좋은 아침"이라고 말합니다. 네, 8시보다 10시에 사람들이 더 많습니다. 사실 이 화면을 보면, 사람들이 세상의 각 지역에서 사람들이 일어나는 방법이 약간 다르다는 것을 알 수 있습니다. 예를 들어, 서부 해안의 사람들은 동부 해안에 사는 사람들보다 조금 더 늦게 일어납니다. 하지만 모든 사람들이 트위터에 글을 쓰지는 않죠? 우리는 또한 다음과 같은 정말 중요한 트위터 메세지도 봅니다, "막 올랜도에 도착했습니다 !! [비행기 표시, 비행기 표시]" 또는 "지금 막 텍사스에 도착했어요 [느낌표]!" 또는 "온두라스에 막 도착했어요!" 이런 글들이 계속해서 트위터에 올라옵니다, 그렇죠? 겉보기에는 이 사람들은 자신들이 어떻게 여행을 하는지에 대해서 뭔가를 그냥 말하는 것입니다. 하지만 우리는 진실을 알고 있습니다. 그렇지 않나요? 이 사람들은 자랑쟁이들입니다. 저는 못갔지만 자기들은 케이프 타운(Cape Town)에 있다고 자랑질을 하고 있는 것입니다. 그래서 저는 어떻게 하면 이런 허영심을 유용성으로 바꿀수 있을까를 생각했습니다. 그래서 "좋은 아침" 프로그램과 비슷한 방법으로, 모든 사람들의 여행을 표시해보았습니다, 왜냐하면 저는 그들이 어디에 도착했는지 알기 때문이죠. 트위터로 저에게 알려줬죠. 그리고 트위터의 프로필 정보를 공유하기 때문에 그 사람들이 어디에 사는지도 저는 알고 있습니다. 그래서 저는 트위터의 36시간의 정보로 사람들이 36시간동안 세상을 어떻게 여행하는지에 대한 모델을 만들 수 있습니다. 이런 모델은 일종의 시작품인데요 왜냐하면 우리가 트위터, 페이스북 또는 기타 여러가지 소셜 미디어를 통해서 모든 사람들의 이야기를 듣는다면, 사람들이 한 곳에서 다른 곳으로 어떻게 여행하는지에 대한 아주 명확한 그림을 얻을 수 있습니다, 그것은 실제로 과학자들에게 매우 유용한 정보가 된다는 것이 밝혀졌습니다. 특히 질병이 어떻게 전염되는지를 연구하는 학자들에게 말이죠. 저는 뉴욕 타임즈지에서 근무합니다. 그리고 지난 2년간 우리는 "폭포수(Cascade)"라는 프로젝트는 진행했습니다. 지금 보여드린 이런 것과 비슷한 방법입니다. 하지만 사람들의 이동 방법을 모형화하는 것보다는 사람들이 어떻게 대화하는지를 모형화하고 있습니다. 사람들의 토론이 어떤 모습인지를 보고 있습니다. 한 가지 예를 보여드리죠. 이것은 "죽음을 잊은 사람들이 사는 섬"이라는 기사에 대한 토론내용입니다. 이것은 그리스의 섬에 관한 이야기인데 그곳에서는 사람들이 정말, 정말, 정말, 오래 삽니다. 우리가 보고 있는 것은 왼쪽 모퉁이에서 시작해서 대화의 내용이 가지를 치면서 뻗어나가는 모습입니다. 그래서 대략 9시간 남짓의 대화 범위를 보시게 됩니다, 그리고 순식간에 12시간으로 늘어나게 됩니다. 이런 대화는 3차원 화면으로 볼 수도 있습니다. 이런 3차원 화면은 우리에게 더욱 유용합니다. 인간은 이렇게 3차원으로 구성된 사물에 매우 친숙합니다. 그래서 이런 대화의 작은 가지치기를 볼 수 있습니다, 그리고 정확하게 어떤 일이 일어나는지 알 수 있습니다. 그리고 이런 화면은 상호 작용적이고, 탐색적인 도구입니다, 그래서 대화의 모든 과정을 관찰할 수 있습니다. 어떤 사람들인지, 무엇을 말했는지, 몇 살인지, 어디에 사는지, 누가 그 사람들을 "팔로우"하는지 등등, 여러가지를 알 수 있습니다. 그래서 뉴욕타임즈에서는 매달 6,500개의 기사 내용를 만들어 냅니다, 그리고 대화 하나 하나 마다 어떤 일이 일어나고 있는지를 모형화 합니다. 그 대화들은 조금씩 다르게 보여집니다. 이야기에 따라서, 그리고 사람들이 얼마나 빨리 이야기 하는지에 따라서, 그리고 대화가 얼마나 널리 퍼져 나가는지에 따라서, 제가 대화의 구조라고 부르는 이런 구조들이 결국 다른 모양을 띄게 됩니다. 제가 보여드린 이런 프로젝트들에서, 모든 프로젝트들이 공통점을 가지고 있다고 생각합니다: 작은 자료를 추출해서 함께 모으면, 더많은 가치를 생성할 수 있고, 더 재미있는 것들을 할 수 있습니다. 그런데 지금까지 트위터만 이야기했죠, 그렇죠? 트위터가 모든 데이터는 아닙니다. 정말 많은 데이터가 세상에는 있다는 것을 바로 전에 알았습니다. 특별히 여러분들이 한 종류의 자료를 생각해주시기 바랍니다, 왜냐하면 저는 물론이고 여기 오신 모든 청중들은 자료 제작자들이니까요. 사람들은 항상 자료를 만들어 내고 있습니다. 우리들 한명 한명이 자료를 생산하고 있습니다. 그러나 누군가는 자료를 저장하고 있습니다. 보통 우리는 그 자료를 저장하는 회사들을 신뢰합니다. 하지만 여기서 제가 제안하는 것은 그 자료를 저장하는 회사를 신뢰하기 보다는 우리 자신을 신뢰해야 합니다. 왜냐하면 사실 우리가 자료를 가지고 있으니까요. 바로 그점이 우리가 기억해야 하는 것입니다. 여러분에 대해서 측정하는 모든 것이 사실은 여러분들 소유입니다. 그래서 제 희망은 아마도 저는 캐나다 사람이기 때문에, 우리가 저장하고 있는 모든 유용한 자료를 함께 모을 수 있습니다. 그리고 세상에서 가장 어려운 문제를 위해서 총괄적으로 그 자료를 사용하는 것입니다. 왜냐하면 거대 자료(Big Data)는 큰 문제를 해결 할 수 있기 때문입니다. 하지만 그것은 우리의 통제하에 있을 때 가장 잘 할 수 있습니다. 감사합니다.