How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

번역: Juhyeon Kim 검토: Jihyeon J. Kim 이걸 보시죠. (영상) 소녀: "고양이가 침대에 앉아 있습니다." "소년이 코끼리를 쓰다듬고 있습니다." "사람들이 비행기에 타고 있습니다." "큰 비행기입니다." 이건 세 살짜리 아이가 사진을 보고 설명하는 것입니다. 그녀는 아직 이 세상에 대해 배울 것이 많지만, 한 가지 일에서만큼은 이미 전문가 수준입니다. 본 것을 이해하는 일이죠. 우리 사회는 그 어느 때보다 기술적으로 진보하고 있습니다. 우리는 달에 사람을 보내고, 말을 하는 전화를 만들거나 좋아하는 곡만 방송하는 맞춤형 라디오를 만듭니다. 그러나 첨단 기계와 컴퓨터로도 애를 먹는 일이 있습니다. 저는 오늘 컴퓨터 비전 연구의 최신 동향에 대해 말하고자 합니다 컴퓨터 과학에서 가장 선도적이고 혁명적인 기술이죠. 스스로 운전하는 자동차 시험판을 만들더라도 똑똑한 인식 능력이 없다면 도로 위에 있는 것이 밟아도 될 종이 봉투인지 피해야 할 돌덩이인지 구분할 수 없습니다. 수백만 화소의 엄청난 카메라를 만들더라도 시각장애인의 눈이 되지는 못합니다. 무인기가 광활한 땅을 날 수 있어도 컴퓨터 비전 기술이 없으면 열대 우림의 변화를 추적하지 못합니다. 감시 카메라가 도처에 있어도 수영장에서 물에 빠진 아이를 보고 우리에게 경고해 주지는 않습니다. 사진과 비디오는 지구 생활의 불가결한 부분이 되고 있습니다. 어떤 개인이나 단체가 다 볼 수 없을 분량의 영상이 만들어지고 있습니다. 여기 TED도 일조하고 있지요. 그러나 가장 진보한 소프트웨어도 아직까지는 이 방대한 영상을 이해하고 관리하는데 애를 먹고 있습니다. 달리 말하자면 사회 전체적으로 우리는 장님과 같습니다. 우리의 가장 똑똑한 기계가 아직까지 장님이니까요. "그게 왜 어렵지?" 하고 물으실 수 있어요. 카메라는 이런 사진을 찍을 수 있고 빛을 숫자의 2차원 배열인 픽셀로 변환할 수 있지만, 이는 그저 죽은 숫자일 뿐입니다. 그 자체에 의미는 없습니다. '들리는' 것과 '듣는' 것이 똑같지 않듯이 사진을 '찍는' 것과 '보는' 것은 똑같지 않습니다. '본다'는 말에는 '이해한다'는 뜻이 있습니다. 사실 자연은 5억 4천만년에 걸쳐 이 작업을 했는데요. 그 노력의 대부분은 우리 뇌의 시각처리능력을 발달시키는데 소요되었고 눈을 만드는데 소요되지 않았습니다. 시각현상은 눈에서 시작되지만 사실상 나타나는 곳은 뇌 안쪽이죠. 저는 최근 15년간 캘리포니아 공대 박사 과정에서부터 스탠포드대 컴퓨터 비전 연구실을 이끌기까지 지도교수, 공동연구자, 학생들과 함께 컴퓨터에게 '보는 법'을 가르쳐왔습니다. 저희 연구 분야를 컴퓨터 비전과 기계 학습이라고 합니다. 인공지능 일반 분야에 속하죠. 궁극적으로 우리는 기계가 인간처럼 볼 수 있게 하려고 합니다. 물체와 사람을 식별하고, 3차원 기하구조를 추측하고, 관계, 감정, 행동과 의도를 이해하게 하는 겁니다. 여러분과 저는 한번 보기만 해도 사람, 장소, 사물로 이야기를 엮어낼 수 있습니다. 이런 목표를 향한 첫걸음이 컴퓨터를 가르쳐 사물, 시각 세계의 구성요소를 보게 하는 것입니다. 간단히 말해, 이런 학습 과정을 상상해보세요. 컴퓨터에 특정 사물의 훈련용 이미지를 보여줍니다. 고양이라고 해보죠. 그리고 그 훈련용 이미지로 학습하는 모델을 설계합니다. 간단하게 들리는데요. 얼마나 어려울 수 있을까요? 고양이는 모양과 색깔의 집합이고, 이것이 우리가 초창기 객체 모델링으로 한 일이죠. 우리는 컴퓨터 알고리즘을 수학적 언어로 표현합니다. 고양이는 둥근 얼굴과 통통한 몸, 두 개의 뾰족한 귀, 긴 꼬리가 있다고 가르칩니다. 다 괜찮아 보였습니다. 그런데 이 고양이는 어떨까요? (웃음) 몸을 말고 있습니다. 이제 객체 모델에 다른 모양과 관점을 추가합니다. 그런데 만약 고양이가 숨어 있으면요? 이런 웃기는 고양이들은요? 이제 제 말을 아시겠죠. 집안의 애완동물처럼 단순한 사물조차 객체 모델에 무한한 변형이 존재할 수 있고, 그게 한 개의 객체일 뿐이죠. 약 8년 전 단순하고도 깊은 관찰이 제 생각을 바꾸었습니다. 아이에게 보는 법을 가르칠 순 없죠. 특히 어린 시절에 말이죠. 아이들은 현실세계의 경험과 사례로 보는 법을 배웁니다. 만약 아이의 눈을 생물학적 카메라 한쌍이라 치면 200밀리초마다 한 장씩 사진을 찍는 셈이죠. 눈이 움직이는 평균 시간이에요. 아이는 세 살까지 수억장의 현실세계 사진을 보게 됩니다. 방대한 양의 학습 사례죠. 그래서 제 생각엔 더 나은 알고리즘에만 집중하기보다, 알고리즘에 주는 학습 데이터를 아이가 경험하는 것과 같이 만들어야 했습니다. 양적으로나 질적으로 말이죠. 이걸 알게 되자, 우리는 이전보다 훨씬 많은 데이터를 모아야 했습니다. 거의 수천배였죠. 그래서 전 프린스턴 대학의 카이 리 교수와 함께 2007년 이미지넷 프로젝트를 시작했습니다. 다행히도 우리는 머리에 카메라를 매달고 몇년씩 기다릴 필요는 없었습니다. 인터넷이 있었거든요. 인류가 만든 최대의 사진 창고죠. 우리는 거의 10억장의 이미지를 다운로드했고 아마존 MTurk 같은 크라우드 소싱 기술을 사용해 이미지에 라벨을 붙였습니다. 가장 최고치에서는 이미지넷이 아마존 MTurk 일꾼들의 최대 고용주였습니다. 5만명 가까운 작업자가 세계 167개국에서 약 10억장의 후보 이미지의 정리 분류 작업을 도왔습니다. 아이의 성장 초기에 이미지의 일부라도 수집하는데 얼마나 많은 노력이 드는가 하는 것과 같았죠. 지나고 보니, 컴퓨터 알고리즘의 훈련에 빅데이터를 사용한다는 아이디어는 이제 확실한 것 같습니다만, 2007년 당시에는 그렇지 않았습니다. 우리 혼자 이런 일을 한 게 꽤 오래 됐습니다. 친절한 동료는 종신교수가 되려면 더 유용한 일을 하라고 조언했고, 우리는 늘 연구 자금 문제에 시달렸죠. 저는 이미지넷의 자금 조달을 위해 세탁소를 다시 열어야겠다고 대학원생들에게 농담을 했죠. 제가 대학 학비를 마련한 방법이거든요. 우리는 계속 진행했습니다. 2009년에 이미지넷 프로젝트는 객체와 사물을 2만2천개 범주로 분류한 1천5백만장 이미지의 데이터베이스를 만들었고 일상적인 영단어로 표현했습니다. 양적으로나 질적으로나 전례 없는 규모였죠. 예를 들어, 고양이의 경우 6만 2천장의 이미지가 다양한 모양과 자세, 집고양이부터 들고양이까지 모든 종류를 망라합니다. 우리는 이미지넷을 만든 것에 흥분했고 모든 연구자들과 혜택을 나누고자 했습니다. 그래서 TED 방식으로 모든 데이터를 전세계의 연구자 커뮤니티에 무료로 공개했습니다. (박수) 이제 우리는 컴퓨터 두뇌에 영양을 공급할 데이터가 있고, 알고리즘 자체로 돌아올 준비가 되었죠. 결과적으로 이미지넷의 풍부한 정보는 기계 학습 알고리즘의 특정 분류에 딱 들어맞았는데, 이를 합성곱 신경망이라고 합니다. 쿠니히코 후쿠시마, 제프리 힌튼, 양 루캉이 1970~80년대에 개척한 영역이죠. 마치 뇌가 고도로 연결된 뉴런 수십억개로 구성된 것처럼 신경망의 기본 단위는 뉴런과 같은 노드입니다. 다른 노드에서 입력을 받고 다른 노드로 출력을 보냅니다. 게다가 이런 수십만, 수백만의 노드는 계층 형태로 조직화됩니다. 뇌와 마찬가지죠. 우리가 사물 인식 모델을 훈련하려고 사용한 전형적인 신경망에는 2천4백만의 노드, 1억4천만의 매개변수, 150억의 결합이 존재합니다. 어마어마한 모델이죠. 이미지넷의 방대한 데이터와 현대의 CPU와 GPU에 힘입어 합성곱 신경망은 아무도 예상치 못한 방식으로 꽃피었습니다. 사물의 인식에 있어 흥미롭고도 새로운 결과를 내는 우수한 구조가 되었습니다. 이 컴퓨터는 우리에게 이 사진에 고양이가 있는지, 어디에 있는지 말해줍니다. 물론 고양이 이외의 것도 인식할 수 있고, 여기서 컴퓨터 알고리즘은 사진 속에 소년과 테디 베어가 있다고 말해줍니다. 개, 사람, 배경에 작은 연이 있습니다. 또는 많은 것이 찍힌 사진에서 사람, 스케이트 보드, 난간, 가로등 같은 것을 가려냅니다. 때때로 컴퓨터가 보는 것이 무엇인지 확신하지 못할 때는 우리는 컴퓨터를 가르쳐서 억측을 하기 보다는 안전한 대답을 하게 합니다. 사람과 마찬가지죠. 반면 컴퓨터 알고리즘은 놀랍게도 사물이 정확히 무엇인지 말해주기도 합니다. 자동차의 차종, 모델, 연식 같은 것이죠. 수백개 미국 도시에서 찍은 구글 스크리트 뷰 이미지 수백만장에 알고리즘을 적용했더니 흥미로운 것을 발견했습니다. 먼저, 일반적으로 예상하듯이 자동차 가격이 가계 수입과 매우 관련이 있다는 것이었습니다. 하지만 놀랍게도, 자동차 가격은 도시의 범죄율과도 관련이 있었고, 도시구역별 투표 경향과도 관련이 있었습니다. 잠깐만요. 그런가요? 컴퓨터는 이미 인간의 능력을 따라잡거나 추월한 것인가요? 그렇지는 않습니다. 지금까지 우리는 컴퓨터에 사물 인식을 가르쳤을 뿐이에요. 마치 어린 아이가 명사 몇개를 배운 것과 같죠. 엄청난 성과이지만 그저 첫 걸음에 불과합니다. 곧 다음 개발 목표에 이를 것이고, 어린 아이는 문장으로 소통을 하기 시작할 겁니다. 그래서 사진을 보고 '고양이입니다' 하는 대신 여러분이 이미 들었듯 '고양이가 침대에 누워 있다'고 합니다. 컴퓨터가 사진을 보고 문장을 만들게 가르치려면, 빅 데이터와 기계 학습 알고리즘의 결합이 또 한발짝 나아가야 합니다. 이제 컴퓨터는 사진 뿐만 아니라 사람이 만든 자연 언어 문장도 배워야 합니다. 뇌가 시각과 언어를 결합하듯이, 우리가 개발한 모델은 이미지의 단편과 같은 시각적 요소를 문장 속 단어나 문구와 연결합니다. 약 4달 전 우리는 마침내 이 모두를 엮어 최초의 컴퓨터 비전 모델 하나를 만들었습니다. 사진을 처음 보았을때 사람과 같이 문장을 만들어내는 모델입니다. 이제, 여러분께 컴퓨터가 사진을 보고 말하는 것을 보여드리겠습니다. 앞서 어린 소녀가 봤던 사진입니다. (컴퓨터) "남자가 코끼리 옆에 서 있습니다." "큰 비행기가 공항 활주로 끝에 있습니다." 물론, 우리는 여전히 알고리즘을 개량하려고 일하고 있고 배워야 할 게 많습니다. (박수) 컴퓨터는 여전히 실수를 저지릅니다. (컴퓨터) "고양이가 침대 위 이불 안에 있습니다." 고양이를 너무 많이 봐서 뭐든지 고양이로 보이는지도 모르죠. (컴퓨터) "어린 소년이 야구 방망이를 들고 있습니다." (웃음) 칫솔을 본 적이 없다면 야구 방망이와 혼동합니다. (컴퓨터) "남자가 말을 타고 건물 옆 길을 내려갑니다." (웃음) 우리는 컴퓨터에게 미술을 가르치지 않았습니다. (컴퓨터) "얼룩말이 초원에 서있습니다" 컴퓨터는 자연의 경이로운 아름다움에 감상하는 것을 배우지도 않았습니다. 이는 오랜 여정이었습니다. 0세에서 3세까지 가는 건 힘들었습니다. 하지만 진짜 도전은 3세에서 13세, 그 이상으로 나아가는 것입니다. 이 소년과 케이크의 사진을 다시 보시죠. 지금까지 우리는 컴퓨터에 사물을 식별하고 간단한 말을 하는 것을 가르쳤습니다. (컴퓨터) "한 사람이 케이크가 있는 테이블에 앉아 있습니다." 그러나 이 사진에는 사람과 케이크 이외에 더 많은 것이 들어있죠. 컴퓨터가 보지 못하는 것은 이 특별한 이태리 케이크가 부활절에만 먹는 것이란 겁니다. 소년은 자기가 좋아하는 티셔츠를 입고 있는데 아이 아버지가 시드니 여행을 다녀와 선물로 준 것입니다. 여러분과 저는 이 아이가 얼마나 기뻐하는지, 저 순간 무슨 생각을 하는지 이야기할 수 있습니다. 제 아들 레오입니다. 시각 지능에 대한 탐구를 하며 저는 항상 레오와 레오가 살 미래세계를 생각합니다. 기계가 인식을 하게 되면, 의사와 간호사는 쉬지 않는 기계 눈을 이용해 환자를 진단하고 돌볼 수 있겠지요. 자동차는 더 똑똑하고 안전하게 도로를 주행할 겁니다. 인간 뿐 아니라 로봇이 재난 지역에서 갇히고 부상당한 사람을 구하는 걸 도울 겁니다. 우리는 기계의 도움으로 새로운 종, 더 나은 물질을 발견하고 보지 못한 개척지를 탐험하게 될 겁니다. 조금씩 우리는 기계에게 시각을 주고 있습니다. 처음에 우리는 기계에게 보는 것을 가르쳤습니다. 다음엔, 기계가 우리를 도와 더 잘 보게 할 겁니다. 처음으로, 인간의 눈이 아닌 것이 세계를 생각하고 탐험하게 되었습니다. 우리는 인공지능 때문에 기계를 이용할 뿐만 아니라 상상치 못했던 방식으로 기계와 협력하게 될 것입니다. 이것이 제 탐구입니다. 컴퓨터에 시각 지능을 부여하는 것, 그리고 레오와 세계를 위해서 더 나은 미래를 만드는 것입니다. 감사합니다. (박수)