Computational Linguistics, by Lucas Freitas

>> LUCAS 프레이 타스 : 안녕하세요. 모든 사람을 환영합니다. 내 이름은 루카스 프레이 타스입니다. 나는 공부 [들림]에서 주니어 해요 에 초점을 맞춘 컴퓨터 과학 전산 언어학. 그래서 내 차 언어에 언어 적 이론. 나는 정말 너희들을 가르 칠 흥분 필드에 대해 조금. 이 연구에 매우 흥미로운 지역이다. 또한 많은 잠재력을 가진 미래를위한. 그래서, 난 정말 흥분하는 너희들 프로젝트를 고려하고 전산 언어학. 그리고 조언보다 더 행복 할 것 당신의 당신이하기로 결정하는 경우 그 중 하나를 추구한다. >> 계산이 무엇인지 모든 그래서 일단 언어학? 그래서 전산 언어학입니다 언어학과 사이의 교차 컴퓨터 과학. 그래서, 언어학은 무엇입니까? 컴퓨터 과학은 무엇인가? 잘 언어학에서, 무엇을 우리는 언어입니다 걸릴. 그래서 언어학 실제로 연구이다 일반적으로 자연 언어의. 그래서 자연 언어 - 우리가 이야기 우리가 실제로에 사용하는 언어 서로 통신. 그래서 우리는 정확히 얘기가 아니에요 C 또는 Java에 대한. 우리는 영어에 대해 더 많은 얘기를하고있어 중국과 다른 언어로 우리 서로 통신하기 위해 사용한다. >> 그것에 대해 도전적인 것은입니다 지금 우리가 가지고있는 거의 7,000 세계의 언어. 그래서 꽤 높은 다양한있다 우리가 공부할 수있는 언어. 그리고 당신은 아마 생각 하기 매우 어렵고, 예를 들면, 한 언어에서 번역 다른, 당신이 가지고있는 것을 고려 거의 7,000 그들. 그래서, 당신은 번역 일을 생각하면 하나의 언어에서 다른 당신 이 거의 만 명 이상 다른 조합 당신이 할 수 언어에서 언어가 있습니다. 그래서 정말 어떤 작업을 수행하기 위해 도전적 예를 들어 번역 시스템의 종류 모든 단일 언어. >> 그래서, 구문 언어학 취급, 의미론, 화용론. 너희들은 정확하게 필요로하지 않는다 그들이 무엇을하다 알고 있습니다. 그러나 매우 흥미있는 일이 있다는 것입니다 당신이 배울 수있는 원어민과 같은 자식으로 언어, 당신은 실제로 학습 그 모든 것들 - 구문 의미 화용론 - 혼자서. 그리고 아무도에 대한 문법을 가르 칠 수 없다 당신은 문장이 얼마나 이해하기 구조. 그래서, 정말 흥미로운 때문에 매우 온다 뭔가 직관적으로. >> 그리고 당신은 무엇을 복용하고 컴퓨터 과학? 음, 가장 중요한 것은 우리 컴퓨터 과학이 먼저 중입니다 모든, 인공 지능 기계 학습. 그래서, 우리는 일을하려고하는지 전산 언어학 가르쳐입니다 작업을 수행하는 방법을 컴퓨터 언어와. >> 그래서, 예를 들면, 기계 번역. 내 컴퓨터의 방법을 가르쳐하기 위해 노력하고있어 하나에서 전환하는 방법을 알고 다른 언어. 그래서, 기본적으로 가르침을 좋아 컴퓨터가 두 가지 언어. 나는 자연 언어 처리를 할 경우, 의 예를 들어 어떤 경우인지 페이스 북의 그래프 검색, 당신이 가르쳐 이해하는 방법 컴퓨터 쿼리도. >> 그래서, 당신은 "의 사진을 말한다면 내 친구. "페이스 북은 취급하지 않습니다 이 전체 문자열 단어의 단지 무리입니다. 실제로 관계를 이해 "사진"과 "내 친구"사이 "사진"는 것을 이해 의 속성 "내 친구." >> 그래서, 예를 들어, 일부의 정보 자연 언어 처리. 그것은 이해하려고 노력 무슨 관계이다 문장에있는 단어. 그리고 큰 문제는, 당신이 할 수 있습니다 말하는 방법을 컴퓨터를 가르쳐 일반적으로 언어? 매우 흥미로운 질문입니다 , 경우 어쩌면 미래에, 생각 당신은 할 수있을거야 휴대 전화에 이야기. 종류의 우리가 시리와 무엇을 같이하지만, 뭔가 더 같은, 당신이 실제로 수 당신이 원하는대로 말을하고 전화 모든 것을 이해하는 것입니다. 그리고 질문을 수행 할 수 있습니다 과 계속 얘기. 즉, 정말 흥분 뭔가 제 생각에. >> 그래서, 자연 언어에 대해 뭔가. 정말 흥미로운 자연 언어는,이입니다 내 언어학 교수로 신용, 마리아 Polinsky. 그녀는 예를 제공하고 나는 생각한다 정말 흥미 롭군요. 우리는시에서 언어를 배울 수 있기 때문에 우리는 우리의 고유 한 후 태어난거야 언어 종류의 우리를 성장. >> 그리고 기본적으로는 언어를 배울 최소한의 입력에서 마우스 오른쪽? 당신은 입력을 받고있어 당신의 언어가 어떤 소리의 부모 좋아하고 당신은 그것을 배울. 당신이 보는 경우 때문에 그래서, 흥미로운 그 문장에서, 예를 들어. 당신은보고, "마리아는 모든 코트에 그림을 그리 듯 시간이 그녀가 집을 떠난다. " >> 이 경우에는 가질 가능성 단어 "는 그녀는"오른쪽 메리를 참조하십시오? 당신은 "마리아가 코트에두고 말할 수있다 메리 잎마다 집. "그래서 괜찮아요. 그러나 다음 문장을 보면 "그녀는 메리 코트에있는 모든 시간을 둔다 집을 떠난다. "당신이 알고 "그녀가"라고하는 것이 불가능 메리 참조. >> "마리아는두고 있음을 말하는 방법은 없습니다 코트에 메리 잎마다 집이. "그래서 흥미 때문에 이 직관의 종류입니다 모든 네이티브 스피커가있다. 그리고 아무도는이 것을 가르쳐되지 않았다 구문이 작동하는 방식. 그리고 당신 만이 "그녀"를 가질 수 이 첫 번째 경우에 메리 참조 실제로이 기타 도 있지만이 하나. 그러나 모든 사람이 종류의 가져 같은 대답. 모두가 그것에 동의한다. 그래서 방법을하지만 정말 흥미로운 당신은 모든 규칙을 모르는 당신의 언어로 당신은 종류의 이해 언어가 작동하는 방법. >> 그래서 자연에 대한 흥미로운 것은 언어에 당신이 할 것입니다 알고있는 문법을 알고있는 경우 문장 에 대한 문법 또는 문법에 맞지 않는 것입니다 대부분의 경우. 당신이 생각하게하는 어쩌면 무엇 일어나는 당신이 당신의 인생을 통해서이다 다만 점점 점점 계속 문장은 당신에게 말했다. 그리고 당신은 암기를 유지 문장의 모든. 그리고 누군가가 당신을 말할 때 뭔가, 그 문장을 듣고 당신은 당신의 어휘를 봐 문장하고 있는지 그 문장이있다. 그리고 거기에있는 경우 이 문법의 말. 그렇지 않은 경우는 말할 문법에 맞지 않는. >> 따라서,이 경우에, 당신이, 오, 말할 것입니다 그래서 당신은 모두의 거대한 목록을 가지고 가능한 문장. 그리고 다음 문장을들을 때, 이 문법의 경우 또는 당신은 알고 그 기반으로하지. 것입니다 당신이 보면 문장, 예를 들면, " 다섯 향하고 CS50 TF가 맹인 요리 방위 사업 청 잔을 사용하여 소. "그건 확실히하지 않는 문장 당신이 전에 들어있다. 그러나 동시에 당신은 알고있다 바로, 문법 꽤 많이? 어떤 문법적인 실수가 없습니다 당신은 말할 수 그것은 가능한 문장이다. >> 그래서 우리가 생각하게 실제로 우리가 언어를 배우는 방법뿐만 아니라 수의 거대한 데이터베이스를함으로써 단어 나 문장 만 더 의 관계를 이해 그 문장에있는 단어입니다. 그 의미가 있습니까? 그래서 다음 질문은, 할 수있다 컴퓨터 언어를 배우는? 우리가 컴퓨터로 언어를 가르 칠 수 있습니까? >> 자, 차이를 생각하자 언어의 네이티브 스피커의 와 컴퓨터. 그래서, 스피커는 어떻게됩니까? 음, 네이티브 스피커를 배운다 그것은 노출에서 언어. 보통의 유년기. 그래서, 기본적으로, 당신은, 아기가 그리고 당신은 그것을 계속 말을하고, 단지 말하는 방법을 배운다 언어, 오른쪽? 그래서, 당신은 기본적으로주는거야 아기에 입력. 그래서, 당신이 주장 할 수있는 컴퓨터 바로, 같은 일을 할 수 있습니까? 당신은 언어에게 제공 할 수 있습니다 컴퓨터에 입력으로. >> 예를 들어 같은 파일들을 영어 책을 가지고있다. 어쩌면 하나의 방법 당신에게 그 아마도 가르 칠 수 컴퓨터, 영어, 맞죠? 그리고 사실, 당신이 그것에 대해 생각하면, 어쩌면 몇 걸립니다 책을 읽는 일. 컴퓨터는 두 번째를 걸립니다 책에있는 모든 단어를 봐주세요. 그래서 당신은있을 수 있습니다 생각할 수있는 그냥이 주위로부터의 입력 인수 즉, 그건 말을 충분하지 않습니다 인간 만이 할 수있는 일. 당신은 컴퓨터를 생각할 수 또한 입력을받을 수 있습니다. >> 두 번째 문제는 그 네이티브 스피커 또한이 뇌를 가지고 언어 학습 기능을 제공합니다. 하지만 당신은 그것에 대해 생각하면, 뇌는 단단한 것입니다. 당신이 태어난 때, 이미 설정되어 - 이것은 당신의 두뇌입니다. 당신이 성장하고, 당신은 더 많은 것을 얻을 언어의 입력과 어쩌면 영양소 및 기타 물건. 그러나 꽤 많은 당신의 두뇌 고체 것입니다. >> 그래서 당신은 그럼, 당신이 할 수있는, 말할 수 한 무리의가있는 컴퓨터를 구축 기능 및 단지 모방 방법 언어 학습 기능을 제공합니다. 그래서 그런 의미에서, 당신은 내가 잘 말할 수 모두가 컴퓨터를 가질 수있다 나는 언어를 배울 필요가 가지. 그리고 마지막으로는 그 기본 스피커는 시행 착오에서 배운다. 그래서 기본적으로 또 다른 중요한 일에 언어 학습은 당신의 종류 의함으로써 것들을 배울 당신이 듣고 무엇을 일반화. >> 당신이 성장하는만큼 당신은 배울 일부 단어는 더 명사처럼, 다른 사람은 형용사입니다. 그리고 당신은 어떤을 할 필요는 없습니다 언어학에 대한 지식 그것을 이해합니다. 그러나 당신은 어떤 단어가 알고 의 일부에 위치된다 문장 및 기타 일부 다른 문장의 부분. >> 그리고 만약 당신이 뭔가를 할 때 정확하지 않은 문장 등 - 어쩌면 때문에 오버 일반화 예를 들어. 당신이 성장하고있을 때 아마, 당신은 통지 복수는 보통입니다 에서 S를 넣어 형성 단어의 끝. 그리고 당신의 복수를 수행하려고 "deers에"또는 "이빨"한 "사슴" "이빨에 덮개." 그럼 부모님이나 누군가가 당신을 수정하고, 말한다 아니, "사슴"복수 "는 사슴"이며 "이빨"복수는 "이빨"입니다. 그리고 당신은 그 일을 배운다. 그래서 당신은 시행 착오에서 배울. >> 하지만 당신은 할 수 컴퓨터. 당신이라고 뭔가를 할 수 있습니다 강화 학습. 에게주는처럼 기본적으로 어떤 그것은 수행 할 때마다 컴퓨터 보상 제대로 뭔가. 그리고 그것을 보상의 반대를주는 그것은 잘못된 무언가를 할 때. 당신은 실제로 볼 수있는 당신이 가면 구글 번역 당신은 시도에 문장을 번역, 그것은 의견을 묻습니다. 당신이 말한다면, 오, 더 나은가있다 이 문장에 대한 번역. 그런 다음 그것을 입력 할 수있는 경우를 많이 사람들은 더 나은 말하는 유지 번역, 그냥 배운다 그것이 대신의 번역을 사용한다 가 제공 한 한. >> 그래서, 그것은 매우 철학적 질문 컴퓨터가 될 수 있습니다 여부를 확인하려면 미래에 이야기하거나하지 수. 하지만 높은 기대가 그들이 할 수있는 그 단지 그 인수에 따라. 그러나 철학적 단지 더 많은 질문입니다. >> 컴퓨터는 아직 말할 수있는 동안 그래서, 우리가 할 수있는 일이 무엇입니까? 정말 괜찮은 것들입니다 데이터 분류. 따라서, 예를 들어, 너희들은 알고 해당 이메일 서비스에 대해 수행 예를 들어, 스팸 필터링. 당신은 스팸 메일을받을 그래서 할 때마다, 또 다른 상자에 필터링을 시도합니다. 그래서 어떻게 그 일을합니까? 그것은 컴퓨터가 그냥 알고있는 게 아니에요 어떤 이메일 주소는 스팸 메일을 보낼 수 있습니다. 그래서 더의 내용을 기반으로 메시지, 또는 어쩌면 제목, 또는 어쩌면 당신이 어떤 패턴입니다. >> 그래서, 기본적으로, 당신이 할 수있는 것은 얻을 수있는 스팸 이메일의 데이터의 많은, 스팸하지 않습니다, 그리고 배우 이메일 것을 만약에이 패턴 종류 스팸 것. 그리고 이것은 계산의 일부입니다 언어학. 그것은 데이터 분류라고. 그리고 우리가 실제로 볼거야 다음 슬라이드에서 그 예. >> 두 번째는 자연 언어입니다 일이 처리하는 그래프 검색 댄다하고있다 당신은 문장을 작성합니다. 그리고 그것은 당신이 이해 신뢰 무슨 의미 및 제공 당신이 더 나은 결과. 실제로, 당신은 구글이나 빙에 가면 당신은 여자처럼 뭔가를 검색 가가의 높이가 실제로거야 대신 정보 5 '1 "을 얻을 수 실제로 이해하고 있기 때문에 그녀의 당신이 무슨 말을하는지. 그래서 자연의 일부 언어 처리. >> 나 또한 먼저, 시리를 사용할 때 당신은에 시도 알고리즘이 당신이 무슨 말을하는지 번역 단어로, 텍스트. 그리고 그 번역을하려고합니다 그 의미로. 그래서 모든 자연의 일부 언어 처리. >> 그럼 당신은 기계 번역을 - 실제로 하나입니다 내 즐겨 찾기 - 단지에서 번역되는 다른 언어. 그래서 당신은 당신이 일을 할 때 생각 할 수 있습니다 기계 번역, 당신은이 문장의 무한한 가능성. 그래서 그냥 저장하는 방법이 없습니다 하나 하나 번역. 그래서 당신은 재미와 함께 올 필요 알고리즘은 수 매일 번역 어떤 방법으로 문장. >> 너희들은 지금까지 질문이? 아니? OK. >> 그래서 오늘 우리가 볼거야? 우선, 내가 이야기하는거야 분류 문제. 그래서 한 하나 스팸 메일에 대한 말. 내가 할거야 것은 주어진 가사에게 있습니다 노래에, 당신은 알아 내기 위해 시도 할 수 있습니다 높은 확률로 가수는 누구입니까? 이 전 여성에서 노래를한다고 가정 해 봅시다 가가와 케이티 페리 (Katy Perry), 나는 당신에게를 제공하는 경우 새 노래, 당신은 알아낼 수 있다면 그것은 케이티 페리 나 레이디 가가입니까? >> 두 번째, 얘기 좀하려고 해요 분할 문제에 대한. 그래서 너희들이 알고 있다면 모르겠지만, 중국어, 일본어, 동아시아 언어 및 다른 언어 일반적으로,이 없습니다 단어 사이에 공백. 그리고 당신은 그 방법에 대해 생각하는 경우 시도의 컴퓨터 종류에 자연 언어 처리를 이해하고, 그것은 단어에 보이는 관계를 이해하려고 그들 사이에, 오른쪽? 하지만 당신은 당신이 중국어를 가지고 있고, 제로 공백이, 그것은 어려운 정말로 사이의 관계 무엇인지 알아 말은, 때문에 그들은 어떤이 없습니다 처음에는 단어. 그래서 당신이라고 뭔가를해야 그냥 퍼팅을 의미 분할 우리가이라고 부르는 사이에 공백 그 언어의 단어. 이해가가? >> 그리고 우리가 갈거야 구문에 대해 이야기. 자연에 대한 그래서 조금 언어 처리. 그것은 단지 개요가 될 것. 그래서 오늘은, 기본적으로 내가하고 싶은 일 사람들에게 당신에게 약간을 제공합니다 가능성이 무엇인지 내부 당신은 전산으로 할 수있는 언어학. 그리고 당신은 당신이 생각하는 것을 볼 수 있습니다 그 무엇보다도 멋지다. 그리고 어쩌면 당신은 프로젝트 생각할 수 나에게 이야기 온다. 그리고 나는 당신에게 조언을 줄 수 그것을 구현하는 방법에 대한. >> 그래서 문법은 약간 될 것입니다 그래프 검색 시스템에 대한 번역. 난 그냥 방법의 예를 들어 줄거야 만약, 예를 들어, 번역 있었다 영어 포르투갈어 뭔가. 좋은 소리? >> 그래서 일단, 분류 문제. 나는 말할 것 그 세미나의이 부분 가장 도전이 될 것입니다 하나가려고해서 약간의 코딩이 될 수 있습니다. 그러나 파이썬이 될 것. 나는 너희들이 파이썬을 알고, 그렇게 알고 있지 난 그냥 높이에 설명 할게 내가 뭘 수준. 그리고 당신은 정말 너무 걱정하지 않아도됩니다 그 때문에 구문에 대한 많은 너희들이 배울 수있는 무언가. OK? 좋은 소리. >> 따라서 분류의 문제는 무엇인가? 그래서 당신은 몇 가지 가사를 부여하고 노래, 당신은 추측 할 누가 노래입니다. 그리고 이것은 모든 종류의 할 수있다 다른 문제. 그래서, 예를 들어,이 수 대통령 선거 운동 당신은이 음성, 당신은 찾을 그것은 한 걸 경우, 예를 들어, 오바마 나 미트 롬니. 또는 당신은 이메일의 무리를 가질 수 당신은 그들이 경우 알아 내야 스팸 없습니다. 그래서 그냥 몇 가지를 분류하는 것 단어에 따라 데이터 당신은 거기있다. >> 그래서 할 경우에이 몇 가지 가정을합니다. 따라서 전산 언어학에 대해 많은 가정을하고있다, 보통 스마트 가정, 그 때문에 당신은 좋은 결과를 얻을 수 있습니다. 그것에 대한 모델을 만들려고. 그리고, 그것을 밖으로 시도하고 작동하는지 확인 그것은 당신에게 좋은 정밀도를 제공합니다. 그리고 그것은 않는 경우, 그것을 개선하려고합니다. 그것은, 당신은 OK, 같은 거하지 않으면 아마 다른 가정을해야한다. >> 그래서 우리가 가고있는 가정 만드는 예술가는 보통 노래입니다 어쩌면에 대한 주제를 여러 번하고, 말에게 여러 번 사용하는 것만 그들은 그것을 사용하고 있기 때문이다. 당신은 당신의 친구 생각할 수 있습니다. 난 너희들 모두가 친구가 확신 자신의 서명 문구를 말하는 그 말 그대로 하나 하나 문장 - 일부 특정 단어 나 어떤 특정한 등 그들이 말하는 구 매 문장. >> 그리고 당신이 말할 수있는 것은 당신이 보는 경우에 서명이 문장 어구, 당신은 추측 할 수있는 아마 당신의 친구입니다 하나는, 바로 그 말을? 그래서 당신은 그 가정을하고 즉, 모델을 만드는 방법은 다음과 같습니다. >> I 줄거야 예에있다 방법 레이디 가가 (Lady Gaga), 예를 들어, 사람들이 그녀가 "아기"를 사용한다고 그녀의 번호를 하나의 노래. 실제로이 비디오 것을 보여줍니다 그녀는 단어 "아기"에 대한 말 다른 곡. >> [동영상 재생] >> - (SINGING) 아기. 아기. 아기. 아기. 아기. 아가씨. 아기. 아기. 아기. 아기. >> [END 비디오 재생 - >> LUCAS 프레이 타스 : 그래서, 나는 생각한다,가 그녀는 말한다하는 여기에 40 곡 단어 "아기." 그래서 당신은 기본적으로 추측 할 수있다 당신은이 노래를 참조하는 경우 단어 "아기"고등학교가있다 그것은 레이디 가가 (Lady Gaga)의 것을 확률. 그러나 이제이 개발 해보자 더 형식적으로. >> 그래서 이들에 의해 노래 가사입니다 레이디 가가와 케이티 페리 (Katy Perry). 그래서 당신은 레이디 가가 보면, 당신은 그들이 볼 의 사건의 많은 부분이 "아기" 의 발생의 많은 "방법입니다." 그리고 케이티 페리는 사건의 많은 부분이 ","의 사건의 많은 부분 "화재의 위험이 있습니다." >> 그러니까 기본적으로 우리가 원하는 것을 할 당신이 가사를 얻을 수있다. 의 당신은의 가사를 얻을 수 있다고 가정 해 봅시다 "아기"그냥 "아기"입니다. 노래 면 당신은 단어 "아기"이 얻을 어디에서이 모든 데이터입니다 레이디 가가와 케이티 페리 (Katy Perry), 것 당신이 생각하는 사람 누가 노래를 노래? 레이디 가가 나 케이티 페리? 레이디 가가 (Lady Gaga), 오른쪽? 그녀는 말한다 하나 때문에 "아기." 이것은 바로, 바보 소리? OK, 이건 정말 간단합니다. 난 그냥 두 노래에 그리고 찾고 있어요 물론, 그녀가 가지고있는 단 하나의 "아기." >> 하지만 당신은 단어의 무리를 무엇을 가지고 있다면? 당신은 실제 가사, 뭔가가있는 경우 같은, "아기, 그냥 [를 보러 갔다? CFT?] 강의 ", 또는 그런 식으로 뭔가하고 당신은 실제로 파악해야 - 그 모든 단어를 기준으로 - 누가 작가는 누구 아마 이 노래를 노래? 그래서 개발 해보자 조금 더이. >> 좋아요, 그럼 데이터를 기반으로 우리 가지고, 그것은 가가 아마 것 같다 가수. 그러나 우리는 어떻게 쓸 수 있습니다 이 형식적으로? 그리고 좀있을거야 통계의 비트. 그래서 당신이 길을 잃는다면, 그냥 해 개념을 이해합니다. 당신이 이해한다면 그것은 중요하지 않습니다 방정식 완벽하게. 이 모든 온라인이 될 것입니다. >> 그래서 기본적으로 제가 계산 해요 것은입니다 이 노래가 있음을 확률 레이디 가가는 주어 - 그래서이 줄은 그 주어진 의미 - 나는 단어를보고 "아기를." 그 의미가 있습니까? 그래서 내가 계산하려고 해요 그 확률. >> 그래서이라는 이론이있다 있다고 베이 즈 정리 주어진 B의 확률은있다 A, B 번 주어진 확률 확률에의 가능성, B.의이 긴 식이다. 하지만 당신은에서 이해해야 즉,이 내가하고 싶은 것입니다 바로 계산? 그 노래가되도록 확률 레이디 가가라는 단어를보고 주어진 "아기." >> 그리고 지금 내가 받고 있어요 것은 주어진 단어 "아기"의 가능성 나는 레이디 가가 (Lady Gaga)가있다. 그리고 기본적으로 무엇입니까? 그 의미가 무엇인지, 무엇 단어 "아기"를 보는 확률 가가의 가사? 나는 아주에 그 계산하려면 간단한 방법으로, 그것은 단지 수의 시간 나는 총에 "아기"를 참조하십시오 가가 가사의 단어, 오른쪽? 내가 볼 주파수는 무엇입니까 가가의 작품에서 그 단어? 이해가가? >> 두 번째 항은 가가의 확률. 이것은 무엇을 의미할까요? 즉, 기본적 의미는 무엇인가 분류의 확률 가가와 같은 일부 가사? 그리고 그게 좀 이상하지만, 한 가지 예를 들어 생각해 보자. 그래서 말을하자 그 확률 노래에서 "아기"를 갖는 동일합니다 가가와 브리트니 스피어스. 하지만 브리트니 스피어스가 두 번이 레이디 가가 (Lady Gaga)보다 더 많은 노래. 그래서 사람은 무작위로 당신에게 제공하는 경우 첫 번째 것은 "아기"의 가사 당신 에있다 보면, 확률 무엇인가 가가의 노래에 "아기"를 갖는 "아기" 브리트니의 노래? 그리고 그것은 같은 것입니다. >> 그래서 당신이 볼 수 있습니다 두 번째는,이다 물론, 확률 무엇인가 그 자체로이 가사는, 가가 가사 인 그리고 확률은 무엇입니까 브리트니 가사 인? 그래서 브리트니가 더 많은 가사를 가지고 있기 때문에 가가보다 당신은 아마 것 말하자면, 잘, 이것은 아마 브리트니 가사. 우리가 이것을 왜 그래서의 여기 용어입니다. 가가의 확률. 의미가? 그것은합니까? OK. >> 그리고 마지막 하나는 단지 확률 "아기"의 어느하지 않습니다 정말 문제가 많은. 하지만 확률의 영어로 "아기"를보고. 우리는 일반적으로 상관하지 않는 이 용어에 대해 많은. 그 의미가 있습니까? 그래서 가가의 확률이다 이전의 확률이라고 클래스 가가. 그냥 그 의미하기 때문에, 무엇인가 해당 클래스를 갖는 확률 - 가가하는 것입니다 - 다만 일반적으로, 단지 아무 조건. >> 그리고 나는 확률이있을 때 "아기,"우리가 그것을 호출 플러스 주어진 가가 이 때문에 확률이 눈물이 글썽 발생의 확률 가가는 몇 가지 증거를가 없습니다. 그래서 나는 당신에게 증거를주는거야 나는 아기 단어를보고 있음 노래는 의미가? OK. >> 나는 계산이 경우 그 각각에 대해 레이디 가가의 노래, 그게 어떻게 될지 - 분명히,이 이동할 수 없습니다. 가가의 가능성이있을 것입니다 뭔가처럼,이 24 이상, 배 1 / 2, 53 이상 2 이상. 당신이 알고있는 경우에 그것은 중요하지 않습니다 무슨 이 숫자에서오고있다. 하지만 것입니다 단지 수의 바로, 0 이상이 될 수 있습니다? >> 그리고 나는 케이티 페리 (Katy Perry)를 수행 할 때 케이티 주어진 "아기"의 확률은 이미 0, 오른쪽? 더 "아기"가 없기 때문에 케이티 페리. 따라서 다음이 0이되고, 가가 승리, 이는 가가가 있음을 의미 아마 가수. 그 의미가 있습니까? OK. >> 그래서 난이 더 많은 공식을 만들고 싶은 경우에, 실제로 모델을 할 수있는 여러 단어. 그래서 내가 뭔가를 가정 해 봅시다 같은, "아기, 나는 불 "또는 뭔가. 그래서 여러 단어가 있습니다. 그리고이 경우에, 당신은 볼 수 있습니다 이 "아기", 가가에 하지만 케이티 아니다. 그리고 "불이"케이티이지만, 그것은 바로, 가가에없는? 그래서 그것은 바로, 난이도가 점점? 그 것 때문에 당신 거의 둘 사이에 넥타이를해야합니다. >> 그래서 당신이해야 할 것은 가정입니다 단어 사이의 독립성. 그래서 기본적으로 그게 무슨 뜻인지 즉 난 그냥 어떤 계산 해요 보는 확률 "아기는,"무엇인가 보는 확률 "나는"과 "불" "AM"및 "에,"와 모든 별도. 다음 나는 그들 모두를 곱 해요. 그리고 확률 무엇을보고 있어요 전체 문장을보고. 이해가가? >> 그러니까 기본적으로, 난 그냥 하나의 단어가있는 경우, 내가 찾으려는 인수의 최대입니다, 즉, 한 클래스는 무엇인가 나에게 확률이 가장 높은주는? 그래서주고있다 클래스는 무엇인가 나에게 확률이 가장 높은 클래스의 확률은 단어가 없습니다. 따라서이 경우, 가가는 "아기를."주어진 아니면 케이티는 "아기를."주어진 이해가가? >> 그냥 베이 즈에서, 그 내가 보여 방정식, 우리는이 부분을 만들 수 있습니다. 유일한 방법은 당신이 보는 것입니다 주어진 단어의 확률 따라서 클래스 변경 클래스, 오른쪽? 내가 가지고있는 "아기"의 수 가가의 케이티 다릅니다. 클래스의 확률도 그것은 단지 숫자의 변화 때문에 그들의 노래를 각각 보유하고 있습니다. >> 그러나 단어 자체의 확률 모두에 대해 동일한 될 것입니다 예술가, 오른쪽? 따라서 단어의 확률이다 다만, 확률 무엇인가 에서 그 단어를보고 영어? 그래서 그들 모두에 대해 동일합니다. 이 일정 그래서 때문에, 우리는 할 수있다 다만 이 드롭 그것에 대해 걱정하지. 그래서이 사실이 될 것입니다 우리가 찾고있는 식. >> 내가 여러 단어가있는 경우 그리고, 난 여전히 이전을해야 할 것 여기에 확률. 유일한 것은 내가 곱한다는 거죠 확률 모든 즉. 그래서 나는 그들 모두를 곱 해요. 이해가가? 그것은 이상한 보이지만, 기본적으로 의미 클래스의 사전, 및를 계산 각의 확률을 곱 해당 클래스에되는 단어. >> 그리고 당신은 알고 확률 클래스 주어진 단어가 될 것입니다 만약에 그 단어를 참조 횟수 수로 나눈 그 클래스, 단어는 점에서이 일반적으로 클래스입니다. 이해가가? 그것은 이상 2 얼마나 "아기"이었다 있어요 단어의 개수가 나는 가사에 있었다. 그래서 그냥 주파수. >> 그러나 한 가지가있다. 내가 보여주는 방식을 기억하십시오 "아기"인 가사의 확률 케이티 페리 (Katy Perry)에서 0이라서 케이티 페리는 모두에서 "아기"를하지 않았다? 그러나 그것은 단지에 사운드가 거친 단순히 가사에서 할 수없는 말 는 자신이 갖고 있지 않은해서 예술가 언제든지 특히 그 단어. >> 당신이 있다면 당신은, 잘 말할 수 이 말을하지 않아도, 그럴려고 당신에게 낮은 확률을주고, 하지만 난 그냥 아니 겠지 바로 당신에게 0을 제공합니다. 아마 뭔가처럼 때문에 입니다 "불, 불, 불, 불," 완전히 케이티 페리 (Katy Perry). 그리고 "아기"하고 그냥 간다 0은 바로 하나가 있었기 때문에 "아기." >> 그러니까 기본적으로 우리가 할 것은 무엇인가이다 라플라스 다듬기했다. 그리고 이것은 그냥주는거야 것을 의미한다 심지어 단어에 약간의 확률 그것은 존재하지 않습니다. 그래서 내가 할 것은이 난 경우 이 계산, 항상 1을 추가 분자. 단어에 존재하지 않는 그래서 경우에도 이 값이 0 인 경우이 경우는 여전히 해요 을 통해 1 등이 계산 단어의 총 수. 그렇지 않으면, 나는 얼마나 많은 단어 내가하고 난 1을 추가합니다. 그래서 두 경우 모두에 믿고있어. 이해가가? >> 그래서 지금의 약간의 코딩을 할 수 있습니다. 나는 꽤 빨리 그것을해야하는거야 하지만 그것은 단지 중요한 당신에게 그 사람은 개념을 이해합니다. 그래서 우리가하려고하는 정확히 구현한다 내가 방금 말한 것은 - 난 당신이에서 가사를 넣을 레이디 가가와 케이티 페리 (Katy Perry). 그리고이 프로그램은 할 수있을 것입니다 이 새로운 가사 가가의 경우 말 또는 케이티 페리 (Katy Perry). 이해가가? OK. >> 그래서 내가 갈거야이 프로그램이 classify.py를 호출합니다. 그래서 이것은 파이썬입니다. 그것은 새로운 프로그래밍 언어이다. 그것은 몇 가지 매우 유사하다 C와 PHP하는 방법. 당신이 원하기 때문에 경우는 비슷 C를 아는 한 후 파이썬을 배우고, 그것의 도전 정말 많이하지 파이썬은 훨씬 더 쉽게해서 보다 C, 우선. 그리고 많은 것들이 이미 당신을 위해 구현. 그래서 얼마나 PHP와 같은 기능을 가지고 그 목록을 정렬, 또는 무언가를 추가 배열 또는 어쩌구 저쩌구합니다. 파이썬은 물론 그 모두를 가지고 있습니다. >> 그래서 난 그냥 빨리 설명 할게 우리는 분류를 할 수있는 방법 여기에 대한 문제. 그래서이 경우, 내가 가진 가정 해 봅시다 가가와 케이티 페리 (Katy Perry)의 가사. 난 그 가사가 방법입니다 가사의 첫 번째 단어입니다 아티스트의 이름, 나머지 가사이다. 그래서 나는이 목록을 가지고 있다고 가정 해 봅시다 이는 첫 번째는 가가 가사입니다. 그래서 나는 여기 바른 길에 있습니다. 그리고 그 다음은 케이티이며, 또한 가사가 있습니다. >> 그래서 이것은 당신이 선언하는 방법입니다 파이썬에서 변수. 당신은 데이터 형식을 제공 할 필요가 없습니다. 당신은 "가사"를 쓰기 종류의 PHP에서 좋아합니다. 이해가가? >> 그래서 내가 가지고있는 것들에 무엇입니까 계산할 수있는 계산 확률? 나는 "전과"를 계산해야 다른 각각의 내가 가지고있는 클래스. 나는 "포스 테리어를,"계산해야 또는 거의 확률의 다른 단어의 각이 나는 각 아티스트 수 있습니다. 그래서 가가 내에서, 예를 들어, 내가 갈거야 내가 보는 횟수의 목록을 가지고 각각의 단어. 이해가가? >> 그리고 마지막으로, 난 그냥있을거야 단지 것입니다 "단어"라는 목록 이 얼마나 많은 단어를 I 각 아티스트가 있습니다. 그래서 가가, 예를 들어, 내가 봐 가사에, 나는, 나는 생각했다, 24 총 단어. 그래서이 목록은해야 할 것입니다 가가 (24)와 케이티 다른 번호. 이해가가? OK. >> 그래서 지금, 실제로하자 코딩로 이동합니다. 그래서 파이썬에서, 당신은 실제로 수 다른 한 무리의 반환 함수에서 일. 그래서이 함수를 만들거야 예정되어있는 "조건부"라고 그 모든 일을 반환 "전과" "확률"과 "단어입니다." 그래서 "조건부"그것은의 로 호출 될 것 "가사." >> 그래서 지금 당신이 실제로 원하는 이 기능을 쓰기. 나는이 쓰기 할 수 있도록하는 방법 기능 난 그냥이 정의된다 함께 작동 "DEF." 그래서 데프 "한 조건부 "그것을 복용 "가사." 어떤이는 할 것입니다 , 우선, 나는 전과가있다 내가 계산 할 것인지. >> 그래서 내가 할 수있는 방법은 만드는 것입니다 파이썬에서 사전에 어떤 해시으로 거의 같은 것입니다 테이블 또는 그것은 반복처럼 PHP의 배열입니다. 이것은 내가 사전을 선언하는 방법입니다. 그리고 기본적으로 이것이 의미하는 것으로는 가가의 전과가있는 경우, 예를 들어, 0.5 가사의 50 %에서 있습니다 가가, 50 %는 케이티에서이다. 이해가가? 그래서 나는 알아 내기 위해 얼마나 전과를 계산합니다. >> 나는이해야 할 다음 사람도, 확률과 단어입니다. 그래서 가가의 확률 목록입니다 모든 확률의 I 가가에 대한 각각의 단어에있다. 나는 가가의 확률로 이동이 경우 "아기,"예를 들어, 나에게주지 2이 경우에 24 일 이상 같은. 이해가가? 그래서 나는 "확률"로 이동로 이동 모두의 목록이 "가가"버킷 가가의 말은, 그때 나는 "아기"로 이동 나는 가능성을 참조하십시오. >> 그리고 마지막으로 나는이가 "단어"사전. 그래서 여기에, "확률." 그리고 "단어입니다." 그래서 나는 "말", "가가"를 할 경우 무엇이 일어날 것은 점이다 나에게 24을 줄 것 말하는 것을 I 가가의 가사에서 24 단어가있다. 의미가? 그래서 여기에 "단어"DAH-DAH-DAH 같습니다. OK >> 그래서 내가 할거야 것은 내가 갈거야입니다 그래서, 가사 각각의 반복 각 문자열이 나는이 목록에있다. 그리고 그 일을 계산하는거야 후보자 각각에 대해. 의미가? 그래서 루프를 수행해야합니다. >> 그래서 파이썬에서 내가 할 수있는 것은 라인 "입니다 가사. "같은 일 PHP의 문 "각". 그것은 PHP 있다면 어떻게 내가 할 수있는 기억 각 가사 "라고 줄은. "감각을 만든다? 그래서 이것으로, 각 줄을 데려 갈거야 경우,이 문자열과 다음 문자열 그래서 난 어떤 라인의 각 어떻게가는 I가에 갈거야, 첫 번째입니다 목록에이 줄을 분할 공백으로 구분 된 단어. >> 그래서 파이썬에 대한 좋은 점은 것입니다 당신은 구글과 같은 "어떻게 수 I 단어로 문자열을 분할? "등의 정보가 어떻게하는지 방법을 알려주는 것. 그리고 그것을 할 수있는 방법은, 그냥 "라인의 = line.split () "그리고 그것은 기본적으로의 당신과 목록을 제공하는 것 여기에 각각의 단어. 의미가? 그래서 지금 내가 알고 싶은 것을했다는 것을 그 노래의 가수는 누구인가. 그리고 난 그냥 얻을 것을해야 할 일 배열의 첫 번째 요소, 오른쪽? 그래서 난 그냥 말할 수있는 I "가수 = 선 (0) "감각을 만든다? >> 그리고 내가해야 할 것은 첫 번째의,이다 모두, 내가 업데이트 할거야 얼마나 많은 말은 내가 아래에있다 "가가." 그래서 난 그냥 계산하려고 얼마나 많은 단어를 I 바로,이 목록에 있습니까? 이것은 내가 얼마나 많은 단어 때문에 가사와 나는 단지에 갈거야 "가가"배열에 추가합니다. 그 의미가 있습니까? 구문에 너무 많은 초점을하지 마십시오. 개념에 대한 자세한 생각합니다. 즉, 가장 중요한 부분입니다. OK. >> "가가가"경우 그래서 내가 할 수있는 것은 이미 목록에있는, 그래서 "가수의 경우 단어 "하는 것을 의미 나는 이미 가가하여 단어가있다. 난 그냥 추가를 추가 할 그 단어에. 그래서 내가 할 것은 '단어 (가수)입니다 + = LEN (선) - 1 ". 그리고 난 그냥 할 수있는 줄의 길이. 그래서 얼마나 많은 요소 I 배열에있다. 그리고 내가해야 할 일을 뺀 때문 만 배열의 최초의 요소는 단지입니다 가수들은 가사 없습니다. 의미가? OK. >> "그렇지,"내가 원하는 것을 의미 실제로 목록에 가가를 삽입합니다. 그래서 난 그냥 단어 (가수) "할 = LEN (선) - 1, "죄송합니다. 그래서 둘 사이의 유일한 차이점 라인이 하나, 그렇지 않을 것입니다 아직 존재, 그래서 난 그냥 를 초기화. 이 하나의 사실은 추가 해요. OK. 그래서이 단어를 추가했다. >> 지금은 전과에 추가 할. 그래서 어떻게 전과을 계산합니까? 전과가 계산 될 수있다 얼마나 많은 배. 당신은 그 가수를 참조 그래서 몇 번 당신이 가수의 모든 중 오른쪽이? 가가와 케이티 페리에 대한 그래서 이 경우는 가가 참조 한 번, 케이티 페리 번. >> 가가에 대한 그래서 기본적으로 전과 와 케이티 페리 (Katy Perry)에 대한 것 바로, 하나? 당신은 얼마나 많은 시간 나는 예술가를 참조하십시오. 그래서이 계산하는 것은 매우 쉽습니다. 나는 유사 뭔가처럼 "마치 전과의 가수는, "난 그냥 갈거야 자신의 전과 상자에 1을 추가합니다. "그래서,"다음과 ""전과 (노래) "+ = 1 다른 나는 "전과 (가수) 할거야 = 1. "감각을 만든다? >> 그래서이 존재하지 않을 경우, 난 그냥 넣어 1로, 그렇지 않으면 그냥 1을 추가합니다. 좋아, 그럼 이제 어떻게해야 남아있는 그 도에 각각의 단어를 추가한다 확률. 그래서 내가 계산해야하는 횟수를 나는 각각의 단어를 참조하십시오. 그래서 또 다른 작업을 수행해야 라인 루프. >> 내가 할거야 그래서 일단은 가수가 이미있는 경우 확인 확률의 배열입니다. 가수가없는 경우 그래서 알아보고 있어요 확률의 배열을 가지고, 난 그냥 그 하나를 초기화하는 것. 그것은 심지어 배열이 아니다, 죄송합니다, 그것은 사전입니다. 그래서 가수의 가능성은 것입니다 오픈 사전으로, 그래서 난 단지에 대한 사전을 초기화. OK? >> 지금은 실제로 루프를 수행 할 수 있습니다 각각의 단어 '를 계산하는 확률. OK. 그래서 내가 할 수있는 것은 루프입니다. 그래서 난 그냥 반복하는거야 배열에 대해. 내가 파이썬에서 그렇게 할 수 있도록하는 방법 "범위의 난에 대해"입니다. 1 나는 초에 시작할 때문에 첫 번째 요소 인 때문 가수 이름입니다. 그래서 하나에서까지 줄의 길이. 그리고이 범위 않을 때 실제로에서 이동 여기에 같은 1의 렌에 라인 - 1. 그래서 이미 일의 일을 매우입니다 배열에 대한 N - 1 편리합니다. 의미가? >> 그래서 이들 각각에 대해, 나는 무엇에 갈거야 할, 그냥 다른 하나처럼입니다 내가 확인하는거야 경우이 단어 라인의 위치는 이미 확률. 그리고 나는 확률은, 여기에 말했듯이 단어처럼 나는 넣어 "확률 (가수)". 그래서 가수의 이름. 그래서 이미 있다면 "probabilit (가수)", 그것은 즉, I 그것은 1을 추가 할, 그래서 난에 갈거야 "확률 (가수)"등을 수행 단어는 "라인 (I)"라고합니다. 나는 1을 추가하는거야하고 "또"난 그냥 1로 초기화하는 것. "선 (I)". 의미가? >> 그래서, 배열을 모두 계산. 그래서, 이제 난에해야 할 것을 이 하나는 그냥 ", 전과를 반환한다 확률과 단어. "하자 OK, 어떤이 있는지 확인합니다. 그것은 모든 것을 지금까지 일 것 같다. 그래서, 그 의미가 무엇입니까? 어떤 방법으로? OK. 그래서 지금은 모든 가능성이 있습니다. 그래서 지금 남아있는 유일한 단지 그 일을하는 것입니다 모두의 제품을 계산 내가 가사를받을 때 확률. >> 그럼 지금 통화 할 가정 해 봅시다 이 함수 ") (분류"및 것은 그 기능을합니다 다만 인수입니다. 의는 "아기, 나는 불입니다"라고하자 그의 무엇인지 파악하는 것 이것은 가가 것을 확률? 확률은 무엇입니까 이 케이티이라고? 좋은 소리? 그래서 난 그냥 만들어야 할거야 라는 새로운 기능 ") (분류"와 그것은 몇 가지를 취할 것 가사뿐만 아니라. 그리고 가사 외에 I도 전과를 보낼 수있다, 확률과 단어. 그래서 가사, 전과를 보낼거야, 확률, 즉. >> 그래서이 가사, 전과를하고있다, 확률, 즉. 그래서, 그것은 무엇을 하는가? 그것은 기본적으로 모두를 통해 갈 것입니다 가능한 후보 당신 가수가 있습니다. 어디 그 후보는? 그들은 전과에 맞죠? 그래서이 사람들의 모든있다. 그래서 나는 사전을 가지고 갈거야 가능한 모든 후보. 그리고 각 후보 전과, 그것이 것을 의미하므로 내가 가진 경우 가가, 케이티 수 더는 더 될 것입니다. 내가 계산을 시작하겠습니다 이 확률. 우리가에서 본 바와 같이 확률 파워 포인트는 이전 배 각각의 상품 다른 확률. >> 그래서 여기에 같은 작업을 수행 할 수 있습니다. 그냥 확률이 할 수있는 당초 사전. 후보 그래서 전과. 오른쪽? 그리고 지금은 모든 반복해야 내가되고 가사에이 단어 확률을 추가 할 OK, 그들 각각에 대해? 그래서, "가사의 단어를"내가 갈거야 단어가있는 경우 수행하는 것은입니다 "확률 (후보)"하는 이 단어의 것을 의미 후보는 가사에있다 - 가가에 대한 예를 들어, "아기"- 내가 할거야 것은 그 확률을 곱한 것입니다 플러스 확률의 1로 그 단어에 대한 후보. 그리고는 "단어"라고. 이것은 단어 수로 나눈 그 후보가있다. 내가 가진 단어의 총 수 나가보고 가수에 대한. >> "그렇지." 그것이 새로운 단어의 의미 그래서 예를 들어 같은 것 레이디 가가에 대해 "화재". 그래서 난에 1을하고 싶은 "단어 (후보)". 따라서 저는이 용어를 넣어하지 않습니다. >> 그래서 기본적으로 될 것 복사 및 붙여 넣기이. 그러나 나는이 부분을 삭제하겠습니다. 그래서 그냥 이상 1이 될 것. 좋은 소리? 그리고 지금 끝에, 그냥에 갈거야 후보의 이름을 인쇄 당신이 가지는 가능성 그들의 가사에 S 데. 의미가? 그리고 사실조차 할 이 사전이 필요합니다. 의미가? >> 그래서,이 실제로 작동하는지 보자. 나는 이것을 실행한다면, 그것은 작동하지 않았다. 1 초 기다립니다. "워드 (후보자)", "워드 (후보자)" 그건 배열의 이름입니다. OK 그래서, 몇 가지 버그가 있습니다 말한다 전과있는 후보. 내가 그냥 조금 진정하자. OK. 의 시도하자. OK. >> 그래서 케이티 페리 (Katy Perry)이있다 제공 이 배 10의 확률 마이너스 7 및 가가이있다 시간 마이너스 6 10. 그래서 당신이 그것을 보여줍니다 보시려면 가가 높은 확률을 가지고 있습니다. 그래서된다 "자기야, 내가 타고있어" 아마 가가의 노래. 의미가? 그래서 이것은 우리가했던 것입니다. >> 이 코드는 온라인에 게시 될 것입니다, 그래서 너희들은 그것을 확인할 수 있습니다. 당신이 원한다면 아마도 그것을 중 일부를 사용 프로젝트 또는 유사한 작업을 수행합니다. OK. 이것은 단지 표시했다 어떤 계산 언어학 코드는 같습니다. 하지만 지금은 좀 더 가자 높은 수준의 물건. OK. >> 그래서 다른 문제 I 에 대해 얘기했다 - 분할 문제 그 중 첫 번째입니다. 그래서 현재 일본어를한다. 그리고 당신은 볼 공백이 없습니다. 그래서 이것은 기본적으로는 것을 의미한다 의자의 위쪽, 오른쪽? 당신은 일본어를? 그것은 바로, 의자의 정상입니까? >> 학생 : 나도 몰라 무엇을 한자에있다. >> LUCAS 프레이 타스 : 그것은 [일본어를 말한다]이야 OK. 그래서 기본적으로 상단의 의자을 의미한다. 당신은 공간을 넣어했다 그렇다면 그것은 여기에있을 것입니다. 그리고 당신은 [이? 우에다 씨. ?] 어느 기본적 씨 우에다는 것을 의미한다. 그리고 당신은 "우에다"를 참조하십시오 당신은이 공간과 다음 "산." 그래서 당신은 볼 여기에 "UE는"자체 같습니다. 그리고 여기에는 문자가 그 옆에. >> 그래서 그 언어처럼되지 않습니다 단어 그것은 그래서 당신을 의미하는 문자 단지 공간을 많이 넣어. 문자는 서로 관련이있다. 그리고 그들은 함께 할 수있다 같은 둘, 셋, 하나. 그래서 당신은 실제로 어떤 종류를 만들 수있다 의 방법으로 그 공백을 넣어. >> 그리고이 물건은 당신이 얻을 때마다 아시아권 언어의 데이터, 모든 비분 온다. 때문에 일본어를 쓰는 아무도 없습니다 중국어 공백으로 씁니다. 당신은 중국어를 작성할 때마다, 일본 당신은 모든 것을 쓰기 공백없이. 그것도 이해가되지 않습니다 공백을 넣어. 그럼 당신은 어떤에서 데이터를 얻을 때 동아시아 언어, 당신이 원하는 경우 실제로 뭔가를 당신은 첫 번째 세그먼트에있다. >> 예제의 일을 생각 공백없이 가사. 그래서 당신이 가진 유일한 가사 바로, 문장이 될 것인가? 마침표로 구분. 하지만 그냥 문장을 갖는 것 정말 정보를 제공에 도움이되지 의 그 가사로 누구. 오른쪽? 그래서 당신이해야 첫 번째 공백을 넣습니다. 당신이이 어떻게 할 수 있습니까? >> 그럼 언어의 아이디어가 온다 정말 뭔가 모델 계산을 위해 중요 언어학. 그래서 언어 모델은 기본적 확률의 테이블을 보여줍니다 확률 무엇보다도 먼저 의 언어로 말을하지? 그래서 단어가 얼마나 자주 게재합니다. 그리고 또한 관계를 나타낸 문장에서 단어 사이. >> 낯선 사람이 온 경우 그래서 주요 개념이며, 당신과 문장에 말에 당신, 확률은, 무엇이다 예는, "이것은 나의 자매입니다 [? GTF"?] 그 사람이 말한 문장이었다? 그래서 분명히 몇 가지 문장은 다른 사람보다 더 많이. 예를 들어, "안녕하세요"또는 "좋음 밤, "또는"이 봐, "훨씬 더 대부분의 문장보다 일반적인 우리는 영어를 가지고있다. 그럼 왜 그 문장은 더 자주? >> 당신이 있기 때문에 우선, 그것은의 더 자주 단어. 당신이 말하는 경우에 따라서, 예를 들어, 개는 큰, 그리고 개는 당신은 거대한입니다 보통 아마 강아지가 큰 소리 "큰"는 더 자주하기 때문에 "거대한."보다 영어 자주 그렇게 하나 가지 단어 주파수이다. >> 정말 두 번째 것은 중요한 것은 단지 단어의 순서. 그래서, "고양이가 말을하는 것이 일반적이다 . 상자 안에 "하지만하지 보통 에서 참조하십시오 "상자는 내부의 고양이입니다." 그래서 당신은 어떤 중요성이 있는지 확인 단어의 순서. 당신은 말할 수없는 두 문장은 동일한 확률을 가지고 그들은 같은 말을해서. 당신은 실제로 걱정해야 주문에 대한뿐만 아니라. 이해가가? >> 그래서 우리는 무엇을해야합니까? 그래서 난 당신을 얻기 위해 시도 할 수 있습니다? 나는 당신이 우리 얻으려고 N-그램 모델을 호출합니다. 따라서, N-그램 모델은 기본적으로 가정 각 단어에 대한 그 당신은 문장이 있습니다. 그것은 발생의 확률의 그 단어뿐만 아니라 거기에 따라 달라집니다 언어로 그 단어의 빈도, 뿐만 아니라 단어를 그 그것을 둘러싸고있다. >> 그래서 예를 들면, 일반적으로 볼 때 또는 당신이있어에서 같은 아마 볼 것 그 뒤에 명사, 오른쪽? 때문에 당신은 전치사가있는 경우 보통은 그 뒤에 명사를 사용합니다. 아니면 이적하는 동사가있는 경우 당신은 일반적으로 가고있다 명사구가있다. 그래서 명사를 것 주위 어딘가에. >> 그래서, 기본적으로, 이것이하는 것은 그것이 가질 확률을 고려 즉 서로 옆에, 언제 당신이 계산하고있는 문장의 확률. 그리고 그 어떤 언어 인데요, 모델은 기본적으로. 그냥 확률 무슨 말을 특정 데 언어의 문장? 그래서 그 이유는 기본적으로 유용 했습니까? 그리고 모두의 첫 번째 것입니다 N-그램 모델 후? >> 따라서, N-그램 모델은 의미 각 단어에 따라 달라집니다 다음 N 1을 뺀 단어. 그래서, 기본적으로, 그것은, 내가 보면 있음을 의미 예를 들어 CS50의 TF에서 때에 나는 확률을 계산 해요 문장은, 당신처럼 될 것 " 단어 ""를 갖는 확률 데 시간 확률 " 데 CS50 "배 확률 "CS50의 TF." 그래서, 기본적으로, 내가 계산 그것을 스트레칭의 가능한 모든 방법. >> 그리고 일반적으로 당신은이 작업을 수행 할 때 프로젝트에서, 당신은 수 N을 넣어 낮은 값. 따라서, 보통 bigrams 또는 괘가있다. 당신은 단지 두 단어를 계산하도록 두 단어 또는 세 단어의 그룹, 단지 성능 문제에 대한. 또한 있기 때문에 어쩌면 당신이 가지고있는 경우 같은 "CS50의 TF." 때 이 "TF를,"매우 중요하다고 "CS50은"바로 그 옆에? 그 두 가지가 일반적이다 서로 옆에. >> 당신이 생각한다면 "TF"그것은 아마 가지고가는 것을 그것을 위해 TF'ing의 클래스. 또한 "는"정말 중요한 것입니다 CS50의 TF를위한. 하지만 당신은 "CS50 같은 것이있는 경우 TF는 클래스에 가서 준 자신의 학생들이 어떤 사탕입니다. ""캔디 "와" " 바로, 정말 아무 관계가없는? 그들은 서로 너무 멀리 떨어져있어 그 정말 무엇을 중요하지 않습니다 단어가있다. >> 그래서 bigram 또는 트라이 그램을 수행하여, 그 당신이 제한하는 것을 의미한다 자신을 어떤 단어로 주위에있다. 이해가가? 그래서 당신은 분할을 수행 할 때, 기본적으로, 당신이 원하는 것은 볼 수 있습니다 모든 방법은 무엇입니까 그 당신은 세그먼트 문장을 할 수 있습니다. >> 당신은 무엇을 볼 수 있도록 그 문장의 각각의 확률 언어에 존재? 그래서 당신이 할 일은 같은, 잘 할 수 있습니다 나 여기에 공간을 넣어보십시오. 그래서 당신은이 공간을 넣어 당신은 무엇을보고 그 문장의 확률? 그런 다음 OK처럼, 어쩌면 있습니다 그는 좋지 않았다. 그래서 공간이 거기에 공백을 넣어 거기, 당신은 계산 확률 지금, 당신은 볼 그것은 높은 확률이다. >> 그래서이 탱고라는 알고리즘이다 분할 알고리즘, 어느입니다 실제로 정말 수있는 작품 프로젝트에 대한 차가운하는 기본적으로 비분 텍스트를 취하는 일본어 또는 중국어 또는 어쩌면이 될 수 있습니다 영어 공백없이 배치하려고 시도 말과 용도 사이에 공백 해당 언어 모델을 사용하여 바이 가장 높은 것을 볼려고 당신이 얻을 수있는 확률. OK. 그래서이 분할이다. >> 이제 구문. 그래서, 구문에 사용되는 지금은 너무 많은 것들을. 그래프 검색, 시리에 대한 위해 이렇게 자연의 거의 모든 종류의 언어 처리가 있습니다. 그래서 중요한 무엇인가 구문에 대한 것들? 따라서, 일반적으로 문장이 우리는 성분을 부르는. 어떤 종류의 단어의 그룹처럼 문장의 기능을 가지고있다. 그리고 그들은 정말 할 수 없습니다 서로 이격. >> 내가 말한다면, 예를 들어, "로렌 사랑 밀로. 로렌이 ""나는 알고 " 구성 후 "사랑 마일로는 "또 다른 하나입니다. 당신은 "로렌 마일로 같은 말을 할 수 없기 때문에 같은 의미를 가지고 "사랑합니다. 그것은이 없을거야 동일한 의미. 아니면 "마일로 로렌과 같이 말할 수 없다 사랑합니다. "모든 것이 동일한가 그 일을 의미한다. >> 에 대한 그래서 두 가지 더 중요한 일 문법은 어휘 유형입니다 기본적으로 기능 당신 스스로 단어가 있습니다. 그래서 당신은 알고 있어야하는 "로렌" 그리고 "마일로는"명사입니다. "사랑"은 동사입니다. 그리고 두 번째로 중요한 것입니다 그들은 phrasal 유형 걸. 그래서 당신은 "밀로 사랑"알고 실제로 언어 적 표현이다. 내가 말할 때 그래서 "로렌은,"나는 알고 로렌은 뭔가를하고있다. 그녀는 무엇을하고 있습니까? 그녀는 마일로을 사랑하는거야. 그래서 모든 일입니다. 그러나 그 구성 요소는 명사와 동사. 그러나 함께, 그들은 동사 구문을 확인합니다. >> 그래서, 우리는 실제로 무엇을 할 수 전산 언어학? 그래서, 예를 들어 무언가가있는 경우 "앨리슨의 친구." 내가 볼 경우 그냥 구문 트리 나는 알 것 않았다 "친구"입니다 명사구입니다 "앨리슨의"다음 명사와는입니다 "의"의 전치사구입니다 명제와 "앨리슨"명사입니다. 내가 할 수있는 것은 컴퓨터를 가르치고있다 그 나는 명사구 한이 때 다음 전치사구. 의 "다음이 경우,"친구 "지금과 마일로는 "나는 이것이 의미하는 것을 알고 NP2, 두 번째는, NP1을 소유한다. >> 그래서 관계의 어떤 종류를 만들 수 있습니다, 그것을위한 기능의 일종. 그래서이 구조를 볼 때마다, 어떤 의 친구 "와 정확히 일치 앨리슨은 "내가 알고있는 앨리슨 친구를 보유하고있다. 그래서 친구는 무언가 앨리슨이 있는지 확인합니다. 의미가? 그래서 이것은 기본적으로 무엇인가 그래프 검색을 수행합니다. 그냥 규칙을 만듭니다 많은 것들에 대한. 그래서 "앨리슨의 친구", "내 친구 ""케임브리지, 내 친구를 사는 사람들 하버드에 갈 사람. "그것은 규칙을 생성 그 모든 것들에 대한. >> 이제 기계 번역. 따라서 기계 번역도 있습니다 통계 뭔가. 그리고 실제로 당신은에 참여하는 경우 전산 언어학, 많은 당신의 재료는 통계가 될 것입니다. 내가 가진 예를하고 그래서 같이 I이었다 확률이 많이 계산 한 다음이 얻을 최종의 매우 적은 수의 확률, 그리고 그 무엇 당신에게 해답을 제공합니다. 기계 번역 또한 사용 통계 모델. 그리고 당신은 기계를 생각하려면 가장 간단한에서 번역 방법은, 당신이 생각할 수있는 것은 단지입니다 오른쪽 단어 단어를 번역? >> 당신의 언어를 학습 할 때 처음, 즉 일반적으로 무엇을 당신이 바로, 무엇입니까? 당신이 원하는 경우에 당신은 문장을 번역 언어 언어로 당신은 일반적으로 먼저 배우고 각각의 단어를 번역 개별적으로, 그리고 당신은 시도 제자리에 단어를 넣어. >> 나는이 번역을하고 싶어 그렇다면 [SPEAKING 포르투갈어] "흰 고양이가 도망 갔다."의미 나는에서 번역을하고 싶었다면 영어, 포르투갈어, 내가 할 수있는 난 그냥 처음이다 단어 단어를 번역. 그래서 "O" "," "가토", "고양이"입니다 "브랑코", "화이트"를 선택한 다음 "fugio는" "도망." >> 그럼 내가 여기에 모든 단어가 하지만 그들은 위해 아니에요. "고양이 흰색 도망"같아 이는 비문 법적이다. 그래서, 나는 두 번째 단계를 가질 수있는 이상을 발견 할 것입니다 각각의 단어에 대한 위치. 그래서 내가 실제로 가지고 싶은 것을 알고 대신 "흰 고양이" "고양이 흰색." 그래서 내가 할 수있는 것은 가장 치졸한 방법에게 있습니다 생성 할 수있는 모든 의 가능한 순열 위치의 단어. 그리고 그 사람이 가지고있는 참조 가장 높은 확률에 따라 내 언어 모델. 그리고 나는이 하나를 찾을 때 가장 높은 확률 그것, 아마 "흰 고양이는 도망" 그건 내 번역입니다. >> 그리고이 설명하는 간단한 방법입니다 어떻게 기계 번역 많은 알고리즘이 작동합니다. 그 의미가 있습니까? 이것은 또한 정말 흥미로운 일이다 너희들은 어쩌면 탐사 할 수있는 최종 프로젝트, 그래? >> 학생 : 음, 당신은 그것을했다 순진 방법은, 그래서 무엇을 비 순진 방법은? >> LUCAS 프레이 타스 : 비 순진 방법은? OK. 에 대한 나쁜 그래서 우선 이 방법은 그냥 번역입니다 단어, 단어 단위. 그러나 때때로 당신은 단어가 그 여러 번역을 할 수 있습니다. 내가 생각하려고거야 뭔가. 포르투갈어 수에서 예를 들어, "만화" 수 "난도질"또는 "소매."하나 그래서 당신이 단어를 번역하려고 할 때 단어, 그것은 당신에게 제공 될 수 있습니다 아무 의미도없는 것이. >> 전혀보고 그래서 당신은 실제로 원하는 의 가능한 번역 단어와 볼, 우선, 순서는 것입니다. 우리는 permutating에 대해 얘기했다 일? 가능한 모든 순서를보고합니다 최고와 하나를 선택 확률? 또한 가능한 모든 선택할 수 있습니다 각 번역 다음 단어는 참조 - 순열과 조합 - 어느 하나가 가장 높은 확률을 가지고 있습니다. >> 게다가, 당신은 또한 없습니다 볼 수 있습니다 단어 만하지만 구. 그래서 당신은 사이의 관계를 분석 할 수 있습니다 단어와 다음 얻을 더 나은 번역. 또한 다른 것을, 그래서 이번 학기 실제로 연구를하고 있어요 중국어 - 영어 기계 번역, 그래서에서 번역 영어로 중국어. >> 그리고 우리가 할 일이 사용하는 외에,이다 그냥하는 통계 모델, 보고의 가능성을보고 문장에서 어떤 위치, 난 또한 실제로 일부 구문을 추가하는 내 나는이 종류를 보면 모델, 오, 말 건축, 내가 원하는 무엇 내가 번역을 할 때 그것을 변경할 수 있습니다. 그래서 당신은 어떤 종류를 추가 할 수 있습니다 만드는 구문 요소 번역 더 효율적 더 정확한. OK. >> 당신이 원한다면 당신은 어떻게 시작할 수 계산에 뭔가를 할 수 있습니다 언어학? >> 먼저 프로젝트를 선택 그 언어를 포함한다. 그래서, 거기에 많은있다. 당신이 할 수있는 많은 일들이있다. 그리고 그 모델을 생각할 수 당신이 사용할 수있다. 보통 그 생각을 의미 가정, 나는이 때, 오, 같은 가사의 생각 등을들 수있다. 내가 파악하려면 내가 잘 같았다 쓴 사람 중, 나는 아마 할 단어를보고 그 사람이 사용하고 자주 그 단어를 사용하는 사람을 참조하십시오. 그래서 가정을 만들기 위해 노력하고 모델을 생각하려고합니다. 그리고 당신은 또한 온라인으로 검색 할 수 있습니다 당신이 가지고있는 문제의 종류, 그것은 제안 것 당신이 모델이 아마도 물론 그 일을 모델링. >> 그리고 또한 당신은 항상 저를 이메일을 보낼 수있다. me@lfreitas.com. 그리고 나는 당신의 질문에 대답 할 수 있습니다. 우리는 심지어 내가 수를 만날 수 있습니다 의 방법에 대한 제안을 프로젝트를 구현. 당신이 함께 참여한다면 내 말은 전산 언어학, 돼가 위대한 사람이 될. 당신이 보게 될 너무 많은 가능성이있다. 그리고 산업은 고용하고 싶어 그 때문에 당신이 그렇게 나쁘지. 그래서 너희들이 즐길 바랍니다. 너희들은 질문이있는 경우에는, 이 후 저를 요청할 수 있습니다. 하지만 감사합니다.