'Transformer' 태그의 글 목록

[Day19] Transformer Transformer 이론 https://n-brogrammer.tistory.com/93 중요 BPE(Byte Pair Encoding) 일반적으로 하나의 단어에 대해 하나의 embedding을 생성할 경우 out-of-vocabulary(OOV)라는 치명적인 문제를 갖게 된다. 학습 데이터에서 등장하지 않은 단어가 나오는 경우 Unknown token으로 처리해주어 모델의 입력으로 넣게 되면서 전체적으로 모델의 성능이 저하될 수 있다. 반면 모든 단어의 embedding을 만들기에는 필요한 embedding parameter의 수가 지나치게 많아지게 된다. 서브워드 분리(Subword segmenation)작업은 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드..

Transformer¶ RNN: Long-Term Dependency¶ 위 그림과 같이 $h_{3}$의 값을 계산하려면 뒷 단의 모든 RNN값을 거쳐서 계산 되기 때문에 정보 유실이 일어나기 쉽다. Bi-Directional RNNs¶ encoding방향을 정방향과 역방향 2가지를 가지고 RNN를 구성하면 해당 time step에서 왼쪽의 hidden state값과 오른쪽의 hidden state 값 모두를 고려 할 수 있다. 정방향과 역방향의 hidden state를 concat하여 구성하고 hidden state의 dim의 2배가 되는 새로운 hidden state가 생긴다. Transformer(Self-Attention)¶ 위 그림을 보면 Seq2Seq with Attention모델에서 decod..

[Day14] RNN RNN 맛보기 https://n-brogrammer.tistory.com/76 RNN - Sequential Models https://n-brogrammer.tistory.com/77 Transformer - Sequential Models https://n-brogrammer.tistory.com/78 중요 LSTM의 내용 정리 nn.LSTM nn.LSTM(input_size=28,hidden_size=256,num_layers=3,batch_first=True) 기본적으로 쓰이는 인자들만 예시로 넣었다. 아래는 LSTM의 인자들의 설명이다. 여기서 batch_first는 LSTM의 output이 어떤식으로 나올지 이다. input_size: The number of expect..

Transformer - Sequential Models¶ 참고자료 - http://jalammar.github.io/illustrated-transformer/ 전반적인 Transformer에 대해서 이야기 하겠다. 불어가 입력으로 주어지면 번역하여 영어로 출력하는 모델을 만들려고 한다.즉, 입력 문장이 주어지면 출력 문장으로 생성. sequence to sequence모델이라고 한다. 여기서 몇 가지를 알 수 있다. 입력 sequence와 출력 sequence의 숫자가 다를 수 있다(입력은 3개, 출력은 4개) 입력의 도메인과 출력의 도메인도 다를 수 있다는 것(입력은 불어, 출력은 영어) 동일한 구조를 갖지만 네트워크 파라미터가 다르게 학습되는 encoder와 decoder가 쌓여져 있다. 여기서 ..

티스토리툴바