[Day16] NLP 기초

2021. 2. 15. 22:11·AI/부스트 캠프 AI tech

[Day16] NLP 기초

  • Intro to NLP, Bag of Words

    • https://n-brogrammer.tistory.com/85
  • Word Embedding

    • https://n-brogrammer.tistory.com/84

 

 

중요

CBOW

  • 주변 단어들을 가지고 중심 단어를 예측하는 방식으로 학습한다.

  • 전체 과정은 다음과 같다.

    1. 주변 단어들의 one-hot encoding 벡터를 각각의 embedding layer에 projection한다.
    2. 각각의 embedding 벡터를 얻고 이 embedding들을 element-wise한 덧셈으로 합친다.
    3. 다시 linear transformation하여 예측하고자 하는 중심 단어의 one-hot encoding벡터와 같은 사이즈의 벡터로 만든 뒤, 중심 단어의 one-hot encoding 벡터와 같은 사이즈의 벡터로 만든다.
    4. 그 다음 중심 단어의 one-hot encoding 벡터와의 loss를 계산한다.

 

  • ex) A cute puppy is walking in the park. (window size = 2)

    • Input(주변 단어): "A", "cute", "is", "walking"
    • Outpu(중심 단어): "puppy"

 

image-20210215193810351

 

 

Skip-gram

  • 중심 단어를 가지고 주변 단어들을 예측하는 방식으로 학습한다.

  • 전체 과정은 다음과 같다.

    1. 중심 단어의 one-hot enoding 벡터를 embedding layer에 projection하여 해당 단어의 embedding 벡터를 얻는다.
    2. 이 벡터를 다시 linear transformation하여 예측하고자 하는 각각의 주변 단어들과의 one-hot encoding 벡터와 같은 사이즈의 벡터로 만든다.
    3. 그 주변 단어들의 one-hot encoding 벡터와의 loss를 각각 계산한다.

 

  • ex) A cute puppy is walking in the park. (window size=2)

    • Input(중심 단어): "puppy"
    • Output(주변 단어): "A", "cute", "is", "walking"

 

image-20210215194537282

 

참고 자료

  • http://solarisailab.com/archives/959

 

피어세션

  • NaiveBayes Classifier계산식에 대해서 토론하였다.
  • csv다루기 발표(죠르디)
  • 기사 제목 생성기 발표(라이언)

 

'AI > 부스트 캠프 AI tech' 카테고리의 다른 글

[Day20] Self-supervised Pre-training Models  (0) 2021.02.19
[Day19] Transformer  (0) 2021.02.18
[Day18] Seq2Seq  (0) 2021.02.17
[Day17] LSTM and GRU  (0) 2021.02.16
[Day15] Generative model  (0) 2021.02.05
[Day14] RNN  (0) 2021.02.04
[Day13] CNN  (0) 2021.02.03
[Day12] 최적화  (0) 2021.02.02
'AI/부스트 캠프 AI tech' 카테고리의 다른 글
  • [Day18] Seq2Seq
  • [Day17] LSTM and GRU
  • [Day15] Generative model
  • [Day14] RNN
N-analyst
N-analyst
  • N-analyst
    개발자CuCu
    N-analyst
  • 전체
    오늘
    어제
  • 공지사항

    • 티스토리에서 원하는 글 찾는 방법
    • 분류 전체보기 (140)
      • 티스토리 (4)
      • 알고리즘 (5)
        • 알고리즘 정리 (1)
        • 백준 (4)
      • 마크다운(Typora) (13)
        • 사용법 (13)
      • 에러 (1)
        • 파이썬 (1)
      • 데이터 분석 (5)
        • python_analysis (3)
        • Machine Learning (2)
      • AI (109)
        • 파이토치로 시작하는 딥러닝 기초 (2)
        • 부스트 캠프 AI tech (41)
        • 이론 (66)
      • 파이썬(python) (1)
        • 기타 (1)
      • 웹 프로그래밍 (1)
        • 설정 팁 (1)
  • 블로그 메뉴

    • 홈
    • 태그
  • 인기 글

  • 최근 글

  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.6
N-analyst
[Day16] NLP 기초
상단으로

티스토리툴바