최근에 논문을 너무 안 읽은 것 같아 논문을 읽어보려고 하다가 어텐션이 많이 들어가서 파악이 잘 안 됐다. 트랜스포머가 좋은 논문이라고 해서 많이 듣기는 했는데 이것부터 읽어보지 않으면 다음 논문을 읽어볼 수 없을 것 같아 트랜스포머를 읽어보았다. 그동안 트랜스포머에 대해 간략하게 들어보면서 내가 궁금했던 것은 이렇다. NLP 에서 Transformer 가 이전과의 차이점이 무엇인지? 학습 구조 트랜스포머 내에서 Query, Key, Value 라는 단어가 왜 쓰였는지? 그리고 아래는 내가 트랜스포머 논문을 읽으면서 간략하게 요약해보면서 적었다. 1. Introduction RNN 모델 특성 상 길어질수록 메모리의 제약이 생김 이 문제를 해결하기 위해 분해 트릭이나 조건부 연산 같은 연구가 있었고, 후자..