지난 글에서 우리는 트랜스포머가 RNN의 재귀(Recurrence)를 과감히 버리고 병렬화라는 무기를 얻었다고 이야기했습니다.하지만 공짜 점심은 없습니다. 재귀를 버리자마자 트랜스포머는 치명적인 약점을 노출합니다. 바로 '순서'를 모르는 바보가 되었다는 점입니다.모델 입장에서는 "아버지가 방에 들어가신다"와 "아버지 가방에 들어가신다"가 그저 똑같은 단어 카드 뭉치로 보입니다. 모든 토큰을 한꺼번에 병렬로 처리하기 때문입니다.그래서 우리는 단어 벡터에 "네 위치는 여기야!"라는 이정표를 심어줘야 합니다. 이것이 바로 Positional Encoding(PE)입니다.왜 결합(Concat)이 아니라 더하기(Add)인가?PE를 처음 접할 때 아주 가끔, 하지만 꽤나 근본적인 질문을 던지는 분들이 있습니다."정..