"Attention을 안다"고 말하는 사람들이 많습니다. Transformer 논문도 읽었고, 코드도 돌려봤고, 심지어 직접 구현까지 해봤다고 합니다.하지만 막상 물어보면 대답이 막힙니다.$Q, K, V$가 왜 세 개로 나뉘는지, $K$를 전치하는 이유가 뭔지, Attention Score만으로는 왜 안 되는지. 정확히 설명할 수 있는 사람은 드뭅니다.이 글은 어텐션 메커니즘의 설계 철학을 다룹니다. 수식과 코드는 최소한으로, 원리 자체에 집중합니다.왜 이런 설계가 필요했는가Attention을 이해하려면 역사적 맥락을 알아야 합니다.RNN의 한계Transformer 이전, 시퀀스 처리는 RNN과 LSTM의 영역이었습니다. 하지만 치명적인 문제가 있었습니다.재귀(recurrence) 구조입니다. $h_t$..