| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- multi-head attention
- 인공지능
- nlp
- 트랜스포머
- positional encoding
- 딥러닝
- GQA
- deeplearning
- MQA
- LLM
- Transformer
- 어텐션
- 면접질문
- Today
- Total
목록분류 전체보기 (3)
민성 Skystarry의 연구 창고
지난 글에서 이어집니다."Attention을 안다"고 말하는 사람들이 많습니다. 하지만 $Q, K, V$의 개념을 넘어, 왜 굳이 '여러 개의 머리(Multi-Head)'를 달아야 했는지 그 설계 철학까지 깊게 고민해 본 사람은 많지 않습니다.왜 하나로는 부족했을까요? 단순히 병렬 연산을 위해서일까요?오늘은 트랜스포머가 문맥을 입체적으로 이해하는 비결, 그리고 이 우아한 설계 뒤에 숨겨진 '공짜 점심'의 마법에 대해 이야기해 보겠습니다.하나의 시선이 가진 한계잠시 $d_{model}=512$인 단일 헤드(Single-Head) 어텐션을 상상해 봅시다. 문장을 읽을 때, 하나의 단어는 문맥 속에서 여러 단어와 동시에 복잡한 관계를 맺습니다."그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤했기 때..
지난 글에서 우리는 트랜스포머가 RNN의 재귀(Recurrence)를 과감히 버리고 병렬화라는 무기를 얻었다고 이야기했습니다.하지만 공짜 점심은 없습니다. 재귀를 버리자마자 트랜스포머는 치명적인 약점을 노출합니다. 바로 '순서'를 모르는 바보가 되었다는 점입니다.모델 입장에서는 "아버지가 방에 들어가신다"와 "아버지 가방에 들어가신다"가 그저 똑같은 단어 카드 뭉치로 보입니다. 모든 토큰을 한꺼번에 병렬로 처리하기 때문입니다.그래서 우리는 단어 벡터에 "네 위치는 여기야!"라는 이정표를 심어줘야 합니다. 이것이 바로 Positional Encoding(PE)입니다.왜 결합(Concat)이 아니라 더하기(Add)인가?PE를 처음 접할 때 아주 가끔, 하지만 꽤나 근본적인 질문을 던지는 분들이 있습니다."정..
"Attention을 안다"고 말하는 사람들이 많습니다. Transformer 논문도 읽었고, 코드도 돌려봤고, 심지어 직접 구현까지 해봤다고 합니다.하지만 막상 물어보면 대답이 막힙니다.$Q, K, V$가 왜 세 개로 나뉘는지, $K$를 전치하는 이유가 뭔지, Attention Score만으로는 왜 안 되는지. 정확히 설명할 수 있는 사람은 드뭅니다.이 글은 어텐션 메커니즘의 설계 철학을 다룹니다. 수식과 코드는 최소한으로, 원리 자체에 집중합니다.왜 이런 설계가 필요했는가Attention을 이해하려면 역사적 맥락을 알아야 합니다.RNN의 한계Transformer 이전, 시퀀스 처리는 RNN과 LSTM의 영역이었습니다. 하지만 치명적인 문제가 있었습니다.재귀(recurrence) 구조입니다. $h_t$..
