Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 딥러닝
- deeplearning
- GQA
- 트랜스포머
- MQA
- 면접질문
- Transformer
- LLM
- 어텐션
- nlp
- 인공지능
- positional encoding
- multi-head attention
Archives
- Today
- Total
목록MQA (1)
민성 Skystarry의 연구 창고
지난 글에서 이어집니다."Attention을 안다"고 말하는 사람들이 많습니다. 하지만 $Q, K, V$의 개념을 넘어, 왜 굳이 '여러 개의 머리(Multi-Head)'를 달아야 했는지 그 설계 철학까지 깊게 고민해 본 사람은 많지 않습니다.왜 하나로는 부족했을까요? 단순히 병렬 연산을 위해서일까요?오늘은 트랜스포머가 문맥을 입체적으로 이해하는 비결, 그리고 이 우아한 설계 뒤에 숨겨진 '공짜 점심'의 마법에 대해 이야기해 보겠습니다.하나의 시선이 가진 한계잠시 $d_{model}=512$인 단일 헤드(Single-Head) 어텐션을 상상해 봅시다. 문장을 읽을 때, 하나의 단어는 문맥 속에서 여러 단어와 동시에 복잡한 관계를 맺습니다."그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤했기 때..
트랜스포머 시리즈
2026. 1. 12. 19:39
