밑바닥부터 만드는 mini GPT 공부 시리즈 4편self-attention 하나로도 각 토큰이 문맥을 참고할 수 있다. 그런데 GPT는 보통 attention을 하나만 쓰지 않고 여러 head로 나눈다.핵심은 여러 관점이다. 같은 문장을 보더라도 한 head는 가까운 단어 관계를, 다른 head는 문장 전체 분위기를, 또 다른 head는 특정 패턴을 더 잘 보도록 학습될 수 있다.이번 글에서 다루는 것head를 나눈다는 말의 shape 의미`d_model`과 `n_heads`, `head_dim`의 관계각 head 결과를 다시 합치는 이유Multi-Head Attention을 shape 흐름으로 읽는 법1. head는 embedding 차원을 나눈 작은 attention 공간이다입력 벡터의 마지막 차원..