2026/05/31 5

mini GPT 공부 4편 - Multi-Head Attention은 왜 head를 나누는가

밑바닥부터 만드는 mini GPT 공부 시리즈 4편self-attention 하나로도 각 토큰이 문맥을 참고할 수 있다. 그런데 GPT는 보통 attention을 하나만 쓰지 않고 여러 head로 나눈다.핵심은 여러 관점이다. 같은 문장을 보더라도 한 head는 가까운 단어 관계를, 다른 head는 문장 전체 분위기를, 또 다른 head는 특정 패턴을 더 잘 보도록 학습될 수 있다.이번 글에서 다루는 것head를 나눈다는 말의 shape 의미`d_model`과 `n_heads`, `head_dim`의 관계각 head 결과를 다시 합치는 이유Multi-Head Attention을 shape 흐름으로 읽는 법1. head는 embedding 차원을 나눈 작은 attention 공간이다입력 벡터의 마지막 차원..

카테고리 없음 2026.05.31

mini GPT 공부 3편 - Self-Attention과 Causal Mask

밑바닥부터 만드는 mini GPT 공부 시리즈 3편embedding까지 끝나면 각 토큰은 벡터가 된다. 하지만 벡터가 되었다고 해서 문맥을 이해하는 것은 아니다. 각 위치의 토큰이 앞뒤 토큰과 어떤 관계를 맺는지 계산해야 한다.self-attention은 같은 문장 안의 토큰들이 서로를 참고하는 방식이다. GPT에서는 여기에 causal mask가 붙어서 현재 토큰이 미래 토큰을 보지 못하게 만든다.이번 글에서 다루는 것attention이 “어떤 토큰을 얼마나 참고할지” 정하는 방식Query, Key, Value를 너무 어렵게 보지 않는 방법causal mask가 왜 다음 토큰 예측에서 필수인지attention score, softmax, weighted sum의 흐름1. Attention은 참고 비율을..

카테고리 없음 2026.05.31

mini GPT 공부 2편 - Dataset과 Embedding, 다음 토큰 예측 샘플 만들기

밑바닥부터 만드는 mini GPT 공부 시리즈 2편BPE가 문장을 token ID 목록으로 바꾸었다면, 다음 단계는 그 목록을 학습 샘플로 자르는 일이다. GPT는 현재까지의 토큰을 보고 다음 토큰을 맞히도록 학습한다.이 단계에서 자주 헷갈리는 지점은 두 가지다. 첫째, input과 target은 길이가 같지만 한 칸 밀려 있다. 둘째, token ID는 그 자체로 의미 벡터가 아니므로 embedding을 거쳐야 한다.이번 글에서 다루는 것GPTDataset이 input과 target을 어떻게 만드는지context_length와 stride가 샘플 수에 어떤 영향을 주는지token embedding과 position embedding을 왜 더하는지최종 입력 shape가 왜 `(batch_size, seq..

카테고리 없음 2026.05.31

mini GPT 공부 1편 - 한글 토큰화와 byte-level BPE

밑바닥부터 만드는 mini GPT 공부 시리즈 1편GPT는 문자열을 직접 읽지 않는다. 먼저 문장을 숫자 ID의 목록으로 바꾼다. 이 변환을 담당하는 부품이 토크나이저다.이번 과제에서 중요한 지점은 교재처럼 이미 만들어진 토크나이저를 쓰지 않는다는 점이다. 특히 한글 리뷰 데이터를 다루기 때문에, 공백 기준 단어 분리보다 더 낮은 단위에서 시작해야 한다.이번 글에서 다루는 것토큰화가 왜 GPT 구현의 첫 단계인지한글에서 공백 기준 토큰화가 왜 쉽게 무너지는지UTF-8 byte에서 시작하는 BPE가 어떤 문제를 해결하는지encode와 decode에서 가장 조심해야 할 복원 원칙1. 토큰화는 문장을 모델의 입력으로 바꾸는 번역기다사람은 “이 영화는 정말 좋았다”를 문장으로 읽는다. 하지만 모델은 이 문장을 ..

카테고리 없음 2026.05.31

mini GPT 공부 0편 - LLM을 직접 만든다는 것은 무엇을 쌓는 일인가

밑바닥부터 만드는 mini GPT 공부 시리즈 0편LLM을 처음 공부할 때 가장 위험한 착각은 ChatGPT 같은 결과물을 바로 떠올리는 것이다. 과제에서 만드는 모델은 거대한 챗봇이 아니라, GPT 계열 모델의 핵심 부품을 손으로 조립해보는 교육용 mini GPT다.그래서 이 시리즈의 출발점은 거창한 생성 결과가 아니다. 텍스트가 숫자가 되고, 숫자가 벡터가 되고, 벡터가 서로를 참고하고, 마지막에 다음 토큰 점수로 바뀌는 흐름을 잡는 것이다.이번 글에서 잡을 관점LLM은 문장을 한 번에 이해하는 블랙박스가 아니라, 다음 토큰을 예측하도록 훈련되는 모델이다.mini GPT 구현은 토크나이저, 데이터셋, 임베딩, 어텐션, 트랜스포머 블록, 학습 루프를 순서대로 쌓는 일이다.책 공부 시리즈는 코드 전체를 ..

카테고리 없음 2026.05.31