mini GPT 과제 랩 구현 시리즈 1편이번 구현의 첫 관문은 토크나이저였다. 과제에서는 외부 tokenizer를 금지했기 때문에, 한국어 리뷰 문자열을 직접 UTF-8 byte-level BPE 방식으로 token ID 목록으로 바꿔야 했다.이 글에서는 실제 구현된 `src/bpe.py`를 기준으로 초기 사전 구성, BPE 학습, 저장/로드, encode/decode 복원을 코드 블록 단위로 본다.테스트 통과 근거노트북 실행 결과 기준 `tests/test_bpe.py`는 6개 테스트가 통과했다.tests/test_bpe.py- special token ID 고정- 초기 vocabulary 구성- save/load 복원- encode/decode 원문 복원- get_pad_id/get_bos_id/g..