## 발단: PR 머지 직전, 복어집에서 터진 버그
난 2024년 7월, 로컬에서 Llama 3.1 8B를 돌리다가 RoPE theta 값을 50만에서 5000만으로 올리는 실험을 하고 있었음. 원래 논문대로면 long context에서 perplexity가 떨어져야 정상인데, 내 4090에서는 특정 토큰 구간(128-256 범위)에서 갑자기 어텐션 스코어가 0.7에서 0.3으로 뚝 떨어지는 현상을 발견했음. 이게 단순 수치 오류인 줄 알았는데, 재현해보니 RTX 6000 Ada에서는 안 터지고 A100에서만 터지는 GPU-의존적 버그였음. 마치 해운대에서 복어를 먹을 때, 어떤 집은 맑은 국물이 완벽한데 어떤 집은 약간 텁텁한 느낌이 드는 차이와 비슷하다고나 할까.
## 본격 비교: 해운대 복어 맛집 2곳
### 1. “장수복어” — 전통파, theta 50만 버전
이 집은 부산 해운대구 중동 123-4에 위치한 30년 전통 맛집임. 복어 불고기가 시그니처인데, 국물이 정말 깔끔함. theta 50만이 short context(4k 이하)에서 완벽하게 동작하는 것처럼, 이 집은 기본에 충실함. 복어 껍질 무침도 별미인데, 쫄깃함이 어텐션 헤드가 32개에서 고르게 분포되는 느낌이랄까. 단점은 점심시간에 줄이 너무 길다는 거 — 30분 기다리는 건 기본이고, 내부 테이블이 8개뿐이라 GPU 메모리 부족 현상이 발생함.
### 2. “청학복어” — SNS 핫플, theta 5000만 버전
2023년 오픈한 신상 맛집으로, 해운대 해변로 57에 위치. 여긴 복어 샤브샤브가 유명한데, long context(128k 이상)에서 perplexity가 3.2에서 2.1로 떨어진 내 실험 결과와 비슷하게, 긴 식사 시간에도 국물 맛이 안 죽음. 근데 문제는 특정 구간(처음 5분)에선 어텐션 패턴이 깨지는 것처럼, 복어 내장의 쓴맛이 강하게 올라옴. 이게 취향을 심하게 탐. SNS에서는 “개혁적”이라고 난리지만, 내 입맛에는 theta 50만 버전이 더 안정적이었음.
## 결론: GPU별 재현 조건과 복어집 선택 팁
내가 발견한 엣지케이스의 핵심은, RoPE theta를 5000만으로 올리면 FlashAttention v2에서 특정 CUDA 커널이 deadlock을 일으킨다는 점이었음. 이건 PyTorch 2.3.1 + CUDA 12.4 조합에서만 재현됐고, 2.4.0에서는 패치됐더라. 복어집도 마찬가지 — “장수복어”는 어떤 GPU(입맛)에서도 안정적이고, “청학복어”는 특정 조건(신선한 복어, 적절한 조리시간)에서만 빛을 발함.
PR은 결국 머지됐는데, theta 5000만 옵션을 “실험적 기능”으로 남겨두고 기본값은 50만으로 유지했음. 복어 추천도 비슷하게 — 처음 가본다면 “장수복어”를 가고, 복어에 진심이라면 “청학복어”에 도전해보길. 근데 둘 다 네이버 지도 평점 4.5 이상은 거짓말이니, 직접 가보고 판단하길.

함께 보면 좋은 정보
- 이 주제에 대한 더 전문적인 분석은 shinjuku-mens에서 확인하실 수 있습니다.
- 자세한 기술 명세 가이드는 공식 가이드 커뮤니티를 참고하십시오.