트랜스포머 XAI를 위한 QKV 분해 논문 · 2026
가중치만으로 트랜스포머 예측 실패를 진단하고, 한 레이어 재학습으로 교정. GPT-2 수도 정확도 2/8 → 8/8, 부작용 0, V-only Wv 슬라이스(590K params)로도 가능.
가중치만으로 트랜스포머 예측 실패를 진단하고, 한 레이어 재학습으로 교정. GPT-2 수도 정확도 2/8 → 8/8, 부작용 0, V-only Wv 슬라이스(590K params)로도 가능.
서사를 인지 에너지의 시공간적 설계로 재정의. 같은 5차원 측정이 텍스트·음악·춤·교육·미술·건축·UI에 동일하게 작동.
We treat deep learning as something you train, not something you fix. That's a habit, not a fact. I edited 590,000 parameters in GPT-2 — half a percent of the model — and corrected six wrong answers without damaging anything else.
딥러닝을 고치는 도구는 늘 '재학습'이었다. 그건 사실이라기보다 습관이다. GPT-2의 0.5%만 한 번 손봐서 틀린 답 여섯 개를 모두 고쳤다. 다른 능력은 그대로다.