paper · 2026
BERT 레이어 해부 — FFN 이중 역할, 분리도 기반 레이어 스킵, 전하 흐름 학습 기반 해석 가능 분류
BERT 5개 GLUE 태스크 레이어 단위 분석. 세 가지 발견: 분리도 기반 레이어 skip + 보상 분류기로 무손실 압축, FFN의 92% 구조적 / 8% 분류 분해, 오답의 60–93%가 high-confidence error로 CLS 벡터 자체가 본질적 한계.
이 논문이 한 일
Fine-tuned BERT 는 보통 블랙박스로 취급되지만, 레이어별 attribution은 출력 수준 분석에서 안 보이는 구조를 드러냅니다. 이 논문은 forward-primary learning framework (River XAI / RX) 를 BERT 5 GLUE 태스크에 적용해 BERT 압축과 해석 가능성에 대한 사고를 바꾸는 세 가지 발견을 제시.
발견 1 — 분리도 기반 레이어 skip + 보상 분류기
각 레이어에 대해 분리도 측도를 계산 — CLS 표현 위에서 클래스간 거리 / 클래스내 분산. Δ-분리도가 낮은 레이어가 skip 후보. 해당 레이어를 건너뛰고, 중간 출력에 작은 보상 분류기 (V6, 4–16 hidden 노드) 를 학습.
무손실 트랙 (5개 GLUE 태스크 중 3개에서 6.5% 연산 절감):
| 태스크 | BERT | 압축 | Δ |
|---|---|---|---|
| SST-2 | 92.7% | 92.4% | −0.3% |
| CoLA | 80.5% | 80.7% | +0.2% |
| RTE | 68.3% | 69.8% | +1.5% |
| MRPC | 91.2% | 90.2% | −1.0% |
| QNLI | 92.2% | 88.8% | −3.4% |
분리도 분석이 forward pass 전에 skip 후보를 identify. 5개 태스크 중 4개에서 실제 skip 실험과 일치.
발견 2 — FFN의 이중 역할: 구조적 vs 분류적
기존 견해 (Geva et al.: “key-value memory”) 는 FFN이 분류 작업을 한다고 봅니다. FFN의 변환을 구조적 변화 (클래스 공통) 와 분류적 변화 (클래스 specific) 로 분해해 보면 다른 그림이 나옵니다:
| 레이어 | 구조적 / 분류적 비율 |
|---|---|
| L1 | ~150× (거의 순수 형식 변환) |
| L4 | ~50× |
| L8 | ~14× |
| L12 | ~2× (구조적 ≈ 분류적) |
앞쪽 레이어 FFN 은 ~92% 구조적 — 다음 attention 레이어의 입력 형식을 맞추는 norm 정규화가 주역할. 뒤쪽 레이어 FFN은 두 역할이 섞임.
이게 역설을 설명합니다: 개별 레이어 FFN이 naive하게 측정하면 분류 정확도를 해치는 경우가 많지만 (예: L8 FFN 이 SST-2 를 17% 떨어뜨림), FFN을 제거하면 모델이 망가집니다 — 다음 attention 레이어가 FFN의 norm 정규화된 출력 형식에 의존하기 때문. FFN은 분석으로 떼낼 수 있지만 구조적으로 제거할 수 없습니다.
발견 3 — 확신 있는 오답, 모르겠다는 오답이 아님
5개 태스크에서 오답 샘플 중 60–93%가 high-confidence error (정답 클래스와 오답 클래스 사이의 Q_out 마진 > 0.3):
| 태스크 | 오답 수 | High-confidence | 평균 마진 |
|---|---|---|---|
| SST-2 | 30 | 60% | 0.39 |
| CoLA | 75 | 93% | 0.72 |
| MRPC | 44 | 87% | 0.61 |
| QNLI | 46 | 73% | 0.60 |
| RTE | 75 | 87% | 0.58 |
BERT가 틀릴 때는 모른다가 아니라 확신 있게 틀립니다. CLS 벡터 자체가 잘못된 방향을 가리킵니다. 어떤 보상 분류기로도 이 샘플은 복구 불가. 본질적 한계가 분류기보다 앞 단에 있습니다.
이게 BERT의 failure mode를 재해석합니다 — 병목은 post-processing 용량이 아니라 표현 자체.
다른 작업과의 연결
같은 framework가 다른 architecture·도메인에 확장된 시리즈의 BERT 트랙입니다:
- paper9 — 같은 framework를 GPT-2 (decoder transformer) 에 적용. 외과적 라우팅 교정
- CheXNet 압축 — 같은 framework를 의료 영상 (DenseNet121) 에 적용. Treatment Decision System
Forward-primary learning이 압축과 해석성을 같은 연산의 두 면으로 — architecture 타입을 가로질러.
검증
- Zenodo — paper PDF + 영구 DOI
상태
기초 레이어 단위 분석. 방법의 구체 디테일 (분리도 측도 정의, 레이어 선택 자동화, 보상 분류기 학습 절차) 은 비공개. 한국 특허출원이 기초 학습 framework 를 커버.