Dissecting BERT Layers: FFN Dual Role, Separability-Guided Layer Skip, and Interpretable Classification via Charge-Flow Learning

이 논문이 한 일

Fine-tuned BERT 는 보통 블랙박스로 취급되지만, 레이어별 attribution은 출력 수준 분석에서 안 보이는 구조를 드러냅니다. 이 논문은 forward-primary learning framework (River XAI / RX) 를 BERT 5 GLUE 태스크에 적용해 BERT 압축과 해석 가능성에 대한 사고를 바꾸는 세 가지 발견을 제시.

발견 1 — 분리도 기반 레이어 skip + 보상 분류기

각 레이어에 대해 분리도 측도를 계산 — CLS 표현 위에서 클래스간 거리 / 클래스내 분산. Δ-분리도가 낮은 레이어가 skip 후보. 해당 레이어를 건너뛰고, 중간 출력에 작은 보상 분류기 (V6, 4–16 hidden 노드) 를 학습.

무손실 트랙 (5개 GLUE 태스크 중 3개에서 6.5% 연산 절감):

태스크	BERT	압축	Δ
SST-2	92.7%	92.4%	−0.3%
CoLA	80.5%	80.7%	+0.2%
RTE	68.3%	69.8%	+1.5%
MRPC	91.2%	90.2%	−1.0%
QNLI	92.2%	88.8%	−3.4%

분리도 분석이 forward pass 전에 skip 후보를 identify. 5개 태스크 중 4개에서 실제 skip 실험과 일치.

발견 2 — FFN의 이중 역할: 구조적 vs 분류적

기존 견해 (Geva et al.: “key-value memory”) 는 FFN이 분류 작업을 한다고 봅니다. FFN의 변환을 구조적 변화 (클래스 공통) 와 분류적 변화 (클래스 specific) 로 분해해 보면 다른 그림이 나옵니다:

레이어	구조적 / 분류적 비율
L1	~150× (거의 순수 형식 변환)
L4	~50×
L8	~14×
L12	~2× (구조적 ≈ 분류적)

앞쪽 레이어 FFN 은 ~92% 구조적 — 다음 attention 레이어의 입력 형식을 맞추는 norm 정규화가 주역할. 뒤쪽 레이어 FFN은 두 역할이 섞임.

이게 역설을 설명합니다: 개별 레이어 FFN이 naive하게 측정하면 분류 정확도를 해치는 경우가 많지만 (예: L8 FFN 이 SST-2 를 17% 떨어뜨림), FFN을 제거하면 모델이 망가집니다 — 다음 attention 레이어가 FFN의 norm 정규화된 출력 형식에 의존하기 때문. FFN은 분석으로 떼낼 수 있지만 구조적으로 제거할 수 없습니다.

발견 3 — 확신 있는 오답, 모르겠다는 오답이 아님

5개 태스크에서 오답 샘플 중 60–93%가 high-confidence error (정답 클래스와 오답 클래스 사이의 Q_out 마진 > 0.3):

태스크	오답 수	High-confidence	평균 마진
SST-2	30	60%	0.39
CoLA	75	93%	0.72
MRPC	44	87%	0.61
QNLI	46	73%	0.60
RTE	75	87%	0.58

BERT가 틀릴 때는 모른다가 아니라 확신 있게 틀립니다. CLS 벡터 자체가 잘못된 방향을 가리킵니다. 어떤 보상 분류기로도 이 샘플은 복구 불가. 본질적 한계가 분류기보다 앞 단에 있습니다.

이게 BERT의 failure mode를 재해석합니다 — 병목은 post-processing 용량이 아니라 표현 자체.

다른 작업과의 연결

같은 framework가 다른 architecture·도메인에 확장된 시리즈의 BERT 트랙입니다:

paper9 — 같은 framework를 GPT-2 (decoder transformer) 에 적용. 외과적 라우팅 교정
CheXNet 압축 — 같은 framework를 의료 영상 (DenseNet121) 에 적용. Treatment Decision System

Forward-primary learning이 압축과 해석성을 같은 연산의 두 면으로 — architecture 타입을 가로질러.

검증

Zenodo — paper PDF + 영구 DOI

상태

기초 레이어 단위 분석. 방법의 구체 디테일 (분리도 측도 정의, 레이어 선택 자동화, 보상 분류기 학습 절차) 은 비공개. 한국 특허출원이 기초 학습 framework 를 커버.