Deep Equilibrium Models · Lifelong Reasoning Saga

무한 추론을 향한
네 개의 도미노

소비자용 GPU 한 대(RTX 4090, 24GB)에서 "끝없이 깊게 생각하고, 평생 배우는 AI"를 만들기 위한 연속 연구 — CTS, System 1.5, System 2.5, System 3. 한 시스템이 벽을 부수면 새로운 벽이 드러나고, 다음 시스템이 그 벽을 다시 부수는 도미노 사슬을 수식과 작동 원리까지 차근차근 풀어 봅니다.

기반 모델 · Gemma 4 E4B + DEQ 불변의 약속 · O(1) 활성 메모리 하드웨어 · 단일 RTX 4090

— 한눈에 보는 도미노 사슬 —

STEP 01 · CTS

깊은 탐색

메모리 벽 돌파. 트리 탐색을 DEQ 고정점으로.

▶

STEP 02 · SYS 1.5

빠른 회상

시간의 저주 해결. 고정점을 메모로 압축.

▶

STEP 03 · SYS 2.5

평생 안정

망각·발산 해결. O(1) 평생학습.

▶

STEP 04 · SYS 3

무한 용량

용량 벽 돌파. 전문가를 무한 증식.

Deep Search · Memory Wall

CTS — Cognitive Tree Search

NeurIPS 2026 투고 · 메모리 효율적 깊은 트리 탐색

백본 & 챌린지

Gemma 4 E4B + MCTS / 트리가 깊어질수록 KV-캐시가 기하급수적으로 쌓여, 24GB GPU에서 깊이 $D{=}15$ 만에 메모리 부족(OOM)으로 멈춰버리는 문제.

SOLUTION 해결점

사람이 어려운 문제를 풀 때, 여러 갈래의 풀이를 머릿속에서 나무(tree)처럼 펼쳐 보고 가장 좋은 길을 고릅니다. 이게 몬테카를로 트리 탐색(MCTS)이에요. 그런데 트랜스포머로 이걸 하면, 탐색한 모든 가지마다 중간 계산 결과(KV-캐시)를 통째로 들고 있어야 합니다.

비유 탐색 깊이마다 책상 위에 서류 더미를 쌓아두는 것과 같아요. 가지를 칠수록 서류가 폭증해 책상(24GB)이 금세 넘쳐버립니다. 표준 MCTS는 깊이 15에서, 접두어 캐싱을 써도 35에서 무너집니다.

표준 MCTS의 메모리 — 깊이에 따라 폭증 $$V^{\text{MCTS}}(D)=V_W+V_M(D)+\sum_{d,i}V_{\text{KV}}(s_{d,i})$$

세 번째 항 $\sum V_{\text{KV}}$(가지마다 쌓이는 캐시)이 주범입니다. 깊이 $D$가 커질수록 이 합이 무한정 불어나 OOM을 일으켜요.

핵심 아이디어 — 노드 전이를 DEQ 고정점으로 교체

CTS는 트리의 각 칸으로 넘어가는 계산을, 캐시를 쌓는 대신 DEQ 고정점 풀이로 바꿉니다. DEQ는 답을 "한 점으로 수렴시키는" 방식이라, 깊이가 아무리 깊어져도 한 칸당 메모리가 일정(O(1))합니다.

DEQ 고정점 — 한 칸의 계산 $$z^{*}=f_\theta(z^{*},x)$$

$z^*$는 "스스로와 모순이 없는 안정된 생각 상태"입니다. 이 한 점을 찾는 것이 한 번의 깊은 사고(deliberation)이며, 캐시 비용은 0이에요.

CTS의 메모리 — 깊이와 무관하게 평탄 $$V^{\text{CTS}}(D)=V_W+V_M(D)+\underbrace{\mathcal{O}_{\text{active}}(1)}_{\text{노드당 DEQ}}+\underbrace{\mathcal{O}(N)}_{\text{FAISS 기록}}$$

폭증하던 캐시 항이 상수항으로 바뀌었습니다. 그래서 깊이 100을 넘겨도 VRAM이 16.7GB에서 평평하게 유지돼요.

두 개의 조력자

메타-정책(ν): 탐색의 4가지 손잡이(탐색 강도·솔버 허용오차·라우팅 온도·정지 임계값)를 상황마다 자동으로 조절해, 정확도와 속도의 균형을 재학습 없이 맞춥니다.
FAISS 의미적 조상 검색: 트리는 들쭉날쭉 탐색하므로, "시간상 가까운 조상"이 아니라 "의미상 비슷한 조상"을 찾아와야 합니다. 이를 압축 색인으로 99MB 이내에서 처리해, 추론 깊이와 문맥 길이를 분리합니다.

50.2%

AIME-2026 정확도 (native CoT 대비 +7.7pp)

16.7GB

깊이 100 초과에도 평탄한 탐색 VRAM

D>250

기존 OOM 벽(D=15)을 넘어선 탐색 깊이

LIMITATION 한계점 — 시간의 저주

공간(메모리) 문제는 풀었지만, 시간(속도)이라는 새 벽이 드러납니다. DEQ는 답 하나를 찾으려고 Broyden 솔버로 매번 50~100번 반복해야 합니다.

비유 구조가 똑같은 문제가 다시 와도, CTS는 직전에 어떻게 풀었는지 전혀 기억하지 못합니다. 매번 백지에서 처음부터 50~100단계를 다시 밟아요. 그래서 일반 모델보다 wall-clock이 3.3배나 느립니다.

게다가 O(1) 약속은 탐색 단계에만 해당합니다. 최종 답을 글로 풀어내는 디코딩에는 여전히 $O(L)$ KV-캐시가 필요(≤18GB)하고, 가지 수 $W$가 늘면 메모리도 선형으로 늘어납니다. "느림"이라는 이 한계가 다음 도미노를 쓰러뜨립니다.

▶ 다음 도미노 → "매번 처음부터 다시 푸는 느림"을, 한 번 푼 깨달음을 메모로 저장해 즉답하는 System 1.5가 해결합니다.

Amortized Inference

System 1.5 — 분할상환 고속 회상

ICLR 2026 투고 · Fast-Weight 오버레이 & 안전한 OOD 폴백

백본 & 챌린지

Gemma 4 E4B + DEQ / 매 토큰마다 수십 번의 솔버 반복을 수행해야 하는 극단적인 연산 병목(CTS가 남긴 "시간의 저주").

SOLUTION 해결점

큰 그림 DEQ 솔버는 "매번 백지에서 50~100단계로 새로 푸는 학생"입니다. 하지만 한 번 끝까지 풀면 "아, 이 유형은 이렇게 푸는구나" 하는 깨달음의 상태 $z^*$가 생깁니다. 이 깨달음을 포스트잇에 요약해 붙여두면 다음엔 다시 풀 필요가 없겠죠.

① FWP — 깨달음을 작은 메모로 증류

Fast-Weight Programmer(FWP)는 수렴된 고정점 $z^*$를 가벼운 하이퍼네트워크로 받아, 작은 가중치 오버레이로 압축합니다.

고정점을 저랭크 메모로 증류 $$\Delta W=\Phi_\omega(z^{*})=BA^{\top}$$

$B,A$가 저랭크(low-rank)라는 건 교과서 전체가 아니라 핵심만 적은 작은 메모(세션당 0.27MB)라는 뜻입니다.

② CFD — 메모만 보고 즉답

비슷한 후속 질문이 오면, 50단계 솔버를 통째로 건너뛰고 메모($\Delta W$)를 얹은 채 단 1단계(O(1))로 답합니다. 이게 문맥 독립적 디코딩(Context-Free Decoding)이에요.

솔버를 건너뛰는 단일 패스 $$y_f=\text{Decode}_{\theta+\Delta W}\!\big(f_{\theta+\Delta W}(z_{\text{init}},\,x_f\oplus\langle\text{TRIGGER}\rangle)\big)$$

반복 횟수 $T$가 50~100에서 1로 줄어, $\mathcal{O}(T)\!\to\!\mathcal{O}(1)$ 가속이 일어납니다.

③ 안전 OOD 폴백 — 헛소리 방지 문지기

금융용 메모를 의료 질문에 잘못 쓰면 자신만만한 헛소리(hallucination)를 합니다. 그래서 대조 라우터가 질문이 메모 주제와 비슷한지 코사인 유사도로 잽니다.

유사도 판정 (임계값 τ = 0.85) $$\text{Sim}(x_f,x_a)=\frac{R_\rho(x_f)\cdot R_\rho(x_a)}{\lVert R_\rho(x_f)\rVert\,\lVert R_\rho(x_a)\rVert}$$

$\ge 0.85$면 메모로 즉답, 미만이면 메모를 떼고 전체 솔버로 안전 폴백. 판정에 단 0.01초밖에 안 걸립니다.

왜 안전한가 — Theorem 1 (고정점 안정성)

메모를 얹어도 답이 흔들리지 않음을 수학으로 보장

$$\lVert z^{*}_{\Delta W}-z^{*}\rVert_2\le\frac{M\epsilon}{1-L}$$

기본 연산자가 수축($L<1$)이고 메모가 작으면($\lVert\Delta W\rVert\le\epsilon$), 메모를 얹은 새 고정점은 원래 고정점에서 딱 이만큼만 떨어진 안정 지점에 머뭅니다. 즉 빠른 답이 발산하지 않아요.

8.9×

세션 내 지연 가속 (정확도 −0.5%)

0.27MB

세션당 메모 크기 (KV-캐시는 GB급)

98.4%

OOD 검출 정확도 · 0.01초

LIMITATION 한계점 — 평생 학습의 불가

$\Delta W$는 그 세션에서만 유효한 단기 기억(해마 비유)입니다. 배포 뒤 끊임없이 바뀌는 환경(매년 바뀌는 금융 법규 등)을 평생 학습으로 장기 기억화하려 하면, 두 가지 치명적 모순이 터집니다.

모순 1 — 메모리 폭발 (Memory Wall)

CaLoRA·InfLoRA 같은 최신 망각 방지 기법은 기울기를 SVD로 분해합니다. 그런데 DEQ에서 이걸 하려면 역야코비안을 강제로 펼쳐야(unrolling) 해서 메모리가 폭발합니다.

언롤링이 부르는 메모리 폭발 $$(I-J)^{-1}\approx\sum_{t=0}^{T}J^{t}\;\Longrightarrow\;\text{Memory}=\mathcal{O}(T\cdot d^{2})$$

$d{=}2048,\,T{=}100$이면 층당 약 80GB — 24GB GPU에서 즉시 OOM이에요.

모순 2 — 수학적 발산 (Divergence Trap)

유연함(가소성)을 주입하는 최신 기법 FIRE는 가중치를 등거리($\lVert W\rVert_2=1$)로 맞춥니다. 그러면 $L=1$이 되어 DEQ의 필수 조건 $L<1$이 깨지고, 출력이 수렴 못 하고 NaN으로 발산합니다.

▶ 다음 도미노 → "메모리 폭발"과 "NaN 발산", 이 두 평생학습의 모순을 System 2.5가 새 수학으로 해결합니다.

Lifelong Stability

System 2.5 — 평생 지속성 장벽망

ICLR 2026 투고 · O(1) 메모리 평생학습 & 수축적 등거리성

백본 & 챌린지

Gemma 4 E4B + L-Broyden / 평생 학습 적용 시 unrolling으로 인한 OOM, 그리고 수축 조건($L<1$) 파괴로 인한 NaN 발산 병목(System 1.5가 남긴 두 모순).

SOLUTION 해결점

큰 그림 평생 공부하는 학생의 두 고민입니다. ① "옛날에 배운 걸 까먹지 않기"(안정성) ② "새 걸 배우는 유연함 유지하기"(가소성). 두 장치가 한 쌍으로 이 둘을 맡습니다.

① FP-EWC — 옛 지식에 자물쇠 채우기 (안정성)

옛 과목에 중요했던 파라미터에 빨간 자물쇠를 채워 새 공부가 함부로 못 건드리게 하는 게 EWC입니다. "얼마나 중요한가" 점수가 Fisher 정보(FIM)예요.

EWC 페널티 — 중요한 파라미터일수록 강하게 고정 $$\mathcal{L}_{\text{EWC}}(\theta)=\mathcal{L}_k(\theta)+\frac{\lambda}{2}\sum_i \tilde F^{(k-1)}_{\theta,i}\,(\theta_i-\theta^{*}_{k-1,i})^2$$

$\tilde F$(중요도)가 큰 파라미터는 옛 값 $\theta^*$에서 멀어질 때 큰 벌점을 받아, 사실상 자물쇠가 걸립니다.

문제는 DEQ에서 이 중요도를 보통 방식으로 구하면 언롤링으로 메모리가 터진다는 것. FP-EWC는 IFT를 점수함수에 직접 적용해, 고정점에서 곧장 선형계를 푸는 방식으로 우회합니다.

언롤링 없이 — Conjugate Gradient로 푸는 선형계 $$(I-J)^{\top}v=\Big(\tfrac{\partial \log p}{\partial z^{*}}\Big)^{\top}$$

CG는 벡터-야코비안 곱(VJP)만 쓰므로 활성 메모리가 O(1). 그래서 16.7GB로 평생학습이 됩니다.

② C-FIRE — 유연함을 안전하게 주입 (가소성)

오래 공부하면 머리가 굳습니다(가소성 상실). FIRE는 가중치를 등거리($\lVert W\rVert_2=1$)로 만들어 모든 방향으로 똑같이 늘려 유연함을 살리지만, 이는 $L=1$ → 발산을 부릅니다. C-FIRE는 목표를 살짝 낮춰 $\gamma$-등거리성으로 바꿉니다.

γ-등거리 목적함수 (예: γ = 0.9) $$\min_{W}\;\big\lVert W^{\top}W-\gamma^{2}I\big\rVert_F^2$$

말로 풀면 "$W^\top W$를 $\gamma^2 I$에 최대한 가깝게" — 결국 W의 모든 특이값을 정확히 $\gamma$로 통일시킵니다. 유연함(full rank)은 살리고, $L=0.9<1$이라 수축성도 지켜요.

집중 해설 — κ ≤ 19 가 도대체 뭔가요?

γ<1(수축성)과 κ는 "서로 다른 두 가지"를 보장합니다

• $\gamma<1$ → 앞으로 가는 길(forward)이 수렴함. (제자리 무한반복 방지 — 잘 이해하신 부분)
• $\kappa\le 19$ → 뒤로 가는 길(backward, 기울기 계산)이 안정적임. (여기에 따라오는 보너스)

DEQ는 학습할 때 기울기를 구하려고 $(I-J)^{-1}$, 즉 행렬을 거꾸로 푸는 계산을 합니다. 조건수 $\kappa$는 "이 거꾸로 풀기가 얼마나 까다로운가"를 재는 숫자예요.

비유 기계에 숫자를 넣어 결과가 나왔는데, 그 결과만 보고 원래 숫자를 거꾸로 맞히는 상황. 기계가 어떤 방향은 크게, 어떤 방향은 거의 안 늘리면, 거꾸로 맞힐 때 작은 오차가 엄청나게 뻥튀기됩니다. 이 "가장 크게 늘림 ÷ 가장 작게 늘림" 비율이 조건수입니다. 작으면 안정, 무한대면 기울기 폭발.

조건수 상한 — γ가 정하는 값 $$\kappa(I-J)=\frac{\sigma_{\max}}{\sigma_{\min}}\le\frac{1+\gamma}{1-\gamma}$$

$(I-J)$의 특이값이 $[1-\gamma,\,1+\gamma]$ 안에 갇히기 때문입니다. $\gamma=0.9$를 넣으면:

$$\kappa\le\frac{1+0.9}{1-0.9}=\frac{1.9}{0.1}=19$$

만약 $\gamma=0.99$로 1에 너무 붙이면 forward는 수렴해도 $\kappa\le\frac{1.99}{0.01}=199$로 치솟아 기울기가 불안정해지고, $\gamma\to1$이면 $\kappa\to\infty$로 발산이 확정됩니다.

결론: "$\gamma=0.9$ 때문에 $\kappa\le19$가 된 것"이 맞습니다. $\gamma=0.9$라는 한 번의 선택이 forward 수렴($L=0.9<1$)과 backward 기울기 안정($\kappa\le19$)을 동시에 보장합니다.

−1.2%

BWT (망각률, 거의 0)

+4.3%

FWT (전이학습, 2배↑)

16.7GB

20개 도메인 내내 평탄한 VRAM

LIMITATION 한계점 — 용량의 포화 (Capacity Wall)

안정적인 평생학습이 가능해졌지만, System 2.5는 근본적으로 단 하나의 공유 가중치 행렬 $W\in\mathbb{R}^{d\times d}$라는 "물리적 그릇" 안에 갇혀 있습니다.

비유 공책 한 권에 과목을 30개쯤 적으면 페이지가 꽉 차서, 새 과목을 적으려면 옛 필기 위에 덮어쓰게 됩니다. 30개 도메인을 연속 학습시키자 약 $N\approx30$에서 유효 랭크가 포화됐어요.

용량 한계의 수학적 직관 $$N_{\max}\approx\frac{d}{r_{\text{eff}}}=\frac{768}{25}\approx30$$

그릇이 꽉 차자, FP-EWC로 자물쇠를 아무리 채워도 새 지식이 옛 지식을 강제로 덮어써 BWT가 −23.4%로 붕괴합니다. 정규화 세기로는 못 막는 "절대 용량" 한계예요.

▶ 다음 도미노 → "그릇 하나의 용량 한계"를, 그릇을 무한히 늘리는 System 3(희소 전문가 혼합)가 부숩니다.

Capacity Scaling

System 3 — 희소 평형 MoE 시스템

ICLR 2027 투고 · 대규모 지속 추론을 위한 희소 암묵적 전문가 혼합

백본 & 챌린지

Sparse MoE 임플리시트 DEQ / 이종 도메인 연속 학습 시 단일 가중치 $W$의 포화 및 용량 장벽(Capacity Wall)을 어떻게 깰 것인가.

SOLUTION 해결점

큰 그림 공책 한 권 대신 여러 전문가 공책을 두고, 질문이 오면 알맞은 공책으로 보내주는 라우터를 둡니다(MoE). 필요하면 뇌가 새 뉴런 영역을 쓰듯, 공책을 무한히 늘려요.

다만 DEQ에 평범한 MoE를 그냥 붙이면 두 가지가 망가집니다. ① 라우팅이 수축성을 깨고, ② 자는(비활성) 전문가의 중요도를 못 구합니다. System 3은 세 장치로 해결합니다.

① CGM — 라우터를 z와 분리해 수축성 지키기

라우터가 "지금 생각 중인 상태 $z$"를 보고 공책을 고르면 야코비안이 엉켜 수축성이 깨집니다. 그래서 라우터가 오직 입력 질문 $x$만 보고 고르게 설계합니다.

z-독립 라우팅 → 야코비안이 볼록결합으로 단순화 $$J_{\text{mix}}(z)=\sum_{i\in\text{top-}k} g_i(x)\,J_i(z)$$

$g_i(x)$는 합이 1이고 0 이상인 가중평균. 그래서 $\lVert J_{\text{mix}}\rVert_2\le\max_i L_i$ — 전문가 각자가 수축($\max_i L_i<1$)이면 섞어도 전역 수축이 보장됩니다(Proposition 1).

② Sparse FP-EWC — 자는 전문가 문제 해결

top-k 라우팅에선 질문마다 일부 전문가만 깨어 있어, 자는 전문가는 기울기가 0이라 보통 방식으로 중요도(FIM)를 재면 망가집니다. 해결책은 각 전문가가 실제로 맡은 질문들에 한정해서만 조건부 FIM을 계산하는 것.

라우팅된 샘플에만 한정한 조건부 FIM $$F^{\text{cond}}_{\theta_i}=\frac{1}{N_i}\sum_{j=1}^{N_i}\Big(\tfrac{\partial \mathcal{L}}{\partial z^{*}}(I-J_i(z^{*}))^{-1}\tfrac{\partial f_{\theta_i}}{\partial \theta_i}\Big)^{\!\otimes 2}\quad\text{for }x_j\sim D\mid g_i(x_j)=1$$

큰 수의 법칙(SLLN)으로 이 조건부 추정이 "지역적으로 올바른" 일관 추정량임을 증명(Theorem 1). 인위적 가중치가 필요 없어요.

③ R2P — 새 전문가 즉석 생성

새 질문이 기존 어떤 전문가와도 별로 안 비슷하면, "완전히 새로운 분야"라 보고 새 공책을 한 권 더 만듭니다(C-FIRE로 초기화해 수축성 보장).

신규성 임계값 (τ_spawn = 0.8) $$\max_i s_i(x)<\tau_{\text{spawn}}\;\Longrightarrow\;\text{새 전문가 }\theta_{M+1}\text{ 생성}$$

이렇게 30개 이종 도메인을 16개 전문가로 자동 커버합니다. τ가 너무 낮으면(0.5) 3개만 생겨 다시 용량 벽, 너무 높으면(0.95) 45개+로 낭비 — 0.8이 최적.

보너스 — 왜 더 빨라지는가

전문가가 문제를 쪼개 담당하니 수렴이 2배 빨라집니다

한 전문가는 자기 도메인만 다루므로 풀이 지형이 단순해집니다. 활성 전문가의 야코비안 스펙트럼 반경이 $\rho(J_i)\approx0.4$로 떨어져(단일 모델은 0.85), 더 강한 수축 → 수렴 반복이 18 → 9.5회로 줄어듭니다.

−1.8%

BWT (16개 전문가로 용량벽 돌파)

+6.7%

FWT (전이학습)

18.2GB

용량이 늘어도 평탄한 활성 VRAM

18→9.5

고정점 수렴 반복 (≈2배 가속)

LIMITATION 한계점 — 저장 공간 vs 엣지 배포

활성 메모리는 전문가가 늘어도 평탄하게 유지되지만, 파라미터 저장 공간은 전문가 수에 비례해 늘어납니다.

파라미터 저장은 전문가 수에 선형 $$\text{Storage}=\mathcal{O}(M\cdot r\cdot d)$$

$\tau_{\text{spawn}}=0.8$이 증가를 16개로 잘 억제하지만, 디스크가 빠듯한 엣지 디바이스 배포는 여전히 과제입니다. 향후 동적 양자화(NF4)나 휴면 전문가 가지치기가 필요해요.

이로써 깊이(CTS) → 속도(1.5) → 안정(2.5) → 용량(3)의 도미노가 완성되어, 단일 소비자 GPU 위의 "무한 추론 · 평생 학습 AI"라는 목표에 한 걸음 더 다가섭니다.

용어 정리

네 시스템에 등장한 핵심 용어를 시스템별로 묶어 쉬운 말로 정리했습니다.

01 CTS — Cognitive Tree Search

DEQ 고정점 (Fixed-point, $z^*$)

"스스로와 모순이 없는 안정된 생각 상태." 네트워크를 반복 적용해도 더 이상 변하지 않는 점($z^*=f_\theta(z^*,x)$)으로, 한 번의 깊은 사고를 뜻합니다. 깊이가 깊어져도 메모리가 일정한 게 핵심.

KV-캐시 (Key-Value Cache)

트랜스포머가 이전 토큰들의 중간 계산을 저장해 두는 메모리. 트리 탐색에서 가지마다 쌓여 메모리 폭증(OOM)의 주범이 됩니다.

MCTS (몬테카를로 트리 탐색)

여러 풀이 갈래를 나무처럼 펼쳐 보고 가장 좋은 길을 고르는 탐색법. 깊게 생각하는 "System 2" 능력을 모델에 부여하지만 메모리를 많이 씁니다.

메타-정책 (ν, 4개 손잡이)

탐색 강도·솔버 허용오차·라우팅 온도·정지 임계값 4가지를 상황마다 자동 조절하는 작은 제어기. 재학습 없이 정확도-속도 균형을 바꿉니다.

FAISS 의미적 조상 검색

"시간상 가까운" 게 아니라 "의미상 비슷한" 과거 생각을 압축 색인으로 빠르게 찾아오는 장치. 추론 깊이와 문맥 길이를 분리해 줍니다.

Broyden 솔버

고정점 $z^*$를 반복적으로 찾아가는 수치 해법. 어려운 문제는 50~100번 반복이 필요해 "시간의 저주"의 원인이 됩니다.

02 System 1.5 — Amortized Inference

FWP (Fast-Weight Programmer)

수렴된 고정점 $z^*$를 받아 작은 가중치 메모 $\Delta W$로 압축하는 가벼운 네트워크. "깨달음을 포스트잇에 요약"하는 장치예요.

ΔW 저랭크 오버레이 ($BA^\top$)

전체 가중치를 바꾸지 않고 살짝 덧씌우는 작은 보정값. 저랭크라서 세션당 0.27MB로 매우 가볍습니다.

CFD (문맥 독립적 디코딩)

메모($\Delta W$)만 얹고 솔버 반복을 통째로 건너뛰어, 단 1단계(O(1))로 답을 내는 고속 모드.

대조 라우터 (Contrastive Router)

질문이 메모 주제와 비슷한지 코사인 유사도로 0.01초 만에 판별하는 문지기. InfoNCE 대조 손실로 학습됩니다.

OOD (분포 밖 입력) & 안전 폴백

학습 분포와 동떨어진 질문. 유사도가 임계값 0.85 미만이면 메모를 떼고 전체 솔버로 돌아가 헛소리를 방지합니다.

분할상환 회상 (Amortized Recall)

한 번 비싸게 푼 깊은 사고를 메모로 저장해, 이후 비슷한 질문들에 그 비용을 나눠 갚는(amortize) 개념. 사람의 "전문가 직관"에 해당.

03 System 2.5 — Lifelong Stability

안정성-가소성 딜레마

옛 지식을 지키려면(안정성) 굳어지고, 새 지식을 받으려면(가소성) 옛 걸 까먹는 근본 모순. 두 마리 토끼를 잡는 게 평생학습의 핵심.

FP-EWC (Fixed-Point EWC)

중요한 파라미터에 자물쇠를 채워 망각을 막는 EWC를, IFT+CG로 고정점에서 곧장 계산해 O(1) 메모리로 실현한 기법.

Fisher 정보 (FIM)

"이 파라미터가 옛 과제에 얼마나 중요한가"를 재는 점수. 클수록 강하게 고정(자물쇠)됩니다.

IFT (암묵적 함수 정리)

고정점에서 솔버를 펼치지 않고도 기울기를 구하게 해 주는 수학 정리. DEQ가 O(1) 메모리를 유지하는 비결.

Conjugate Gradient (켤레 기울기)

$(I-J)^\top v=\cdots$ 같은 선형계를 행렬을 펼치지 않고 푸는 반복법. 벡터-야코비안 곱만 써서 메모리를 아낍니다.

C-FIRE & γ-등거리성

유연함을 주되 $\lVert W\rVert_2=\gamma<1$로 맞춰($\gamma=0.9$) 수축성을 지키는 기법. 모든 특이값을 정확히 $\gamma$로 통일해 full rank를 보존합니다.

조건수 κ (Condition Number)

역행렬 계산이 오차를 얼마나 증폭하는지를 재는 값($\sigma_{\max}/\sigma_{\min}$). $\gamma=0.9$면 $\kappa\le19$로, 기울기 계산까지 안정함을 보장합니다.

BWT / FWT (후방/전방 전이)

BWT는 새 걸 배운 뒤 옛 성능이 얼마나 보존되는가(망각 척도), FWT는 옛 지식이 새 학습을 얼마나 돕는가(전이 척도). 둘 다 0에 가깝거나 +면 좋습니다.

04 System 3 — Capacity Scaling

용량 벽 (Capacity Wall)

단일 가중치 행렬 하나가 담을 수 있는 지식의 절대 한계($N_{\max}\approx d/r_{\text{eff}}\approx30$). 넘어서면 새 지식이 옛 지식을 덮어써 망각이 붕괴합니다.

유효 랭크 (Effective Rank)

행렬이 실제로 표현할 수 있는 "독립적 방향"의 수. 도메인이 쌓일수록 차오르다가 포화하면 더는 새 지식을 받을 공간이 없어집니다.

MoE (전문가 혼합)

하나의 거대 모델 대신 여러 전문가 모듈을 두고, 질문마다 알맞은 소수(top-k)만 깨워 쓰는 구조. 용량을 늘리되 계산은 희소하게 유지합니다.

CGM (수축적 게이트 혼합)

라우팅을 은닉상태 $z$와 무관하게 입력 $x$에만 의존시켜, 전문가 야코비안의 볼록결합으로 전역 수축성을 보장하는 설계.

Sparse FP-EWC

자는 전문가의 기울기 0 문제를 피하려, 각 전문가가 실제 맡은 샘플에만 한정해 조건부 FIM을 계산하는 기법. SLLN으로 일관성을 증명.

R2P (라우터 모집 정책)

신규성이 임계값 $\tau_{\text{spawn}}=0.8$ 미만인 새 분야가 오면 새 전문가를 동적으로 생성(spawn)해 용량을 무한히 확장하는 정책.

SLLN (큰 수의 법칙)

표본이 많아질수록 표본 평균이 참값에 수렴한다는 정리. 조건부 FIM이 올바른 추정량임을 보증하는 수학적 근거.

라우팅 붕괴 (Routing Collapse)

소수 전문가만 계속 선택되어 나머지가 "죽는" 실패 모드. 부하 분산 손실과 z-loss로 막아, 모든 전문가가 골고루 일하게 합니다.

참고. 이 문서는 첨부된 네 편의 실제 논문 — CTS(NeurIPS 2026 투고), System 1.5·System 2.5(ICLR 2026 투고), System 3(ICLR 2027 투고) — 의 본문·정리·표·부록을 근거로 작성했습니다. 수치(8.9×, BWT/FWT, VRAM, 반복 횟수 등)와 수식은 각 논문에 보고된 값을 그대로 옮겼으며, 비유와 풀이는 이해를 돕기 위한 설명입니다.