4부. 계산의 재배열: AXIOM

계산의 길을 바꿀 수 있을까

칩의 이름표를 잠시 내려놓고 계산의 형태에서 출발한다. 원리 자체는 CPU와 GPU 양쪽에서 구현될 수 있다. 다만 어떤 계산 형태는 GPU의 방식과 잘 맞고, 어떤 계산 형태는 CPU의 방식과 더 자연스럽게 맞물린다. 바로 그 차이를 본다.

앞선 두 장에서 우리는 GPU의 병목이 코어 수만의 문제를 넘어선다는 점을 보았다. 같은 자원으로 몰리면 병렬성은 줄서기로 접히고, 데이터가 듬성듬성 놓이면 넓은 메모리 통로도 낭비된다.

그렇다면 질문은 자연스럽게 바뀐다. 하드웨어를 더 키우는 대신, 계산이 하드웨어를 지나가는 길 자체를 바꿀 수는 없을까?

박준후의 석사 논문에서 제시된 AXIOM-CRE, 이하 AXIOM은 이 질문에 대한 하나의 가능성을 보여준다. AXIOM이 주목하는 것은 계산 안에 숨어 있는 대칭 구조다.

두 값의 묶음으로 보기

오늘날 AI와 딥러닝의 핵심에는 거대한 행렬 계산이 놓여 있다. 수많은 숫자를 행과 열에 맞춰 곱하고 더하는 이 방식은 GPU가 가장 잘하는 일과 잘 맞는다. 많은 데이터에 같은 규칙을 적용하고, 같은 형태의 계산을 한꺼번에 밀어붙일 수 있기 때문이다.

AXIOM은 이 익숙한 장면을 약간 다른 눈으로 본다. 숫자들을 두 개씩 짝지어진 값이 함께 움직이는 구조로 본다. 예를 들어 다음과 같은 대칭 구조를 생각할 수 있다.

[[A -B]
 [B  A]]

이 구조에서는 위쪽과 아래쪽, 왼쪽과 오른쪽 사이에 일정한 질서가 있다. 두 값이 한 쌍을 이루고, 그 쌍이 회전하듯 함께 움직인다. 계산도 그 묶음에 맞춰 다시 쓸 수 있다.

[[A -B] [X]]
[[B  A] [Y]]
=
[[AX - BY]]
[[BX + AY]]

이 식의 세부는 가볍게 흘려보아도 된다. 이 대목에서 눈여겨볼 변화는 계산을 묶는 방식이다. 실제로 들어가는 연산은 여전히 실수의 곱셈과 덧셈이다. 달라지는 것은 계산을 바라보는 묶음의 단위다.

보통의 계산이 숫자들을 길게 펼쳐 놓고 한꺼번에 밀어붙이는 방식이라면, AXIOM은 가까이 붙은 두 값을 하나의 작은 움직임으로 본다. 계산의 기본 단위가 거대한 배열 전체에서, 서로 짝을 이룬 작은 묶음으로 내려온다. 이 변화가 하드웨어와 만나는 방식도 달라질 수 있다.

CPU가 다시 보이는 지점

GPU는 거대한 숫자 배열이 같은 규칙으로 줄 맞춰 움직일 때 강하다. 그 조건이 맞으면 GPU는 여전히 가장 강력한 실행 장치다.

AXIOM은 그 강점 위에 다른 모양의 계산을 제안한다. 두 값이 가까이 붙어 한 쌍으로 움직이고, 그 작은 묶음을 반복해서 재사용하는 계산은 CPU의 캐시와 낮은 지연시간이 더 잘 드러나는 형태가 될 수 있다.

CPU의 강점은 가까운 작업대 위에 필요한 값을 붙잡아 두고 빠르게 꺼내 쓰는 장면에서 더 선명하게 드러난다. AXIOM의 홀짝 페어링과 작은 회전 묶음은 이 성질과 잘 맞을 가능성이 있다. 데이터가 가까운 위치에서 재사용되고, 계산의 흐름이 작은 단위로 정리되면, 가까운 캐시와 짧은 지연시간이 성능을 좌우하는 무대가 열린다.

CPU의 가능성을 보는 지점도 여기에 있다. 커널을 이 구조에 맞게 따로 짤 수 있다면, 계산은 같은 행렬곱을 다른 장치에서 돌리는 수준을 넘어선다. 계산의 묶음, 데이터의 위치, 값을 재사용하는 방식 자체가 달라진다. 앞선 장에서 보았던 직렬화와 메모리 낭비를 다른 길로 피할 가능성이 생기는 것이다.

조금씩 고치는 계산에서, 한 번에 푸는 계산으로

AXIOM이 던지는 또 하나의 가능성은 학습 방식과도 연결된다. AI 학습은 보통 작은 오차를 조금씩 고치는 과정을 수없이 반복한다. 이 반복은 강력한 동시에, 막대한 시간과 에너지를 요구한다.

더 큰 방향은 이 반복 자체의 무게를 옮기는 데 있다. 조금씩 고쳐야 하는 문제처럼 보이던 계산이, 정리된 방정식으로 한 번에 풀 수 있는 형태에 가까워질 구간은 어디에 있을까? 이 방향은 우선 계산 안에서 꺼내어 풀 수 있는 구간을 찾는 데서 시작한다. AXIOM은 그 구간을 자기 구조에 맞게 묶어 풀 가능성을 제시한다.

여기서 AXIOM은 계산의 표현과 학습 흐름을 함께 다시 묻는다. 계산을 어디서 반복할지, 어디서 묶을지, 어디서 직접 풀지 다시 묻는 방식이다. 그 질문은 자연스럽게 하드웨어의 역할까지 바꾼다.

이 가능성은 반복 학습이라는 패러다임 자체를 건드린다. 그만큼 검증해야 할 단계도 더 길다.

병목은 자리를 옮긴다

AXIOM의 적용 범위는 계산의 형태에 따라 달라진다. GPU가 잘하는 거대한 정렬 계산은 여전히 GPU의 무대다. 계산의 묶음 단위가 바뀌고, 가까운 데이터의 재사용이 중요해지고, 일부 반복이 직접 풀이에 가까워지면 이야기는 달라진다.

이때 병목은 더 많은 계산기를 붙이는 문제에서, 계산을 어떤 모양으로 조직할 것인가의 문제로 이동한다. 어떤 순간에는 가까운 데이터가 넓은 병렬성의 효과를 좌우하고, 어떤 순간에는 짧은 지연시간이 압도적인 처리량의 빈틈을 메운다. 그 순간 CPU는 계산의 다른 길을 열 수 있는 장치로 다시 보인다.

결국 AXIOM이 던지는 질문은 단순하다. 더 많은 계산기를 붙이는 것만이 답일까? 계산의 길을 다시 그리는 것만으로도 병목의 위치를 바꿀 수 있지 않을까?

다음 장에서는 이 질문에 답을 정리한다 — 어떤 계산을 어떤 길로 보내야 하는가.