문제의식
최근 시장은 CPU의 귀환을 가격으로 인증하기 시작했다. 인텔과 AMD의 서버 CPU 매출이 한 분기에 두 자릿수로 뛰고, 추론과 에이전트 워크로드가 학습보다 무거워지면서 데이터센터의 CPU 비중이 다시 올라간다.
이건 분명한 흐름이지만 결론은 아니다. 어느 칩이 다음 시대의 주인공이 되는가보다, 한 단 아래에 더 무거운 질문이 있다.
우리가 한 세기 가까이 어쩔 수 없는 비용이라고 받아들여 온 것 중에, 사실은 우리가 자의적으로 고른 표현의 결과인 것이 얼마나 될까?
부동소수점은 0.1을 근사값으로 담는다.
우리는 이걸 오랫동안 기계의 한계라고 불러왔다.
거대 모델 학습이 같은 입력에도 미세하게 다른 결과를 내는 재현성 붕괴도, 시뮬레이션이 길어질수록 누적되는 부동소수점 표류도, 데이터센터의 전력 곡선도, 당연하게 받아들여 온 연속이라는 표현 선택의 결과일 수 있다.
질문은 이렇게 바뀐다.
더 많은 계산기를 붙이기 전에, 계산해야 할 대상을 다시 표현해보면 어떨까?
질문은 두 갈래로 갈라진다.
FQNM은 묻는다. 보존 법칙은 정말로 부동소수점 위에서 정의되어야만 하는가? 다른 표현이 가능하다면, 그 표현은 우리가 반올림 사고라고 불러온 것에 무엇을 하는가?
AXIOM은 묻는다. 거대한 행렬 계산은 매번 같은 규모로만 풀려야 하는가? 그 안에 숨어 있는 묶음이 있다면, 그 묶음은 학습의 반복이라는 패러다임에 무엇을 하는가?
두 질문은 다른 곳에서 출발해 한 곳에서 만난다.
계산을 더 많이 해야 하는가, 아니면 계산해야 할 대상을 다시 정의해야 하는가.