담론 1: GPU의 구조적 병목

첫 번째 질문: 우리는 어디서 계산하는가?

이 섹션은 하드웨어 부품의 기능을 나열하는 사전이 아니다. 필수적인 아키텍처 요소를 다루지만, 그 궁극적인 목적은 GPU가 어떤 취약점에서 병목을 일으키는지 추적하는 데 있다.

두 개의 뇌는 어떻게 다른가 CPU와 GPU의 설계 철학을 Latency(지연 시간) vs Throughput(처리량)이라는 근본적 대비를 통해 규정한다.
최소한의 구조 이해 Control Unit, ALU/FPU, Register, Cache, SIMD, SIMT, Warp를 붕괴 현상을 읽어내기 위해 반드시 합의해야 할 아키텍처의 기본 문법을 정립한다.
병렬 처리의 붕괴: 직렬화 Atomic 연산과 Bank Conflict가 어떻게 거대 병렬성을 훼손하고 순차 실행을 유발하는지 알아본다.
덤프트럭의 비애: Coalescing VRAM의 경직된 메모리 접근 패턴(Transaction)이 유발하는 극단적인 대역폭 손실을 확인한다.
병목의 우회와 공간의 재배열 기존의 물리적 한계를 부수는 수학적 연산 공간의 재배열 원리를 통해, 하드웨어의 개조 없이 CPU의 잠재력을 끌어내는 돌파구를 다룬다.

위 그림은 본문에 진입하기에 앞서 담아두어야 할 구조적 기준점이다. “CPU는 지휘관과 캐시 중심의 통제 구역, GPU는 단순한 계산기와 정형화된 메모리 규율의 집합체”라는 구분만 염두에 두면 충분하다.