Skip to content

담론 1: GPU의 구조적 병목

HOST (System) System Memory (RAM) 대용량 / 넓고 느린 공간 CPU 지연 시간(Latency) 관리 마스터 DEVICE (GPU Board) VRAM (Global Memory) GPU 전용 초고속 작업장 HBM / GDDR (초고대역폭) GPU 처리량(Throughput) 압도적 물량 PCIe Bus 길지만 좁은 병목 구간 "데이터를 한 번에 크게 뭉쳐(Batch) 넘겨야 이득"

첫 번째 질문: 우리는 어디서 계산하는가?

Section titled “첫 번째 질문: 우리는 어디서 계산하는가?”

이 섹션은 하드웨어 부품의 기능을 나열하는 사전이 아니다. 필수적인 아키텍처 요소를 다루지만, 그 궁극적인 목적은 GPU가 어떤 취약점에서 병목을 일으키는지 추적하는 데 있다.

  • CPU와 GPU의 설계 철학적 차이는 어디서 오는가?
  • 거대 병렬 처리라는 GPU의 강점은 어떤 물리적 조건에서 한계를 마주하는가?
  • 연산 공간의 재배열은 어떤 원리로 CPU의 구조적 우위를 복원하는가?
  1. 두 개의 뇌는 어떻게 다른가 CPU와 GPU의 설계 철학을 Latency(지연 시간) vs Throughput(처리량)이라는 근본적 대비를 통해 규정한다.
  2. 최소한의 구조 이해 Control Unit, ALU/FPU, Register, Cache, SIMD, SIMT, Warp를 붕괴 현상을 읽어내기 위해 반드시 합의해야 할 아키텍처의 기본 문법을 정립한다.
  3. 병렬 처리의 붕괴: 직렬화 Atomic 연산과 Bank Conflict가 어떻게 거대 병렬성을 훼손하고 순차 실행을 유발하는지 알아본다.
  4. 덤프트럭의 비애: Coalescing VRAM의 경직된 메모리 접근 패턴(Transaction)이 유발하는 극단적인 대역폭 손실을 확인한다.
  5. 병목의 우회와 공간의 재배열 기존의 물리적 한계를 부수는 수학적 연산 공간의 재배열 원리를 통해, 하드웨어의 개조 없이 CPU의 잠재력을 끌어내는 돌파구를 다룬다.
CPU vs GPU Architecture "최소한의 지연 시간"과 "최대의 처리량"이 낳은 극단적인 물리적 형태 차이 CPU Core 소수 정예 / Latency 최소화 구조 Control Unit Branch Predictor / Decoder 거대한 지휘관 L1/L2 Cache Registers CPU ALUs 소수의 고성능 모터 FPU 부동소수점 전용 GPU Streaming Multiprocessor (SM) 물량 융단폭격 / Throughput 극대화 구조 Warp Schedulers (매우 얇은 지휘관) 무수히 많은 계산기 (ALUs) Shared Memory / L1 Cache (로비 공용 게시판)

위 그림은 본문에 진입하기에 앞서 담아두어야 할 구조적 기준점이다. “CPU는 지휘관과 캐시 중심의 통제 구역, GPU는 단순한 계산기와 정형화된 메모리 규율의 집합체”라는 구분만 염두에 두면 충분하다.