AI 인프라를 이야기할 때 가장 흔한 오해 중 하나는 승부가 여전히 "연산량"에서만 난다고 보는 것입니다. 하지만 실제 추론 환경에서는 GPU가 얼마나 많은 계산을 할 수 있는가만큼, 모델 가중치를 얼마나 빠르게 메모리에서 끌고 올 수 있는가가 중요합니다.Cloudflare의 Unweight 발표가 눈여겨볼 만한 이유도 여기에 있습니다. 숫자만 보면 15~22% 압축은 그리 드라마틱해 보이지 않을 수 있지만, 메모리 버스를 오가는 데이터 양을 줄일 수 있다면 실제 비용과 지연 시간은 꽤 크게 달라질 수 있습니다.핵심 포인트Cloudflare는 Unweight가 출력 품질을 바꾸지 않으면서 모델 메모리 점유를 약 15~22% 줄일 수 있다고 설명합니다.이 최적화의 진짜 표적은 연산 코어가 아니라 메모리 대..