'LLM' 태그의 글 목록

Cloudflare의 22% LLM 압축이 중요한 이유, 진짜 병목은 연산이 아니라 대역폭이다

AI 인프라를 이야기할 때 가장 흔한 오해 중 하나는 승부가 여전히 "연산량"에서만 난다고 보는 것입니다. 하지만 실제 추론 환경에서는 GPU가 얼마나 많은 계산을 할 수 있는가만큼, 모델 가중치를 얼마나 빠르게 메모리에서 끌고 올 수 있는가가 중요합니다.Cloudflare의 Unweight 발표가 눈여겨볼 만한 이유도 여기에 있습니다. 숫자만 보면 15~22% 압축은 그리 드라마틱해 보이지 않을 수 있지만, 메모리 버스를 오가는 데이터 양을 줄일 수 있다면 실제 비용과 지연 시간은 꽤 크게 달라질 수 있습니다.핵심 포인트Cloudflare는 Unweight가 출력 품질을 바꾸지 않으면서 모델 메모리 점유를 약 15~22% 줄일 수 있다고 설명합니다.이 최적화의 진짜 표적은 연산 코어가 아니라 메모리 대..

쉬운세상 2026.04.18

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

22b-labs 님의 블로그

LLM 1

티스토리툴바