초저지연 추론 (Ultra-low Latency)

인공지능이 사용자의 질문에 답하거나 코드를 생성할 때 인간이 인지하기 어려울 정도로 즉각적으로 반응하는 상태. 이는 단순한 속도 향상을 넘어 AI 에이전트가 실시간으로 인간과 협업하거나 복잡한 추론 과정을 스스로 반복할 수 있게 만드는 핵심 기반임

용례

"미래의 추론 작업은 초당 1만 개의 토큰 처리를 요구할 것이며, 현재보다 10배에서 50배 낮은 지연 시간은 인공지능과의 상호작용 방식을 근본적으로 바꿀 것임."