Inference — это продакшен-исполнение моделей: стабильность, масштабирование, latency и стоимость. Важно иметь метрики, алерты и контроль загрузки ресурсов.