Job Description

Responsabilidades e atribuições Operar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção; 
Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade; 
Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes; 
Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto; 
Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência; 
Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção; 
Produzir runbooks, playbooks e documentação operacional de referência para o ambiente; 
Requisitos e qualificações Habilidades Necessárias Expertise em operação de modelos de linguagem em produção com foco ...
            

Apply for This Position

Ready to take the next step? Click the button below to submit your application.

Submit Application

AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote)

Job Description

Responsabilidades e atribuições

Requisitos e qualificações

Apply for This Position