A primeira vez que um SLA aparece num projeto, geralmente é num anexo de contrato que ninguém vai abrir depois. Cláusula de '99,9% de disponibilidade', alguns parágrafos genéricos sobre tempo de resposta, e pronto, todo mundo assina. Seis meses depois, quando o sistema cai num feriado, descobre-se que ninguém mediu nada, ninguém sabe se está dentro ou fora da meta, e o cliente quer respostas que o contrato nunca exigiu que existissem.
SLA bom não é só uma cláusula. É um sistema vivo de medição que orienta decisão. Vou mostrar o que separa os dois.
O que torna um SLA real
Um SLA que vale a pena tem quatro elementos que conversam entre si. Um indicador mensurável de verdade, tipo 'tempo até a primeira resposta' ou 'uptime da API', com fonte de dados confiável. Uma meta clara junto com a janela de medição: '99,5% de disponibilidade no mês'. O escopo: quais serviços estão cobertos e quais situações invalidam o acordo (manutenção programada, problemas no provedor de nuvem, etc.). E o que acontece quando a meta não é cumprida: quem monitora, quem aciona, como o cliente é comunicado. Faltando qualquer um desses, o SLA volta a ser papel.
SLA, SLO e SLI: três siglas, papéis diferentes
Três conceitos que confundem todo mundo no começo. SLI (Service Level Indicator) é o número bruto: 'porcentagem de requisições com sucesso nos últimos 30 dias'. SLO (Service Level Objective) é a meta interna que o time persegue, normalmente mais ambiciosa que o contrato: '99,9% interno'. SLA (Service Level Agreement) é o compromisso formal com o cliente, normalmente mais conservador: '99,5% no contrato'. A diferença entre SLO e SLA é o colchão que protege o time quando algo dá errado.
Como construir SLA que sustenta a operação
Comece olhando jornada do cliente, não o catálogo de serviços. O que importa pra ele é o caminho que leva ao valor. Se a página de produto carrega mas o checkout cai, o uptime do servidor não importa. Identifique os pontos onde uma falha derruba a experiência percebida e meça esses. Escolha indicadores que dão pra coletar automaticamente, em dashboard compartilhado. Indicador medido na unha vira fonte eterna de discussão sobre o número.
Defina alertas que disparam antes da meta estourar, não depois. Se a meta é 99,5% mensal, um alerta em 99,7% dá tempo de agir. Revise o SLA com cadência fixa (trimestral funciona pra maioria) ajustando conforme o sistema cresce. E conecte com orçamento: quando bate a meta inferior, já tem melhoria priorizada no backlog. Sem isso, SLA quebrado vira pauta de reunião sem dono.
“SLA que ninguém mede no dia a dia é só uma promessa que vai virar desculpa quando o sistema cair.”
Os jeitos mais comuns de matar um SLA
Tratar como documento jurídico, sem ninguém dentro da operação responsável por ele, é o erro número um. Em seguida vem negociar meta agressiva pra fechar o contrato sem validar se a infraestrutura aguenta. Depois, medir indicador na mão, criando atraso e discussão. E por último, deixar o cliente sem visibilidade quando algo quebra. Cliente que descobre a violação pela notícia, e não pela equipe que vende pra ele, perde confiança que dificilmente volta.
SLAs transparentes, medidos automaticamente e revisados com cadência transformam ansiedade contratual em vantagem competitiva. Quem mede todo dia entrega confiança que se vê no churn, no NPS e na conversa de renovação.
