Agentes na infra: o que Railway e Composio mostram quando autonomia demais vira risco operacional

Tem muita conversa sobre agente autônomo, copiloto de infraestrutura e deploy acelerado por IA. O problema é que a conta costuma chegar depois: não quando a demo funciona, mas quando o caminho mais rápido vira caminho crítico.

Dois casos de maio ajudam a enxergar isso sem romantização. A Railway sofreu um apagão amplo depois que o Google Cloud suspendeu sua conta de produção por engano. A Composio publicou um boletim de incidente dizendo que um atacante explorou um toolchain agentic interno, escalou privilégios e forçou uma rodada pesada de revogação de credenciais. São problemas diferentes. A lição operacional é parecida.

O risco não está só em “usar IA na infra”. O risco aparece quando uma automação, um agente ou uma dependência escondida ganha poder demais sem fallback decente.

Na Railway, o problema não era só cair na GCP

No relatório da própria Railway, a interrupção começou quando o Google Cloud colocou a conta de produção deles em estado de suspensão de forma incorreta. O impacto direto já foi ruim: API, dashboard, banco e parte da computação ficaram offline por horas.

Mas o detalhe que mais importa para quem cuida de produto e operação veio depois. Mesmo workloads que ainda estavam em Railway Metal e AWS acabaram ficando inacessíveis quando o cache de rotas expirou, porque o edge dependia de uma control plane API hospedada na GCP para repopular as tabelas de roteamento.

O relatório da Railway expõe um ponto clássico de operação: a arquitetura parecia distribuída, mas ainda havia um caminho quente dependente demais de um único fornecedor.

Esse trecho vale ouro porque vai além do “a nuvem caiu”. A própria Railway assumiu responsabilidade pelas escolhas de arquitetura que deixaram uma ação upstream virar outage de plataforma inteira. Em português claro: não basta ter multi-cloud no diagrama se a descoberta de workload, o controle de rota ou a coordenação central continuam presos a um lugar só.

É o tipo de detalhe que parece sofisticado e resiliente até o dia em que vira gargalo sistêmico.

Na Composio, o problema foi autonomia demais no lugar errado

No boletim da Composio, o quadro é outro e talvez até mais desconfortável para quem está empolgado com stack agentic. Segundo a empresa, o atacante testou combinações de exploração com padrões gerados por LLM, conseguiu apoio inicial em uma ferramenta agentic interna usada para monitorar infraestrutura e reportar falhas de conectores, e daí escalou acesso até executar código arbitrário dentro do sandbox de execução de ferramentas.

O boletim também diz que a empresa revogou conexões afetadas, apagou chaves antigas, recomendou rotação ampla de credenciais e publicou indicadores de comprometimento para clientes conferirem logs. GitHub apareceu como o maior bloco de conexões impactadas, mas não foi o único.

No caso da Composio, o alerta não é sobre “IA mágica do mal”. É sobre blast radius: ferramenta interna, privilégio alto e cadeia de remediação automática demais no mesmo trilho.

A parte mais importante aqui não é o sensacionalismo. É a combinação. Quando monitoramento, remediação, definição de ferramentas e acesso útil demais convivem sem contenção suficiente, o incidente deixa de ser pontual. Ele ganha pernas.

O ponto em comum é o blast radius

Os dois casos não são idênticos, e seria preguiçoso tratar tudo como “mais uma falha causada por IA”. Não é isso.

Na Railway, o coração do problema foi uma dependência operacional escondida no hot path. Na Composio, foi a cadeia de privilégios e automação em torno de sistemas internos. Mas os dois episódios apontam para a mesma pergunta que muita equipe ainda evita fazer:

o que acontece quando esse componente que acelera tudo também concentra poder demais?

Em infra, isso pesa mais do que no código do dia a dia. Código ruim vira bug, PR torto, retrabalho. Já autonomia mal cercada em operação pode virar:

indisponibilidade longa,
segredo exposto,
deploy bloqueado,
credencial revogada em massa,
fallback improvisado no pior momento.

É por isso que a discussão madura sobre agentes na infra não deveria começar em “qual ferramenta escreve mais shell”. Ela deveria começar em poder, alcance e reversibilidade.

Antes de soltar mais autonomia em produção, eu olharia estas cinco coisas

Hot path real: se um provider, control plane ou serviço auxiliar sumir, o que continua funcionando de verdade?
Escopo do agente: quais sistemas, credenciais e ações ele consegue alcançar sem pedir ajuda?
Trilha de revisão: o que passa por diff, PR, aprovação e histórico auditável antes de tocar produção?
Capacidade de corte: se der ruim, você consegue revogar chave, parar automação e reduzir o raio rápido?
Fallback humano: existe procedimento manual minimamente viável ou todo mundo depende da mesma engrenagem?

Se essas respostas estiverem vagas, a automação pode até parecer moderna. Operacionalmente, ela ainda está crua.

Velocidade boa não é a que some com o freio

IA ajuda muito quando resume logs, monta hipótese, escreve runbook inicial, prepara infra como código, sugere revisão e acelera tarefas repetitivas. Isso já é um baita ganho. O salto perigoso acontece quando a equipe confunde aceleração com delegação total.

O jeito mais saudável de usar esse tipo de ferramenta continua sendo meio menos glamouroso: escopo curto, credencial limitada, revisão humana onde o custo do erro explode, e arquitetura pensada para não cair inteira quando uma peça central falha.

No fim, ninguém compra o argumento de que “foi o provider”, “foi o agente” ou “foi a automação”. O usuário vê o produto parado. E o time fica com a conta.

Na Railway, o problema não era só cair na GCP

Na Composio, o problema foi autonomia demais no lugar errado

O ponto em comum é o blast radius

Antes de soltar mais autonomia em produção, eu olharia estas cinco coisas

Velocidade boa não é a que some com o freio

Fontes

Leia também

A guerra das tools de IA para dev virou outra coisa

Google Search quer ser a própria resposta — e isso aperta a web aberta

GitHub Copilot agora cobra por crédito. O que muda de verdade para devs e times