Coletar tudo é um erro, como usar OpenTelemetry para reduzir custos sem perder visibilidade

Em ambientes distribuídos, é comum acreditar que coletar toda a telemetria possível é o caminho para uma boa observabilidade. Na prática, essa abordagem gera custos elevados e mais ruído do que valor.

Nesta palestra, compartilho a experiência de um time de plataforma responsável por observabilidade em larga escala, operando centenas de clusters Kubernetes e múltiplas linguagens. Saímos de uma abordagem baseada em coletar todos os traces que rapidamente se mostrou insustentável para uma estratégia de sampling (amostragem) com OpenTelemetry, focada em reduzir volume e custo sem perder visibilidade dos serviços.

Ao longo dessa jornada, enfrentamos desafios que vão desde a definição de estratégias eficazes de sampling até o entendimento dos impactos na análise de traces. Também exploramos o uso de Span Metrics como forma de preservar os quatro Golden Signals (latência, tráfego, erros e saturação), mesmo com a redução da quantidade de dados coletados.


Muitos times iniciam sua jornada com OpenTelemetry adotando a estratégia de “coletar tudo”. Embora essa abordagem pareça segura no início, ela rapidamente se torna insustentável em ambientes distribuídos e de larga escala.

Nesta palestra, apresento um caso real de um time de plataforma de observabilidade responsável por padronizar e sustentar a coleta, o processamento e o armazenamento de métricas, logs e traces em um ambiente com mais de 130 clusters Kubernetes e múltiplas linguagens.

Diante de um cenário de alta volumetria de traces e crescente pressão por eficiência e custo, evoluímos nossa estratégia ao adotar sampling no OpenTelemetry Collector, saindo de um modelo baseado em coleta total para uma abordagem mais seletiva e orientada a valor.

Com isso, passamos a lidar com novos desafios, como definir boas estratégias de sampling, entender seus impactos na análise de traces e evitar perda de visibilidade. Para mitigar esses efeitos, exploramos o uso de Span Metrics (métricas derivadas de traces) como forma de preservar os sinais essenciais dos serviços, mesmo com a redução do volume de dados de telemetria.

Durante a apresentação, vou compartilhar:

  • Como definir uma estratégias práticas de sampling com OpenTelemetry
  • Desafios reais em ambientes distribuídos de larga escala
  • Trade-offs entre custo, volume de dados e visibilidade
  • Como manter sinais críticos mesmo com menos telemetria

A ideia é compartilhar aprendizados que ajudem outros times a fazer melhores escolhas sobre coleta e processamento de traces, evoluindo para uma observabilidade mais eficiente, sustentável e orientada a valor.

Foto de perfil da pessoa palestrante
Ezzio Moreira

Trabalho com observabilidade em ambientes distribuídos, ajudando times a entenderem melhor seus sistemas.

Como SRE, atuo na construção de plataformas baseadas em OpenTelemetry para coleta e processamento de métricas, logs e traces em larga escala, com foco em tornar a observabilidade mais simples e eficiente.

Sou membro da comunidade OpenTelemetry e contribuo ativamente com a documentação em português, ajudando a tornar o ecossistema mais acessível. Também faço parte da CNCF Fortaleza e DevOps Ceará, apoiando a comunidade local na evolução de práticas de observabilidade e DevOps.