Senior Site Reliability Engineer (Nearshore)

Remoto Senior há 19h

Tecnologias

grafana lgtm loki datadog terraform pulumi opentelemetry kubernetes github github-actions gitlab gitlab-ci jenkins golang python rust prometheus

Descrição da vaga

Vaga: Engenheiro(a) Sênior de Confiabilidade de Site (SRE) - Nearshore

A Mojo Trek, empresa em rápido crescimento, busca um(a) Engenheiro(a) Sênior de Confiabilidade de Site (SRE) para integrar nossa equipe de Infraestrutura. Esta é uma excelente oportunidade para profissionais experientes em sistemas distribuídos e apaixonados por garantir a confiabilidade, escalabilidade e performance de nossas plataformas globais em nuvem.

Nesta função, você será fundamental na construção de uma observabilidade de classe mundial, atuando na ponte entre engenharia de software e operações de sistemas.

Responsabilidades Principais:

Projetar, implementar e manter pipelines de observabilidade escaláveis utilizando a stack Grafana LGTM (Loki, Grafana, Tempo, Mimir) e Datadog.
Otimizar o armazenamento de métricas de alta cardinalidade no Mimir e fluxos de tracing distribuído no Tempo.
Desenvolver estratégias avançadas de agregação de logs no Loki para fornecer recursos de troubleshooting de alta velocidade e custo-efetivos.
Gerenciar e otimizar agentes Datadog, APM e monitoramento sintético para garantir cobertura abrangente de nossa arquitetura de microsserviços.
Liderar a resposta a incidentes e análise de causa raiz pós-mortem, utilizando dados de observabilidade para impulsionar melhorias arquiteturais.
Automatizar o provisionamento de infraestrutura e gerenciamento de configuração usando Terraform, Pulumi ou ferramentas IaC similares.
Mentorar engenheiros(as) juniores em práticas recomendadas de SRE, incluindo SLIs, SLOs e orçamentos de erro.
Colaborar com equipes de desenvolvimento para instrumentar aplicações usando OpenTelemetry (OTel) para ingestão contínua de dados no Grafana e Datadog.

Qualificações Necessárias:

Mais de 7 anos de experiência em funções de SRE, DevOps ou Engenharia de Sistemas.
Experiência comprovada no gerenciamento de ambientes Grafana em produção, utilizando especificamente os componentes LGTM (Loki, Tempo, Mimir).
Ampla experiência com Datadog, incluindo APM, Gerenciamento de Logs e Dashboarding.
Forte proficiência em orquestração de contêineres, especificamente Kubernetes (EKS, GKE ou auto-gerenciado).
Profundo conhecimento dos “Três Pilares da Observabilidade” e como correlacioná-los em diferentes plataformas.
Experiência com Infraestrutura como Código (Terraform) e pipelines de CI/CD (GitHub Actions, GitLab CI ou Jenkins).
Fortes habilidades de programação em Go, Python ou Rust.
Experiência com Prometheus, Alertmanager e PromQL/LogQL.

Habilidades Desejáveis:

Experiência na migração de workloads ou dados de observabilidade entre Datadog e stacks Grafana auto-hospedadas.
Conhecimento de eBPF para observabilidade profunda do sistema.
Contribuições para projetos de observabilidade de código aberto.
Experiência no gerenciamento de custos de nuvem em larga escala e otimização de gastos com observabilidade.

Se você é um(a) desenvolvedor(a) Rust apaixonado(a) por sistemas e busca uma oportunidade desafiadora em uma empresa inovadora, candidate-se!