← Voltar para vagas
Mojo Trek

Senior Site Reliability Engineer (Nearshore)

Mojo Trek ·

Tecnologias

grafana lgtm loki datadog terraform pulumi opentelemetry kubernetes github github-actions gitlab gitlab-ci jenkins golang python rust prometheus

Descrição da vaga

Vaga: Engenheiro(a) Sênior de Confiabilidade de Site (SRE) - Nearshore

A Mojo Trek, empresa em rápido crescimento, busca um(a) Engenheiro(a) Sênior de Confiabilidade de Site (SRE) para integrar nossa equipe de Infraestrutura. Esta é uma excelente oportunidade para profissionais experientes em sistemas distribuídos e apaixonados por garantir a confiabilidade, escalabilidade e performance de nossas plataformas globais em nuvem.

Nesta função, você será fundamental na construção de uma observabilidade de classe mundial, atuando na ponte entre engenharia de software e operações de sistemas.

Responsabilidades Principais:

  • Projetar, implementar e manter pipelines de observabilidade escaláveis utilizando a stack Grafana LGTM (Loki, Grafana, Tempo, Mimir) e Datadog.
  • Otimizar o armazenamento de métricas de alta cardinalidade no Mimir e fluxos de tracing distribuído no Tempo.
  • Desenvolver estratégias avançadas de agregação de logs no Loki para fornecer recursos de troubleshooting de alta velocidade e custo-efetivos.
  • Gerenciar e otimizar agentes Datadog, APM e monitoramento sintético para garantir cobertura abrangente de nossa arquitetura de microsserviços.
  • Liderar a resposta a incidentes e análise de causa raiz pós-mortem, utilizando dados de observabilidade para impulsionar melhorias arquiteturais.
  • Automatizar o provisionamento de infraestrutura e gerenciamento de configuração usando Terraform, Pulumi ou ferramentas IaC similares.
  • Mentorar engenheiros(as) juniores em práticas recomendadas de SRE, incluindo SLIs, SLOs e orçamentos de erro.
  • Colaborar com equipes de desenvolvimento para instrumentar aplicações usando OpenTelemetry (OTel) para ingestão contínua de dados no Grafana e Datadog.

Qualificações Necessárias:

  • Mais de 7 anos de experiência em funções de SRE, DevOps ou Engenharia de Sistemas.
  • Experiência comprovada no gerenciamento de ambientes Grafana em produção, utilizando especificamente os componentes LGTM (Loki, Tempo, Mimir).
  • Ampla experiência com Datadog, incluindo APM, Gerenciamento de Logs e Dashboarding.
  • Forte proficiência em orquestração de contêineres, especificamente Kubernetes (EKS, GKE ou auto-gerenciado).
  • Profundo conhecimento dos “Três Pilares da Observabilidade” e como correlacioná-los em diferentes plataformas.
  • Experiência com Infraestrutura como Código (Terraform) e pipelines de CI/CD (GitHub Actions, GitLab CI ou Jenkins).
  • Fortes habilidades de programação em Go, Python ou Rust.
  • Experiência com Prometheus, Alertmanager e PromQL/LogQL.

Habilidades Desejáveis:

  • Experiência na migração de workloads ou dados de observabilidade entre Datadog e stacks Grafana auto-hospedadas.
  • Conhecimento de eBPF para observabilidade profunda do sistema.
  • Contribuições para projetos de observabilidade de código aberto.
  • Experiência no gerenciamento de custos de nuvem em larga escala e otimização de gastos com observabilidade.

Se você é um(a) desenvolvedor(a) Rust apaixonado(a) por sistemas e busca uma oportunidade desafiadora em uma empresa inovadora, candidate-se!