Tecnologias
Descrição da vaga
Vaga: Engenheiro(a) Sênior de Confiabilidade de Site (SRE) - Nearshore
A Mojo Trek, empresa em rápido crescimento, busca um(a) Engenheiro(a) Sênior de Confiabilidade de Site (SRE) para integrar nossa equipe de Infraestrutura. Esta é uma excelente oportunidade para profissionais experientes em sistemas distribuídos e apaixonados por garantir a confiabilidade, escalabilidade e performance de nossas plataformas globais em nuvem.
Nesta função, você será fundamental na construção de uma observabilidade de classe mundial, atuando na ponte entre engenharia de software e operações de sistemas.
Responsabilidades Principais:
- Projetar, implementar e manter pipelines de observabilidade escaláveis utilizando a stack Grafana LGTM (Loki, Grafana, Tempo, Mimir) e Datadog.
- Otimizar o armazenamento de métricas de alta cardinalidade no Mimir e fluxos de tracing distribuído no Tempo.
- Desenvolver estratégias avançadas de agregação de logs no Loki para fornecer recursos de troubleshooting de alta velocidade e custo-efetivos.
- Gerenciar e otimizar agentes Datadog, APM e monitoramento sintético para garantir cobertura abrangente de nossa arquitetura de microsserviços.
- Liderar a resposta a incidentes e análise de causa raiz pós-mortem, utilizando dados de observabilidade para impulsionar melhorias arquiteturais.
- Automatizar o provisionamento de infraestrutura e gerenciamento de configuração usando Terraform, Pulumi ou ferramentas IaC similares.
- Mentorar engenheiros(as) juniores em práticas recomendadas de SRE, incluindo SLIs, SLOs e orçamentos de erro.
- Colaborar com equipes de desenvolvimento para instrumentar aplicações usando OpenTelemetry (OTel) para ingestão contínua de dados no Grafana e Datadog.
Qualificações Necessárias:
- Mais de 7 anos de experiência em funções de SRE, DevOps ou Engenharia de Sistemas.
- Experiência comprovada no gerenciamento de ambientes Grafana em produção, utilizando especificamente os componentes LGTM (Loki, Tempo, Mimir).
- Ampla experiência com Datadog, incluindo APM, Gerenciamento de Logs e Dashboarding.
- Forte proficiência em orquestração de contêineres, especificamente Kubernetes (EKS, GKE ou auto-gerenciado).
- Profundo conhecimento dos “Três Pilares da Observabilidade” e como correlacioná-los em diferentes plataformas.
- Experiência com Infraestrutura como Código (Terraform) e pipelines de CI/CD (GitHub Actions, GitLab CI ou Jenkins).
- Fortes habilidades de programação em Go, Python ou Rust.
- Experiência com Prometheus, Alertmanager e PromQL/LogQL.
Habilidades Desejáveis:
- Experiência na migração de workloads ou dados de observabilidade entre Datadog e stacks Grafana auto-hospedadas.
- Conhecimento de eBPF para observabilidade profunda do sistema.
- Contribuições para projetos de observabilidade de código aberto.
- Experiência no gerenciamento de custos de nuvem em larga escala e otimização de gastos com observabilidade.
Se você é um(a) desenvolvedor(a) Rust apaixonado(a) por sistemas e busca uma oportunidade desafiadora em uma empresa inovadora, candidate-se!
