Engenheiro(a) de Pesquisa

Tecnologias

Rust Python SQL C++ Java Go JavaScript TypeScript

Descrição da vaga

Sobre a vaga

A Turing busca uma pessoa Engenheira de Pesquisa para entregar datasets de qualidade de fronteira, ambientes de RL e avaliações que melhorem modelos de IA de ponta para laboratórios e clientes corporativos.

Esta é uma função remota, com atuação de qualquer lugar do Brasil. O trabalho combina liderança técnica prática, contato direto com pesquisadores e engenharia, e tradução de objetivos de pós-treinamento em especificações concretas de dados e ambientes.

A vaga é voltada a pessoas com cerca de 4 a 5 anos de experiência construindo ou melhorando sistemas de deep learning, especialmente quando os resultados dependem de curadoria, qualidade, remoção de ruído, dados sintéticos e avaliação rigorosa.

Áreas de atuação

Agentes de código e engenharia de software: repositórios, testes unitários, depuração, uso de ferramentas, code review e fluxos de longo prazo.
Ambientes de RL e treinamento baseado em verificadores: tarefas, recompensas, verificadores, trajetórias e harnesses de avaliação.
Dados e raciocínio multimodal: texto, imagens, documentos, tabelas, gráficos e, opcionalmente, áudio ou vídeo.
Raciocínio STEM: matemática, física, química, biologia e engenharia, com verificação de soluções e análise de erros.
IA incorporada moderna e agentes baseados em VLM: modelos visão-linguagem-ação, suítes de tarefas, abstrações de ferramentas, sensores e ações.

Responsabilidades

Qualidade de dados e ambientes

Transformar objetivos de pesquisa ambíguos em requisitos claros de dados: habilidades-alvo, modos de falha, calibração de dificuldade, cobertura e métricas de sucesso.
Criar rubricas detalhadas, contraexemplos e casos de borda para definir o que deve ou não entrar nos datasets.
Auditar dados produzidos, identificando erros sutis, vazamento, ambiguidades, inconsistências, mudanças de distribuição e oportunidades de reward hacking.
Conduzir melhorias iterativas com taxonomias de erro, métricas por recorte e refinamentos baseados no comportamento dos modelos.

Design de datasets e ambientes RL

Projetar suítes de tarefas, de etapas simples a fluxos de longo horizonte.
Definir sinais de ground truth, como verificadores, testes unitários, checagens estruturadas, funções de recompensa e validadores automáticos.
Criar interfaces de ambiente, incluindo APIs, schemas de ferramentas, abstrações de estado, schemas de banco de dados e dinâmicas similares a simuladores.
Para agentes de software, criar dados que reflitam trabalho real de desenvolvimento: navegação em bases de código, localização de bugs, patches, testes, reviews, restrições de CI, refatorações e correções de segurança.
Para multimodalidade, criar tarefas de leitura de gráficos, QA em documentos, entendimento de UI, raciocínio STEM com diagramas e tarefas sensíveis a OCR.
Para STEM, desenvolver tarefas com soluções verificáveis por checagens simbólicas, solvers de referência, validação numérica e consistência de unidades.

Validação, denoising e dados sintéticos

Implementar validação e filtragem automatizadas para alcançar alta relação sinal-ruído.
Trabalhar com deduplicação, descontaminação, checagens de vazamento, consistência de formato, schemas e invariantes.
Controlar dificuldade e diversidade com cobertura, novidade e casos de cauda longa.
Desenvolver pipelines de geração e aumento de dados sintéticos, incluindo geradores programáticos, perturbações controladas, templates de cenários e rollouts guiados por simuladores ou ferramentas.
Criar documentação e data cards com intenção do dataset, limitações conhecidas, uso recomendado e vínculo com avaliações.

Avaliação e impacto

Projetar e executar avaliações alinhadas ao uso pretendido pelo cliente.
Produzir análises que conectem dados a resultados, incluindo comparações antes e depois, quebras por tipo de erro e explicações de falhas do modelo.
Executar ablações para identificar quais atributos dos dados geram melhoria mensurável.
Quando necessário, conduzir experimentos internos de fine-tuning ou estilo RL, ou colaborar com equipes de pesquisa para demonstrar impacto no comportamento do modelo.

Colaboração

Trabalhar com engenharia, pesquisa, QA, especialistas de domínio e equipes de produção de dados em larga escala.
Fornecer especificações claras, exemplos, casos de borda e ciclos rápidos de feedback baseados em auditorias e sinais quantitativos.
Estruturar revisões focadas em qualidade, não apenas volume.

Requisitos

4 a 5 anos de experiência construindo ou melhorando sistemas de deep learning em contextos onde a qualidade dos dados foi decisiva.
Experiência com treinamento, pós-treinamento, avaliações ou sistemas agentic.
Boa intuição sobre quais dados coletar, filtrar, sintetizar e medir para impulsionar melhorias em modelos.
Capacidade de comunicar objetivos de pesquisa como especificações concretas para times de pesquisa e engenharia.
Atenção extrema a detalhes para diagnosticar problemas sutis de qualidade de dados e modos de falha.
Proficiência em Python.
Conforto com SQL e fluxos de dados estruturados é fortemente desejável.
Para trabalhos focados em código, proficiência em uma ou mais linguagens como C++, Java, Go, Rust, JavaScript ou TypeScript é um diferencial.
Experiência com rubricas, scripts de validação, conjuntos gold, estratégias de amostragem, checagens estatísticas e avaliação por recortes.
Conforto com ciclos de revisão human-in-the-loop baseados em critérios mensuráveis.

Diferenciais

Experiência com RL ou pós-treinamento, como RLHF, RLAIF, treinamento com verificadores, reward modeling, fine-tuning com RL ou design de ambientes.
Experiência com avaliação de agentes, uso de ferramentas, fluxos multi-etapas, tarefas de longo horizonte e análise de trajetórias.
Conhecimento em multimodalidade, entendimento de documentos, gráficos, diagramas, OCR, UI ou grounding visual.
Profundidade em STEM, especialmente matemática, física ou engenharia, com foco em verificabilidade e correção rigorosa.
Experiência com IA incorporada moderna ou agentes baseados em VLM, incluindo datasets de interação, avaliações embodied e interfaces de ferramentas, sensores e ações.
Pensamento sistêmico para simular APIs, schemas de dados e tarefas realistas com restrições de mundo real.

Benefícios

Trabalho remoto de qualquer lugar do Brasil.
Atuação direta com laboratórios de IA e empresas em projetos de pós-treinamento e design de ambientes RL.
Compensação competitiva.
Horários flexíveis.
Ambiente colaborativo com pessoas experientes em grandes empresas de tecnologia e startups.

Saiba mais em www.turing.com.