Avance nossa stack de voz em tempo real com avaliação robusta, análises e insights de modelos.
Você analisará trade-offs de latência/qualidade, criará métricas perceptuais e trabalhará com engenharia para otimizar loops de reconhecimento/síntese de fala para experiências de agentes ao vivo.
Visão Geral da Função
- Projetar avaliações offline e ao vivo para latência, estabilidade e qualidade de fala.
- Analisar sessões de usuários para descobrir atritos e impulsionar melhorias.
- Desenvolver métricas e dashboards que reflitam qualidade percebida.
- Prototipar pipelines de dados para treinamento/ajuste fino quando necessário.
- Colaborar com pesquisa e infraestrutura para iterar rápido e com segurança.
Requisitos
- 3+ anos em DS/ML para fala, áudio ou sistemas em tempo real.
- Forte Python, ferramentas de dados (pandas, numpy) e rigor em experimentação.
- Experiência definindo e validando métricas perceptuais.
- Capacidade de comunicar insights claramente para parceiros multifuncionais.
Diferenciais
- Experiência com ASR/TTS streaming, WebRTC, ou know-how de VAD/diarização.
- Familiaridade com estruturas de avaliação e rotulagem human-in-the-loop.
Pronto para se candidatar?
Envie seu LinkedIn/GitHub e uma breve mensagem. Revisamos todas as candidaturas.
Prefere outra vaga? Voltar para todas as vagas