
A Amazon anunciou na última terça-feira (8) o lançamento do Nova Sonic, um modelo de inteligência artificial de voz que promete mudar o padrão das interações por áudio entre humanos e máquinas.
Com capacidade de compreender nuances da fala em tempo real, pronúncias incorretas, sotaques e até emoções, o Nova Sonic é 80% mais barato e, em diversos aspectos, mais preciso que o ChatGPT-4o, da OpenAI, hoje o principal concorrente no mercado de IAs generativas.
Desenvolvido para funcionar como um modelo de fala para fala (speech-to-speech), o Nova Sonic se diferencia ao integrar reconhecimento de fala, processamento de linguagem e síntese vocal em uma única arquitetura.
Isso permite uma fluidez de conversa difícil de ser alcançada por sistemas tradicionais, que operam com modelos separados para cada etapa da comunicação.
A unificação técnica dá ao sistema a capacidade de manter o tom, a emoção e o ritmo da fala original, entregando uma experiência que se aproxima da conversa humana.
API da Bedrock garante resposta em tempo real com menor latência
A tecnologia está disponível por meio de uma API de streaming bidirecional dentro da plataforma Amazon Bedrock, voltada à construção de soluções corporativas com inteligência artificial.
Essa API possibilita interações contínuas em tempo real, respondendo ao usuário no momento certo, sem interrupções ou atrasos.
Em testes, o Nova Sonic respondeu comandos em apenas 1,09 segundo após o fim da fala, tempo inferior ao apresentado pelo ChatGPT-4o, que registrou 1,18 segundo na mesma tarefa.
Precisão em ambientes barulhentos e múltiplos idiomas
A Amazon afirma que o modelo também supera a concorrência na compreensão da fala em ambientes adversos, como locais barulhentos ou com pronúncia imprecisa, algo essencial para aplicações comerciais.
No benchmark LibriSpeech, que testa a acurácia de sistemas de reconhecimento de voz em diferentes idiomas, o Nova Sonic registrou uma taxa de erro de apenas 4,2% em inglês, francês, espanhol, italiano e alemão.
Já no teste Augmented Multi Party Interaction, que simula interações com múltiplos participantes, o modelo foi 46,7% mais preciso que o ChatGPT-4o.
IA entende o contexto e escolhe como responder
Outro diferencial está na forma como o Nova Sonic decide quais recursos acionar para responder. Ele é capaz de rotear inteligentemente cada solicitação: se a consulta exige informações externas, o sistema recorre à internet; se envolve dados internos da empresa, busca no banco de dados; se a tarefa exige ação, aciona uma API externa.
Esse comportamento adaptativo, segundo a Amazon, é um passo em direção à IA agente, capaz de interagir com diferentes sistemas para executar comandos complexos.
Embora o modelo esteja, por enquanto, otimizado para vozes masculinas e femininas com sotaques americanos e britânicos, ele já pode ser aplicado em uma ampla gama de serviços.
Entre os usos previstos estão o atendimento automatizado por voz em call centers, assistentes pessoais interativos, campanhas de marketing com áudio gerado por IA, e até plataformas educacionais e de aprendizagem de idiomas.
O Nova Sonic também está sendo implementado na Alexa+, nova versão do assistente inteligente da Amazon.
IA responsável com proteção contra abusos e deepfakes
No campo da segurança e ética, o modelo inclui sistemas de moderação de conteúdo e watermarking (marca d’água digital), mecanismos que ajudam a evitar uso indevido e identificar conteúdos gerados pela IA.
A companhia afirma que desenvolveu o sistema com princípios de IA responsável, prevendo desde o início camadas de proteção contra abusos e desinformação.
Para Rohit Prasad, cientista-chefe da divisão de Inteligência Artificial Geral (AGI) da Amazon, o Nova Sonic representa um avanço significativo na integração entre linguagem, emoção e ação.
Ele afirma que o modelo é capaz de reconhecer o estado emocional do usuário, como frustração ou entusiasmo, e adaptar a resposta em tom e ritmo.
“Estamos diante de uma IA que escuta e responde como um humano, mas com a velocidade e precisão de uma máquina”, disse Prasad durante a apresentação.
Ao oferecer um modelo mais rápido, mais expressivo e mais barato que os principais concorrentes, a empresa coloca pressão sobre OpenAI, Google e Microsoft em uma disputa cada vez mais centrada na voz como interface dominante entre humanos e sistemas inteligentes.
Leia mais:
- Eleições 2026: conheça os números da mais nova pesquisa realizada em Manaus
- Indústria do Amazonas cresce 0,9% e estado ocupa o 5º lugar no ranking nacional, diz IBGE