Nova IA de voz da Amazon capta emoção, sotaque e custa 80% a menos que o ChatGPT

amazon,ia,Inteligência Artificial,Nova Sonic,Lançamento

A Amazon anunciou na última terça-feira (8) o lançamento do Nova Sonic, um modelo de inteligência artificial de voz que promete mudar o padrão das interações por áudio entre humanos e máquinas.

Com capacidade de compreender nuances da fala em tempo real, pronúncias incorretas, sotaques e até emoções, o Nova Sonic é 80% mais barato e, em diversos aspectos, mais preciso que o ChatGPT-4o, da OpenAI, hoje o principal concorrente no mercado de IAs generativas.

Desenvolvido para funcionar como um modelo de fala para fala (speech-to-speech), o Nova Sonic se diferencia ao integrar reconhecimento de fala, processamento de linguagem e síntese vocal em uma única arquitetura.

Isso permite uma fluidez de conversa difícil de ser alcançada por sistemas tradicionais, que operam com modelos separados para cada etapa da comunicação.

A unificação técnica dá ao sistema a capacidade de manter o tom, a emoção e o ritmo da fala original, entregando uma experiência que se aproxima da conversa humana.

API da Bedrock garante resposta em tempo real com menor latência

A tecnologia está disponível por meio de uma API de streaming bidirecional dentro da plataforma Amazon Bedrock, voltada à construção de soluções corporativas com inteligência artificial.

Essa API possibilita interações contínuas em tempo real, respondendo ao usuário no momento certo, sem interrupções ou atrasos.

Em testes, o Nova Sonic respondeu comandos em apenas 1,09 segundo após o fim da fala, tempo inferior ao apresentado pelo ChatGPT-4o, que registrou 1,18 segundo na mesma tarefa.

Precisão em ambientes barulhentos e múltiplos idiomas

A Amazon afirma que o modelo também supera a concorrência na compreensão da fala em ambientes adversos, como locais barulhentos ou com pronúncia imprecisa, algo essencial para aplicações comerciais.

No benchmark LibriSpeech, que testa a acurácia de sistemas de reconhecimento de voz em diferentes idiomas, o Nova Sonic registrou uma taxa de erro de apenas 4,2% em inglês, francês, espanhol, italiano e alemão.

Já no teste Augmented Multi Party Interaction, que simula interações com múltiplos participantes, o modelo foi 46,7% mais preciso que o ChatGPT-4o.

IA entende o contexto e escolhe como responder

Outro diferencial está na forma como o Nova Sonic decide quais recursos acionar para responder. Ele é capaz de rotear inteligentemente cada solicitação: se a consulta exige informações externas, o sistema recorre à internet; se envolve dados internos da empresa, busca no banco de dados; se a tarefa exige ação, aciona uma API externa.

Esse comportamento adaptativo, segundo a Amazon, é um passo em direção à IA agente, capaz de interagir com diferentes sistemas para executar comandos complexos.

Embora o modelo esteja, por enquanto, otimizado para vozes masculinas e femininas com sotaques americanos e britânicos, ele já pode ser aplicado em uma ampla gama de serviços.

Entre os usos previstos estão o atendimento automatizado por voz em call centers, assistentes pessoais interativos, campanhas de marketing com áudio gerado por IA, e até plataformas educacionais e de aprendizagem de idiomas.

O Nova Sonic também está sendo implementado na Alexa+, nova versão do assistente inteligente da Amazon.

IA responsável com proteção contra abusos e deepfakes

No campo da segurança e ética, o modelo inclui sistemas de moderação de conteúdo e watermarking (marca d’água digital), mecanismos que ajudam a evitar uso indevido e identificar conteúdos gerados pela IA.

A companhia afirma que desenvolveu o sistema com princípios de IA responsável, prevendo desde o início camadas de proteção contra abusos e desinformação.

Para Rohit Prasad, cientista-chefe da divisão de Inteligência Artificial Geral (AGI) da Amazon, o Nova Sonic representa um avanço significativo na integração entre linguagem, emoção e ação.

Ele afirma que o modelo é capaz de reconhecer o estado emocional do usuário, como frustração ou entusiasmo, e adaptar a resposta em tom e ritmo.

“Estamos diante de uma IA que escuta e responde como um humano, mas com a velocidade e precisão de uma máquina”, disse Prasad durante a apresentação.

Ao oferecer um modelo mais rápido, mais expressivo e mais barato que os principais concorrentes, a empresa coloca pressão sobre OpenAI, Google e Microsoft em uma disputa cada vez mais centrada na voz como interface dominante entre humanos e sistemas inteligentes.

Leia mais:

  • Eleições 2026: conheça os números da mais nova pesquisa realizada em Manaus
  • Indústria do Amazonas cresce 0,9% e estado ocupa o 5º lugar no ranking nacional, diz IBGE
Adicionar aos favoritos o Link permanente.