OpenAI tem novos modelos de voz que raciocinam, traduzem e transcrevem enquanto você fala -

A OpenAI acaba de lançar três novos modelos de voz em tempo real que, segundo ela, “desbloquearão uma nova classe de aplicativos de voz para desenvolvedores”. Cada novo modelo de inteligência de voz possui uma especialidade única para finalidades diferentes.

Os desenvolvedores podem criar novas experiências de aplicativos com os três novos modelos de voz da OpenAI

Existem três novos modelos de voz OpenAI para finalidades diferentes, incluindo raciocínio, tradução e transcrição.

Aqui está o que a empresa anunciou hoje:

GPT‑Realtime‑2nosso primeiro modelo de voz com raciocínio de classe GPT‑5 que pode lidar com solicitações mais difíceis e levar a conversa adiante naturalmente.
GPT‑Realtime‑Traduçãoum novo modelo de tradução ao vivo que traduz a fala de mais de 70 idiomas de entrada em 13 idiomas de saída, acompanhando o ritmo do locutor.
GPT‑Realtime‑Whisperum novo streaming de voz para texto que transcreve a fala ao vivo enquanto o locutor fala.

OpenAI explica com mais detalhes o que há de novo no modelo de voz GPT-Realtime-2 classe GPT-5 com raciocínio:

O GPT‑Realtime‑2 foi desenvolvido para interações de voz ao vivo, nas quais o modelo mantém a conversa em andamento enquanto raciocina por meio de uma solicitação, chama ferramentas, lida com correções ou interrupções e responde da maneira que se adapta ao momento.

Enquanto isso, o novo modelo de voz de tradução suporta “70 idiomas de entrada e 13 idiomas de saída”, afirma a empresa.

Por último, existe o modelo de transcrição em tempo real:

GPT‑Realtime‑Whisper é um novo modelo de transcrição de streaming desenvolvido para conversão de fala em texto de baixa latência. Ele transcreve o áudio enquanto as pessoas falam, para que os produtos ao vivo possam parecer mais rápidos, mais responsivos e mais naturais, desde legendas que aparecem no momento até anotações de reuniões que acompanham a conversa.

Todos os três novos modelos de voz estão incluídos na API Realtime da OpenAI, afirma a empresa, com este preço:

GPT‑Realtime‑2 custa US$ 32/1 milhão de tokens de entrada de áudio (US$ 0,40 para tokens de entrada em cache) e US$ 64/1 milhão de tokens de saída de áudio.
O GPT‑Realtime‑Translate custa US$ 0,034 por minuto.
O GPT‑Realtime‑Whisper custa US$ 0,017 por minuto.

Você pode testar os novos modelos de voz em tempo real no Playground⁠. Se você tiver o Codex instalado, clique em enviar no prompt abaixo para adicionar GPT‑Realtime‑2 ao seu aplicativo existente ou criar um novo aplicativo com ele.

Você pode aprender mais sobre os modelos de voz mais recentes da OpenAI e como as empresas já estão usando a nova tecnologia aqui.

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.

Fuente