Uma nova atualização de voz do ChatGPT tornou a interação com o chatbot muito mais flexível do que costumava ser, e acho que é um exemplo de uma das principais coisas que podemos esperar do novo Siri.
Embora a mudança do OpenAI possa parecer relativamente pequena superficialmente, já estou descobrindo que ela transforma completamente a experiência de usar o ChatGPT…
Texto para voz
Quando o ChatGPT foi lançado, era apenas texto. Mais tarde, expandir a funcionalidade para interações por voz teve dois impactos.
Primeiro, fez com que o chatbot parecesse ainda mais imitar um ser humano. Esse é um tópico próprio, mas estou com Dave Winer e John Gruber ao pensar que esse não deveria ser o objetivo de um chatbot. (A OpenAI pelo menos recuou de uma versão que priorizava a facilidade em vez da precisão.)
Em segundo lugar, melhorou a usabilidade. Obviamente, é mais rápido e conveniente simplesmente falar com uma IA do que digitar e ler respostas escritas, pelo menos para certos tipos de interação.
No entanto, há momentos em que a interação visual e de texto é mais apropriada e, embora tenha sido ótimo ter a escolha, pode ser frustrante quando você consegue realizar 95% do trabalho com voz, mas depois precisa mudar para texto para coisas como pedir ao ChatGPT para criar uma imagem.
Isso era especialmente verdadeiro porque os dois modos eram distintos e parecia que você estava interagindo com dois modelos ChatGPT totalmente separados – uma voz, o outro texto.
Integrando os dois
A atualização mais recente do ChatGPT integra interações de texto e voz.
Agora você pode usar o ChatGPT Voice diretamente no chat – não é necessário um modo separado. Você pode conversar, ver as respostas aparecerem, revisar mensagens anteriores e ver recursos visuais como imagens ou mapas em tempo real.
Suspeito que uma das coisas que está demorando mais do que o esperado para a Apple é fornecer exatamente esse tipo de integração. Efetivamente, a empresa está fazendo o contrário: a Siri foi lançada como um serviço somente de voz e a Apple Intelligence agora adicionou recursos baseados em texto, como resumir e-mails.
A OpenAI parece estar enfrentando alguns dos desafios de realizar esse tipo de integração. Nos meus testes iniciais, às vezes funciona extremamente bem e outras vezes não. Por exemplo, eu experimentei a afirmação de ter me mostrado um mapa, mas na verdade não o fez.
Este é o futuro do novo Siri
Se a Siri quiser cumprir todas as promessas que a Apple fez, precisará fazer exatamente isso e muito mais.
Precisaremos ser capazes de dar-lhe instruções de voz e fazer com que ele não apenas dê respostas faladas, mas também manipule texto e imagens.
Além disso, ele precisará atuar como um agente inteligente ao interagir com nossos aplicativos instalados. Daremos a ele uma instrução como “Reserve o primeiro voo amanhã de manhã de Heathrow para Las Vegas” e ele usará todos os aplicativos de viagem que instalamos para realizar essa tarefa.
Mas a Apple pode acabar subcontratando
Fornecer esses recursos não é uma tarefa fácil. Meu júri ainda não decidiu qual a probabilidade de a Apple alcançar não apenas onde os chatbots de IA estão hoje, mas também onde eles estarão quando o novo Siri for lançado. Eu acho que é muito provável que a Apple tenha que subcontratar recursos de IA para outras empresas.
Pessoalmente, não me importa se a tecnologia usada é desenvolvida internamente pela Apple ou delegada à tecnologia de IA fornecida pela OpenAI, Google ou qualquer outra pessoa. O que me importa são duas coisas.
Primeiro, a Apple protege nossa privacidade por meio de interfaces personalizadas com chatbots de terceiros, exatamente da mesma forma que faz hoje com o ChatGPT. Quando fazemos uma pergunta que a Siri não consegue responder e ela recorre ao ChatGPT, nossas interações nunca são usadas pela OpenAI para treinamento porque essa proteção de privacidade faz parte do que a Apple concordou com a empresa.
Em segundo lugar, a rapidez com que a Apple consegue fornecer esta inteligência aos seus dispositivos. O próximo ano é absolutamente o limite de quanto tempo podemos esperar. Se atingir esse prazo significa que o que está por trás do novo Siri é uma versão personalizada do ChatGPT, Gemini ou algo totalmente diferente, para mim está tudo bem.
Qual é a sua opinião sobre isso? Por favor, compartilhe suas idéias nos comentários.
Acessórios em destaque
FTC: Usamos links de afiliados automotivos para geração de renda. Mais.




