O futuro dos aplicativos é a voz

fevereiro 4, 2026

Goste ou não, não há como voltar atrás: aplicativos e sistemas operacionais gravitarão constantemente em torno de interações que priorizam a voz.

Não é obrigatório, mas inevitável

Mas o problema é o seguinte: nenhum dos pontos que estou prestes a abordar significa que você será forçado a falar com seus dispositivos contra sua vontade, nem que a humanidade esteja tagarelando inconscientemente em direção a um futuro onde todo espaço compartilhado publicamente será inevitavelmente preenchido com uma cacofonia de nerds excessivamente dependentes e amantes da IA.

A GUI não irá desaparecer, assim como a calculadora não desapareceu após o lançamento do Lotus 1-2-3. Na verdade, ainda hoje você ainda pode comprar um ábaco, se quiser. Alguns são realmente muito caros.

Mas neste ponto, é absolutamente inevitável que tanto os desenvolvedores de aplicativos quanto os sistemas operacionais gravitem cada vez mais em torno de interações baseadas em voz.

E há boas razões para isso, sendo a mais óbvia a acessibilidade.

Com isso, não me refiro apenas aos usuários que não conseguem interagir fisicamente com seus dispositivos, embora isso por si só já seja fantástico. Também me refiro a usuários que não são tão conhecedores de tecnologia quanto você, mas que têm as mesmas necessidades, enquanto tentam navegar em telefones, computadores e plataformas que parecem funcionar sem esforço para todos os outros.

E se a sua reação instintiva é perceber esses usuários como preguiçosos, ou qualquer coisa nesse sentido, lamento dizer, mas você está perdendo o objetivo de toda a promessa da computação moderna.

Supõe-se que os avanços tecnológicos diminuam a barreira de entrada e ajudem as pessoas a chegar onde desejam, independentemente de quão familiarizadas estejam com qualquer coisa, desde o Terminal até o Safari.

Na verdade, a maior parte da existência da Apple baseou-se nessa mesma premissa, mesmo que a sua liderança ocasionalmente pareça esquecê-la.

Olá computador

Dito isso, aqui está outro grande motivo pelo qual uma abordagem que prioriza a voz é inevitável: a tecnologia subjacente real necessária para que isso funcione está finalmente ficando boa.

Sim, todo LLM ainda comete erros estúpidos, e é provável que sempre cometam, desde que sejam baseados nas atuais abordagens autorregressivas baseadas em Transformer.

Mas as empresas, os laboratórios de IA de ponta e até mesmo os desenvolvedores independentes estão aprendendo a contornar essas limitações ou migrando para arquiteturas totalmente diferentes, algumas das quais se mostram muito promissoras.

Durante o ano passado, houve um progresso significativo nas interfaces baseadas em voz, incluindo ferramentas como Wispr e Speechify, que tiveram uma taxa de adoção cada vez mais acentuada.

De acordo com o fundador e CEO da Wispr Flow, Tanay Kothari, seus usuários eventualmente chegam a um ponto em que a voz representa cerca de 75% de todas as entradas do produto. E entre usuários adultos, o uso do teclado cai para menos de 5%.

E eu comerei meu chapéu se eles não estiverem trabalhando em recursos de agente adequados para acompanhar suas ferramentas de ditado. Na verdade, o Speechify já está claramente caminhando nessa direção.

Além disso, não vamos esquecer o recente tsunami causado pelo OpenClaw, com verrugas e tudo, que explodiu completamente o que qualquer um esperava que os agentes autônomos pudessem fazer em breve. Na verdade, muitos usuários dependem de plataformas como a ElevenLabs para conversar em voz alta com seus agentes, alguns dos quais viram a API ElevenLabs ser implementada proativamente pelo próprio OpenClaw.

Qualquer pessoa que saiba do que está falando dirá como isso é notável, de novoverrugas e tudo.

A evolução nessa frente está acelerando

E é assim que as coisas estão acontecendo rápido: comecei a escrever este artigo há algum tempo, antes do OpenClaw se tornar o que é hoje.

Originalmente, eu havia escrito:

“(…) não demorará muito para que os aplicativos e sistemas operacionais se baseiem em estruturas autônomas, onde os usuários apenas dizem o que querem, e a IA lida com o significado, mapeia as etapas e executa essa ação em aplicativos prontos para agentes em nome do usuário.”

Acontece que realmente não era.

Originalmente, eu também pretendia encerrar o texto trazendo à tona coisas como o MCP da Anthropic, bem como os App Intents da Apple, para ilustrar como as peças que permitiriam interfaces prontas para voz estavam se encaixando. Eu ia até sugerir que poderíamos ver novidades nesse sentido em junho próximo, durante a WWDC.

Agora, embora eu ainda acredite que poderemos ver mais recursos, APIs e recursos orientados a voz em junho, até mesmo a noção de que eles dependerão do desenvolvedor está começando a parecer míope ou desatualizada.

Posso estar me esquecendo dos detalhes, mas acredito que seja John Gruber quem fala sobre como em algum lugar, possivelmente na Universidade Drexel, eles eventualmente pavimentaram o caminho que as pessoas esculpiram na grama porque era mais curto do que o caminho que os arquitetos haviam projetado.

Acredito sinceramente que, para muitos usuários, a voz é o caminho mais curto.

Desde fazer uma solicitação em um iPhone ou Mac e obter um atalho avançado em troca, até ajustar fotos, procurar e editar documentos ou até mesmo solicitar fluxos de trabalho de várias etapas em aplicativos, é cada vez mais óbvio que, à medida que a tecnologia finalmente se atualiza, a interface que a maioria dos usuários achará mais fácil de navegar não é nenhuma interface. Ou melhor, aquele que a humanidade vem refinando desde o primeiro grunhido.

Dito isso, ainda odeio quando as pessoas me enviam mensagens de voz.