A Apple realizou um teste na App Store para ver se a IA poderia melhorar as classificações dos resultados de pesquisa

março 6, 2026

Os pesquisadores da Apple realizaram um teste A/B para medir como os rótulos de relevância gerados por IA afetariam as classificações de pesquisa da App Store e os downloads de aplicativos. Aqui está o que eles encontraram.

Os rótulos de relevância gerados por IA melhoraram ligeiramente as conversões de pesquisa na App Store

Em um novo estudo intitulado Dimensionando a relevância da pesquisa: aumentando a classificação da App Store com julgamentos gerados por LLM, um grupo de pesquisadores da Apple explorou se os LLMs poderiam ajudar a melhorar os resultados de pesquisa da App Store, gerando os rótulos de relevância usados para treinar o sistema de classificação.

Como explica o estudo, a relevância é obviamente fundamental para ajudar os usuários a encontrar os aplicativos que procuram. E embora existam muitos sinais que podem contribuir para a classificação da pesquisa, os pesquisadores se concentraram em dois principais:

Relevância comportamentalque reflete como os usuários interagem com os resultados, por exemplo, se eles tocam ou baixam um aplicativo.
Relevância textualque mede até que ponto os metadados de um aplicativo (como nome, descrição e palavras-chave) correspondem semanticamente à consulta de pesquisa de um usuário.

No estudo, os pesquisadores dizem que embora existam muitos dados disponíveis sobre a relevância comportamental (já que podem ser facilmente medidos), o mesmo não se aplica à relevância textual:

Embora os rótulos de relevância comportamental sejam abundantes, os rótulos de relevância textual gerados por juízes humanos são muito mais raros. Isto cria um problema fundamental: rótulos de relevância textual de alta qualidade são escassos e caros de produzir, criando um gargalo de escalabilidade e deixando o objetivo de relevância textual subpotenciado no treinamento multiobjetivo.

Para resolver este problema, os investigadores aperfeiçoaram um LLM de 3 mil milhões de parâmetros sobre julgamentos humanos existentes para que pudesse aprender a atribuir rótulos de relevância a aplicações com base na consulta de pesquisa de um utilizador e nos metadados da aplicação.

Em seguida, eles geraram milhões de novos rótulos de relevância com esse modelo e treinaram novamente o sistema de classificação da App Store usando os dados originais e os rótulos gerados pelo LLM.

Feito isso, eles fizeram uma avaliação offline, seguida por um teste A/B mundial no tráfego ao vivo da App Store:

“(…) o modelo llm aumentado demonstrou um aumento estatisticamente significativo de +0,24% em nossa métrica primária, taxa de conversão, definida como a proporção de sessões de pesquisa com pelo menos um download de aplicativo. Embora esse número possa parecer pequeno, ele é considerado uma melhoria significativa para um classificador industrial maduro. Esse ganho foi observado em 89% das vitrines.”

Em outras palavras, os usuários que viram os resultados da pesquisa classificados usando o modelo aumentado de LLM baixaram pelo menos um aplicativo 0,24% mais frequentemente do que os usuários que viram os resultados da pesquisa apresentados pelo modelo de classificação tradicional.

E embora 0,24% seja obviamente um aumento muito pequeno, ele aumenta rapidamente quando consideramos que a maioria das estimativas fixa o total de downloads da App Store em 2025 em cerca de 38 bilhões. Na prática, isso poderia se traduzir em dezenas de milhões de downloads adicionais de pesquisas na App Store, o que os desenvolvedores certamente apreciariam.

Para ler o estudo completo, acesse este link.