A Apple pode estar em último lugar na corrida da IA – pelo menos quando você considera a concorrência de empresas como OpenAI, Google e Meta – mas isso não significa que a empresa não esteja trabalhando na tecnologia. Na verdade, parece que a maior parte do trabalho que a Apple faz em IA ocorre nos bastidores: embora a Apple Intelligence esteja lá, os pesquisadores da empresa estão trabalhando em outras maneiras de melhorar os modelos de IA para todos, não apenas para os usuários da Apple. O projeto mais recente? Melhorando os editores de imagens de IA com base em prompts de texto.
Em um artigo publicado na semana passada, os pesquisadores apresentaram o Pico-Banana-400K, um conjunto de dados de 400.000 imagens “guiadas por texto” selecionadas para melhorar a edição de imagens baseada em IA. A Apple acredita que seu conjunto de dados de imagens melhora os conjuntos existentes ao incluir imagens de maior qualidade com mais diversidade: os pesquisadores descobriram que os conjuntos de dados existentes usam imagens produzidas por modelos de IA ou não são suficientemente variados, o que pode dificultar os esforços para melhorar os modelos.
Curiosamente, o Pico-Banana-400K foi projetado para funcionar com o Nano Banana, modelo de edição de imagens do Google. Os pesquisadores dizem que usando o Nano Banana, seu conjunto de dados pode gerar 35 tipos diferentes de edições, bem como aproveitar o Gemini-2.5-Pro para avaliar a qualidade das edições e se essas edições devem permanecer como parte do conjunto de dados geral.
Como parte dessas 400.000 imagens, há 258.000 amostras de edições únicas (onde a Apple compara as imagens originais com uma com edições); 56.000 “pares de preferência”, que distinguem entre gerações de edição malsucedidas e bem-sucedidas; e 72.000 “sequências multi-voltas”, que passam por duas a cinco edições.
Os pesquisadores observam que diferentes funções tiveram diferentes taxas de sucesso neste conjunto de dados. As edições globais e a estilização são “fáceis”, alcançando as mais altas taxas de sucesso; a semântica do objeto e o contexto da cena são “moderados”; enquanto geometria, layout e tipografia precisos são “difíceis”. A função de maior desempenho, “forte transferência de estilo artístico”, que pode incluir a mudança do estilo de uma imagem para “Van Gogh” ou anime, tem uma taxa de sucesso de 93%. A função de desempenho mais baixo, “alterar o estilo da fonte ou a cor do texto visível se houver texto”, teve sucesso apenas em 58% das vezes. Outras funções testadas incluem “adicionar novo texto” (taxa de sucesso de 67%), “aumentar zoom” (taxa de sucesso de 74%) e “adicionar granulação de filme ou filtro vintage” (taxa de sucesso de 91%).
Ao contrário de muitos produtos da Apple, que normalmente são fechados às plataformas da própria empresa, o Pico-Banana-400K está aberto para uso de todos os pesquisadores e desenvolvedores de IA. É legal ver os pesquisadores da Apple contribuindo para pesquisas abertas como essa, especialmente em uma área em que a Apple geralmente está atrasada. Teremos realmente um Siri com tecnologia de IA em breve? Não está claro. Mas está claro que a Apple está trabalhando ativamente na IA, talvez à sua maneira.



