Início Tecnologia Pesquisadores da Apple desenvolvem agente de IA no dispositivo que interage com...

Pesquisadores da Apple desenvolvem agente de IA no dispositivo que interage com aplicativos para você

25
0
O Reddit é spampado pelos robôs da IA, e é tudo culpa do Reddit | Imagem conceitual de uma fileira de robôs poderosos

Apesar de ter apenas 3 bilhões de parâmetros, o Ferret-UI Lite iguala ou supera o desempenho de referência de modelos até 24 vezes maiores. Aqui estão os detalhes.

Um pouco de história sobre Ferret

Em dezembro de 2023, uma equipe de 9 pesquisadores publicou um estudo chamado “FERRET: Refer and Ground Anything Anywhere at Any Granularity”. Nele, eles apresentaram um modelo multimodal de linguagem grande (MLLM) que era capaz de compreender referências de linguagem natural a partes específicas de uma imagem:

Imagem: Maçã

Desde então, a Apple publicou uma série de artigos de acompanhamento expandindo a família de modelos Ferret, incluindo Ferretv2, Ferret-UI e Ferret-UI 2.

Especificamente, Furão-UI variantes expandiram as capacidades originais do FERRET e foram treinadas para superar o que os pesquisadores definiram como uma deficiência dos MLLMs de domínio geral.

Do artigo original do Ferret-UI:

Avanços recentes em modelos multimodais de grandes linguagens (MLLMs) têm sido dignos de nota, mas esses MLLMs de domínio geral muitas vezes ficam aquém de sua capacidade de compreender e interagir de forma eficaz com as telas da interface do usuário (IU). Neste artigo, apresentamos Ferret-UI, um novo MLLM adaptado para melhorar a compreensão das telas de UI móveis, equipado com recursos de referência, fundamentação e raciocínio. Dado que as telas de UI normalmente exibem uma proporção de aspecto mais alongada e contêm objetos de interesse menores (por exemplo, ícones, textos) do que imagens naturais, incorporamos “qualquer resolução” no topo do Ferret para ampliar detalhes e aproveitar recursos visuais aprimorados.

Imagem: MaçãO estudo original do Ferret-UI incluía uma aplicação interessante da tecnologia, onde o usuário poderia conversar com o modelo para entender melhor como interagir com a interface, como pode ser visto à direita.

Há alguns dias, a Apple expandiu ainda mais a família de modelos Ferret-UI, com um estudo chamado Ferret-UI Lite: Lições da construção de pequenos agentes GUI no dispositivo.

Ferret-UI foi construído em um modelo de parâmetros 13B, que se concentrava principalmente na compreensão da UI móvel e em capturas de tela de resolução fixa. Enquanto isso, o Ferret-UI 2 expandiu o sistema para suportar múltiplas plataformas e percepção de alta resolução.

Por outro lado, o Ferret-UI Lite é um modelo muito mais leve, projetado para ser executado no dispositivo, enquanto permanece competitivo com agentes GUI significativamente maiores.

Furão-UI Lite

De acordo com os pesquisadores do novo artigo, “a maioria dos métodos existentes de agentes GUI (…) concentram-se em grandes modelos de base”. Isso ocorre porque “as fortes capacidades de raciocínio e planejamento de grandes modelos do lado do servidor permitem que esses sistemas de agente alcancem capacidades impressionantes em diversas tarefas de navegação GUI”.

Eles observam que, embora tenha havido muito progresso em sistemas GUI multiagentes e de ponta a ponta, que adotam abordagens diferentes para agilizar as muitas tarefas que envolvem interação de agentes com GUIs (“aterramento de GUI de baixo nível, compreensão de tela, planejamento em várias etapas e autorreflexão”), eles são basicamente muito grandes e exigem muita computação para funcionar bem no dispositivo.

Então, eles decidiram desenvolver o Ferret-UI Lite, uma variante de 3 bilhões de parâmetros do Ferret-UI, que “é construída com vários componentes principais, guiados por insights sobre o treinamento de modelos de linguagem em pequena escala”.

Aproveitamentos do Ferret-UI Lite:

  • Dados de treinamento reais e sintéticos de vários domínios GUI;
  • Técnicas de corte e zoom em tempo real (ou em tempo de inferência) para entender melhor segmentos específicos da GUI;
  • Técnicas supervisionadas de ajuste fino e aprendizagem por reforço.

O resultado é um modelo que se aproxima ou até supera os modelos de agentes GUI concorrentes que têm até 24 vezes sua contagem de parâmetros.

Imagem: Maçã

Embora toda a arquitetura (que é minuciosamente detalhada no estudo) seja interessante, as técnicas de corte e zoom em tempo real são particularmente dignas de nota.

O modelo faz uma previsão inicial, recorta em torno dela e, em seguida, faz uma nova previsão naquela região recortada. Isso ajuda um modelo tão pequeno a compensar sua capacidade limitada de processar um grande número de tokens de imagem.

Imagem: Maçã

Outra contribuição notável do artigo é como o Ferret-UI Lite basicamente gera seus próprios dados de treinamento. Os pesquisadores construíram um sistema multiagente que interage diretamente com plataformas GUI ao vivo para produzir exemplos de treinamento sintético em escala.

Existe um gerador de tarefas curriculares que propõe metas de dificuldade crescente, um agente de planejamento as divide em etapas, um agente de fundamentação as executa na tela e um modelo crítico avalia os resultados.

Imagem: Maçã

Com esse pipeline, o sistema de treinamento captura a imprecisão da interação do mundo real (como erros, estados inesperados e estratégias de recuperação), o que seria muito mais desafiador de fazer enquanto se confia em dados limpos e anotados por humanos.

Curiosamente, enquanto o Ferret-UI e o Ferret-UI 2 usaram capturas de tela do iPhone e outras interfaces da Apple em suas avaliações, o Ferret-UI Lite foi treinado e avaliado em ambientes Android, web e GUI de desktop, usando benchmarks como AndroidWorld e OSWorld.

Os pesquisadores não observam explicitamente por que escolheram essa rota para o Ferret-UI Lite, mas provavelmente reflete onde os testes de agentes GUI reproduzíveis e em grande escala estão disponíveis hoje.

Seja como for, os pesquisadores descobriram que, embora o Ferret-UI Lite tenha um bom desempenho em tarefas de baixo nível e de horizonte curto, ele não teve um desempenho tão forte em interações mais complicadas e de várias etapas, uma compensação que seria amplamente esperada, dadas as restrições de um modelo pequeno no dispositivo.

Por outro lado, o Ferret-UI Lite oferece um agente local e, por extensão, privado (já que nenhum dado precisa ir para a nuvem e ser processado em servidores remotos) que interage de forma autônoma com interfaces de aplicativos com base nas solicitações do usuário, o que, segundo todos os relatos, é muito legal.

Para saber mais sobre o estudo, incluindo análises e resultados de benchmark, siga este link.

Ofertas de acessórios na Amazon

Adicione 9to5Mac como fonte preferencial no Google
Adicione 9to5Mac como fonte preferencial no Google

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.



Fuente