Um novo estudo apoiado pela Apple, em colaboração com a Universidade de Aalto, na Finlândia, apresenta Iluvui: um modelo de linguagem visual treinado para entender as interfaces de aplicativos de captura de tela móvel e conversas de linguagem natural. Aqui está o que isso significa e como eles fizeram.
Iluvui: uma inteligência artificial na qual o modelo no qual se baseava foi baseado
No documento, Iluvui: Modelagem da Visão Linguística Ajustada à Educação das Conversas das Máquinas, a equipe enfrenta um desafio de longa data na interação humano-computador ou HCI: ensinar modelos de inteligência artificial a raciocinar em interfaces de usuário, como seres humanos, o que na prática significa visualmente, além de semanticamente.
“Compreender e automatizar as ações na UI é uma tarefa exigente, pois os elementos da interface do usuário em uma tela, como elementos de lista, caixas de controle e campos de texto, codificam muitos níveis de informação além do acesso apenas à interatividade. (…) LLM Em particular, a informação visual da interface do usuário.
Atualmente, como explicam os pesquisadores, a maioria dos modelos de linguagem visual é treinada em imagens naturais, como cães ou sinais de trânsito, portanto, eles não têm um bom desempenho quando solicitados a interpretar ambientes mais estruturados, como as UIs dos aplicativos:
“O cenário visual com informações textuais é importante para entender a UI, pois reflete quantos humanos se comprometem com o mundo. Uma abordagem que tentou preencher essa lacuna quando aplicada a imagens naturais são modelos em linguagem visual (VLM), que aceitam insumos multimodais dessas imagens, geralmente textos, para o desempenho, o desempenho para o desempenho.
Com isso em mente, os pesquisadores desenvolveram o código aberto da VLM LLAVA e também adaptaram seu método de treinamento para se especializar no domínio do usuário.
Eles o treinaram em pares de imagens de texto geradas brevemente após alguns “exemplos de ouro”. O conjunto de banco de dados final incluiu interações de estilo e descrições detalhadas na tela, resultados de ação esperados e mesmo em várias fases (como “Como ouvir o episódio mais recente de um podcast” Como alterar as configurações de brilho “.
Uma vez treinado nesse conjunto de dados, o modelo resultante, Iluvui, conseguiu exceder demais a llava original, tanto na referência da máquina quanto nos testes das preferências humanas.
Além disso, não exige que um usuário especifique uma região de interesse na interface. Em vez disso, o modelo inclui a tela inteira ao mesmo tempo que um prompt simples:
O iluvui (…) não requer uma região de interesse e aceita um prompt de texto como entrada e a imagem da interface do usuário, o que lhe permite fornecer respostas para usar casos como a resposta para a demanda visual.
Como os usuários se beneficiarão disso?
Os pesquisadores da Apple dizem que sua abordagem pode ser útil para a acessibilidade, bem como para testes automatizados de interface de usuário. Eles também observam que, embora o iluvui ainda seja baseado em componentes abertos, trabalhos futuros podem envolver os maiores codificadores da imagem, melhor gerenciamento dos formatos de resolução e saída que funcionam perfeitamente com a estrutura de interface do usuário existente, como o JSON.
E se você se mantiver atualizado com os documentos de pesquisa da IA da Apple, poderá pensar em uma pesquisa recente que os modelos de inteligência artificial não apenas entenderam, mas também antecipar as consequências das ações no aplicativo.
Junte os dois e as coisas começam a se tornar … interessantes, especialmente se você confiar na acessibilidade para navegar em seus dispositivos ou você simplesmente gostaria que o sistema operacional fosse capaz de gerenciar independentemente as partes mais suaves dos fluxos de trabalho no aplicativo.
Ofertas de unidade externa na Amazon
FTC: Usamos conexões de afiliação automática para obter renda. Além disso.