A Apple treinou uma IA que legenda imagens melhor do que modelos que multiplicam seu tamanho -

Os pesquisadores da Apple desenvolveram uma nova maneira de treinar modelos de IA para legendas de imagens que fornecem descrições mais precisas e detalhadas ao usar modelos muito menores. Aqui estão os detalhes.

O novo modelo poderia acelerar o treinamento de futuras IAs multimodais

Em um novo estudo intitulado RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning, uma equipe de pesquisadores da Apple colaborou com a Universidade de Wisconsin-Madison para desenvolver uma nova estrutura para um modelo denso de legendagem de imagens, produzindo resultados de última geração em vários benchmarks.

A legendagem densa de imagens é a tarefa de gerar descrições detalhadas em nível de região de tudo o que acontece em uma imagem, em vez de um único resumo geral.

Em outras palavras, ele identifica vários elementos e regiões em uma imagem e os descreve com detalhes refinados, resultando em uma compreensão muito mais rica da cena do que uma descrição geral.

Aqui estão alguns exemplos do artigo original de legendas densas de Stanford, DenseCap: Fully Convolutional Localization Networks for Dense Captioning:

A legenda densa de imagens pode ser usada para uma variedade de tarefas, como treinamento de linguagem visual e modelos de texto para imagem. Quando aplicado a recursos voltados para o usuário, pode melhorar a pesquisa de imagens e até mesmo as ferramentas de acessibilidade.

O problema, de acordo com os pesquisadores, é que as abordagens atuais baseadas em IA para treinar modelos densos de legendagem de imagens tendem a falhar em aspectos significativos:

A legendagem densa de imagens é crítica para o alinhamento intermodal no pré-treinamento da linguagem visual e na geração de texto para imagem, mas o dimensionamento de anotações com qualidade especializada é proibitivamente caro. Embora a legendagem sintética através de modelos de linguagem de visão fortes (VLMs) seja uma alternativa prática, a destilação supervisionada muitas vezes produz uma diversidade limitada de resultados e uma generalização fraca. A aprendizagem por reforço (RL) poderia superar estas limitações, mas os seus sucessos têm-se concentrado até agora em domínios verificáveis que dependem de verificadores determinísticos – um luxo não disponível na legendagem aberta.

Com isso em mente, propuseram um novo quadro para enfrentar estas limitações, que adoptou uma abordagem interessante.

Eles amostraram aleatoriamente 50.000 imagens de dois conjuntos de dados de treinamento, PixMoCap e DenseFusion-4V-100K.

Para cada imagem, o sistema gerou diversas opções de legenda usando um conjunto de modelos de linguagem de visão existentes, incluindo Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT e Qwen3-VL-30B-A3B-Instruct.

Ao mesmo tempo, o modelo treinado no RubiCap produziu sua própria legenda para aquela imagem.

Então, a RubiCap usou o Gemini 2.5 Pro para:

Analise a imagem junto com as legendas candidatas e a saída do próprio modelo;
Identificar o que os modelos concordaram e o que foi perdido ou deturpado;
Transforme isso em critérios claros para julgar as legendas.

Depois disso, Qwen2.5-7B-Instruct atuou como juiz, pontuando as legendas de acordo com cada critério para produzir o sinal de recompensa usado no treinamento.

Como resultado, o modelo recebeu feedback mais preciso e estruturado sobre o que corrigir, levando a legendas mais precisas sem depender de uma única resposta “correta”.

No final das contas, os pesquisadores produziram três modelos: RubiCap-2B, RubiCap-3B e RubiCap-7B, com 2 bilhões, 3 bilhões e 7 bilhões de parâmetros, respectivamente.

E, em comparação com as abordagens atuais, tiveram um desempenho surpreendentemente bom, superando modelos com até 72 mil milhões de parâmetros.

Do estudo:

Em extensos benchmarks, RubiCap alcança as mais altas taxas de vitória no CapArena, superando a destilação supervisionada, métodos RL anteriores, anotações de especialistas humanos e resultados aumentados por GPT-4V. No CaptionQA, ele demonstra eficiência de palavras superior: nosso modelo 7B corresponde ao Qwen2.5-VL-32B-Instruct e nosso modelo 3B supera seu equivalente 7B. Notavelmente, usar o RubiCap-3B compacto como legendador produz VLMs pré-treinados mais fortes do que aqueles treinados em legendas de modelos proprietários.

Em uma avaliação de classificação cega, RubiCap-7B obtém a maior proporção de atribuições de classificação 1 entre todos os modelos – incluindo fronteiras 72B e 32B – alcançando a menor penalidade de alucinação e a maior precisão.

Caso você tenha perdido isso, os pesquisadores notaram que o modelo menor, de 3 bilhões de parâmetros, superou seu equivalente maior em certos benchmarks, sugerindo que um modelo de legenda de imagem forte e denso não requer necessariamente uma escala massiva para fornecer resultados de alta qualidade.

Aqui estão algumas comparações de legendas entre RubiCap-7B-DenseFusion e Qwen2.5-VL-7B-Instruct: