A Apple lançou o Pico-Banana-400K, um conjunto de dados de estudo de 400.000 imagens com curadoria que, surpreendentemente, foi construído usando os designs Gemini-2.5 do Google. Abaixo estão as informações.
O grupo de estudo da Apple lançou uma pesquisa intrigante chamada “Pico-Banana-400K: Um grande conjunto de dados para modificação de imagens guiada por texto”.
Junto com a pesquisa, eles também lançaram o conjunto completo de dados de 400.000 imagens que criou, que possui um certificado de estudo não comercial. Isso significa que qualquer pessoa pode usá-lo e descobri-lo, desde que seja para trabalhos escolares ou fins de estudo de IA. Simplificando, não pode ser utilizado prontamente.
Certo, mas o que é isso?
Alguns meses antes, o Google lançou a versão Gemini-2.5-Flash-Image, também conhecida como Nanon-Banana, que talvez seja a mais avançada quando se trata de edição de imagens e aprimoramento de designs.
Vários outros designs também revelaram renovações consideráveis, mas, como afirmaram os cientistas da Apple:
“Independentemente desses avanços, o estudo aberto continua a ser restringido pela ausência de conjuntos de dados de edição e aprimoramento grandes, premium e totalmente compartilháveis. Os conjuntos de dados existentes geralmente dependem de gerações artificiais de designs exclusivos ou peças limitadas com curadoria humana. Além disso, esses conjuntos de dados exibem regularmente alterações de nomes de domínio, circulações desequilibradas de tipos de edição e garantia de qualidade irregular, impedindo o desenvolvimento de edição durável e designs de aprimoramento. ”
Então, a Apple decidiu fazer algo a respeito.
Estrutura Pico-Banana-400K
A primeira coisa que a Apple fez foi extrair um número indefinido de imagens originais do conjunto de dados OpenImages, “escolhidas para criar cobertura específica de pessoas, bens e cenas textuais”.
Sim, eles realmente utilizaram a Comic Sans
Em seguida, gerou uma lista de 35 tipos diferentes de alterações que um usuário poderia solicitar que a versão fizesse, organizada em 8 grupos. Por exemplo:
- Pixel e fotométrico: Adicionar granulação de filme ou filtro vintage
- Centrado no ser humano: Funko-Pop – número de brinquedo de design do indivíduo
- Estrutura da cena e multiassunto: Alterar o clima (ensolarado/chuvoso/nevado)
- Semântica em nível de objeto: Realocar uma coisa (modificar sua posição/conexão espacial)
- Escala: Ampliar
A seguir, os cientistas enviariam uma foto para o Nano-Banana, junto com alguns desses motivos. Quando o Nano-Banana terminasse de produzir a imagem modificada, os cientistas certamente fariam com que o Gemini-2.5-Pro verificasse o resultado, autorizando-o ou recusando-o, com base na conformidade com as diretrizes e na qualidade estética.

O resultado foi Pico-Banana-400K, que inclui fotos criadas por meio de edições de um único turno (um único pontual), séries de edição de vários turnos (vários motivos repetitivos) e conjuntos de opções contrastando resultados eficazes e insuficientes (para que os designs também possam descobrir como são os resultados desfavoráveis).

Embora reconheçam as restrições do Nano-Banana na edição e aprimoramento espacial refinado, projeção de formato e tipografia, os cientistas afirmam que desejam que o Pico-Banana-400K certamente funcione como “uma estrutura durável para treinar e avaliar a futura geração de edição de imagens guiada por texto e designs de aprimoramento”.
Você pode descobrir a pesquisa no arXiv, e o conjunto de dados é facilmente oferecido no GitHub.
Pechinchas de dispositivos na Amazon
FTC: Utilizamos links da web associados a veículos que geram receita. Extra.
.
Fuente



