Início Tecnologia Apple detalha como ele treinou seus novos modelos AI: 4 destaques interessantes

Apple detalha como ele treinou seus novos modelos AI: 4 destaques interessantes

32
0
Apple Intelligence Chatgpt iOS 18 Cloud Private Calco

Durante o WWDC25, a Apple anunciou novas versões de seus modelos de fundação com base em dispositivos baseados em nuvem e baseados. Agora eles publicaram um relacionamento tecnológico que descreve em detalhes como esses modelos foram treinados, otimizados e avaliados. E o relacionamento inclui alguns pedaços realmente interessantes sob o capô.

Em um documento completo chamado “Apple Intelligence Foundation Language Models Report 2025”, a empresa percorre vários aspectos dos novos modelos, incluindo arquitetura, fontes de dados, pré-treinamento, pós-treinamento, desenvolvimento do uso da ferramenta, otimizações e benchmark.

Visão geral da modelagem para os modelos da Apple Foundation. Imagem: Apple

É uma leitura muito técnica, mas muito útil se você gosta de inserir nozes e parafusos desse tipo de coisa. Aqui estão alguns destaques particularmente interessantes.

O modelo local foi dividido em dois blocos

Já sabíamos que o modelo de davice da Apple (o que os desenvolvedores podem desenhar) tem cerca de 3 bilhões de parâmetros. Agora, a empresa detalhou que esse modelo está realmente dividido em dois blocos:

“O bloco 1 contém 62,5% das camadas do transformador total, enquanto o Bloco 2 contém os 37,5% restantes das camadas do transformador, mas removeu as projeções da chave e do valor”.

Na prática, isso significa que o modelo local requer 37,5% menos memória para o armazenamento no cache e o tempo necessário para produzir o primeiro token (basicamente, um fragmento de uma palavra) também foi reduzido em cerca de 37,5%. No entanto, a Apple estruturou a divisão para dizer que preserva o desempenho geral do modelo e a qualidade da saída.

Os modelos externos de maçã no dispositivo versus em parâmetros de referência representativos. Imagem: Apple

Como margem, alguns anos atrás, a Apple publicou este estudo, que examinou as partes de um LLM entre a RAM e o armazenamento flash, se necessário, para embalar um modelo local maior do que o que de outra forma teria se adaptado à memória do dispositivo.

Enquanto a Apple, no final, seguiu um caminho diferente, é interessante notar as diferentes maneiras pelas quais a empresa experimentou para oferecer boas performances locais, também em dispositivos com memória.

O modelo baseado em nuvem tem uma arquitetura criativa

Para seu modelo de servidor, a Apple criou uma arquitetura personalizada feita para medir para sua plataforma de cálculo de nuvem privada. É chamado de mistura de especialistas (pt-moe) (a maneira como funciona é bastante limpa.

Em resumo (e em risco de simplificar as coisas excessivamente), a mistura de especialistas é quando, em vez de depender de um enorme modelo de inteligência artificial, é dividido em sottopos menores (ou especialistas) que são ativados somente quando a tarefa está relacionada a algo que é … bem, um especialista.

Portanto, se o rápido diz respeito ao cozimento, apenas especialistas relacionados à cozinha são ativados, enquanto outros permanecem inativos. O resultado ainda é um modelo geral enorme, mas seu design modular permite que ele responda mais rapidamente (e geralmente com mais cuidado) do que se tudo funcionasse com o enorme modelo unificado, para cada prompt.

Aqui está uma mistura da IBM do Explicação de Especialistas, caso você tenha 8 minutos para salvar:

A Apple construiu um novo tipo de transformador chamado transformador de faixas paralelas; portanto, a redimensionou com camadas de mistura de especialistas (MOE). Parece muito complicado, mas a essência é:

Os transformadores tradicionais elaboram os tokens através de uma única pilha de estratios, uma após a outra. Mas, em vez de usar essa abordagem de faixa única para calcular cada token, o design da Apple divide o modelo em várias faixas paralelas. Cada traço elabora os tokens de forma independente e sincroniza apenas em determinados pontos.

Portanto, dentro de cada uma dessas faixas, a Apple substituiu qualquer outro nível de transformador normal por um nível MOE, que ativa apenas alguns especialistas para cada token, enquanto o restante permanece inativo. E como cada faixa possui seus especialistas locais, o modelo evita os gargalos de processamento que ocorrem quando tudo deve coordenar em todo o sistema.

Adicione a isso uma configuração inteligente que equilibra o contexto local com o entendimento de ótima imagem (chamada camadas de atenção global e intercalação local) e o resultado é um modelo muito modular, eficiente e escalável que é mais rápido e simplificado, mas ainda bastante inteligente.

A Apple aumentou a representação multilíngue em 275%

Uma das maiores fotos contra a implementação inicial da inteligência da Apple foi (e ainda é) um apoio linguístico limitado além do inglês. Com seus novos modelos, a Apple expandiu o suporte da linguagem e o documento descreve em detalhes as etapas que eles adotaram para fazê -lo.

De acordo com o documento, a Apple aumentou a quantidade de dados multilíngues usados durante o treinamento de 8% a 30%. Isso inclui teor orgânico e sintético.

A Apple também aumentou seu tokenizador (que é basicamente o vocabulário do token do modelo) em 50%. Isso significa que seu modelo agora conhece 150k tokens diferentes em comparação com 100k anterior.

A Companhia afirma que essas mudanças levaram a “ganhos significativos” no desempenho por meio de referência não britânica, especialmente após o desenvolvimento do aprendizado de reforço.

No deocument, a Apple explica que as avaliações foram realizadas usando os avisos escritos por falantes nativos (em vez de traduções) e o modelo foi testado tanto na precisão quanto em quanto suas respostas foram naturais nos contextos locais. Se isso parece familiar, você provavelmente leu nossa recente cobertura deste estudo da Apple Research.

Na prática, tudo isso significa que a funcionalidade como as ferramentas de redação deve funcionar mais confiável nos idiomas suportados.

Onde a Apple encontrou seus dados?

Como em seus primeiros modelos, a maioria dos dados de treinamento veio da varredura da web. Mas a Apple afirma que seu rastreador do Applebot respeita o Robot.txt exclusões, o que significa que, se um site não deseja que a Apple prenda seu conteúdo, ele pode dizer e o AppleBot o deixará em paz.

Dito isto, eis como a Apple afirma ter comprado os dados para seus novos modelos:

  • Dados da Web disponíveis ao público: Embora a Apple não especifique quantidades ou relacionamentos, ele diz que a maioria de seus dados de treinamento veio de páginas da web que travam o AppleBot. A Apple aplicou vários níveis de filtragem para remover conteúdo de baixa qualidade, inseguro ou irrelevante, incluindo páginas de spam, texto ou modelo de superfície e formatação quebrada.
  • Dados autorizados: A Apple não entra nos detalhes aqui, mas confirma que alguns dos dados de treinamento foram licenciados pelos editores. Relatórios anteriores haviam sugerido que a Apple estava negociando com Condé Nast (The New Yorker, Vogue, Wired etc.), NBC News e IAC (Revistas Populares, The Daily Beast e Melhores Casas e Jardins, etc.), portanto, é provável que pelo menos um pouco desse material tenha chegado.
  • Dados sintéticos: A Apple gerou dados sintéticos usando modelos menores e pipelines personalizados, em particular para matemática, desenvolvimento de instruções e atividades de idiomas. Embora a empresa também não especifique a quantidade de conjuntos de dados representados, observa que os dados sintéticos desempenharam um papel importante nas principais fases de treinamento, como o desenvolvimento, o aprendizado do reforço e a melhoria do suporte multilíngue. E se você está se perguntando quais dados sintéticos eles significam apenas “coisas inventadas”, temos uma explicação sobre por que não é assim.
  • Dados visuais: Para apoiar o entendimento da imagem, a Apple coletou mais de 10 bilhões de casais de imagem, incluindo telas com OCRs e notas manuscritas. Ele também usou seus modelos para gerar legendas adicionais e mais ricas. No passado, foi relatado que a Apple havia mantido licença com Shutterstock, por isso é possível que até um pouco desse material chegasse.

9to5mac de opinião

Não houve falta de notícias sobre o drama interno da Apple, as lutas técnicas e a incapacidade geral de obter o momento que ele precisa para preencher a lacuna (que alguns poderiam chamar de abismo) entre suas ofertas e concorrência de inteligência artificial. Tudo isso é verdade.

No entanto, o fato de a Apple ser amplamente percebida como por trás da IA não significa que a empresa seja firme. Este relatório oferece uma visão interessante de melhorias (e deficiências) sob o capô dos modelos mais recentes da Apple, juntamente com grandes detalhes sobre uma cuidadosa abordagem de privacidade que poucas empresas estão tentando.

FTC: Usamos conexões de afiliação automática para obter renda. Além disso.



Fuente