Os novos modelos básicos da Apple explicados: IA no dispositivo, IA na nuvem e tudo mais -

Durante a palestra WWDC26, a Apple anunciou sua terceira geração de Apple Foundation Models (AFM), composta por cinco modelos, alguns dos quais são locais, alguns dos quais são baseados em nuvem e um dos quais reside nos servidores do Google rodando em chips Nvidia. Aqui está um resumo de como isso funcionará.

Um pouco de fundo

Quando a Apple anunciou pela primeira vez seus modelos básicos em 2024, a linha incluía um modelo de linguagem no dispositivo com cerca de 3 bilhões de parâmetros e “um modelo de linguagem maior baseado em servidor disponível com computação em nuvem privada e rodando em servidores de silício da Apple”, como a empresa disse na época.

A computação em nuvem privada foi um empreendimento ambicioso, pois visava fornecer recursos de IA baseados em nuvem, preservando ao mesmo tempo as mesmas garantias de privacidade que os usuários esperam do processamento no dispositivo.

Por isso, manter tudo internamente era fundamental. A computação em nuvem privada foi executada em data centers da Apple, em servidores alimentados por silício da Apple. Mesmo assim, as suas garantias de privacidade poderiam ser verificadas de forma independente por investigadores de segurança terceiros.

No entanto, enquanto a Apple lutava para concretizar suas aspirações de IA, a empresa fez parceria com o Google para usar o Gemini como a espinha dorsal de seus novos esforços de IA, cujos resultados foram anunciados no início desta semana durante a palestra WWDC26.

Os novos modelos básicos da Apple

A terceira geração de AFMs inclui cinco modelos: Núcleo AFM 3 e Código AFM 3 Avançadoque são modelos no dispositivo, e Nuvem AFM, Nuvem ADM 3 (imagem)e AFM 3 Nuvem Proque são baseados em servidor. O D em ADM 3 Cloud (Imagem) significa difusão, uma tecnologia que abordamos aqui no passado.

Exceto o AFM 3 Cloud Pro, todos os outros modelos foram desenvolvidos para rodar em dispositivos de silício da Apple. Enquanto isso, o AFM 3 Cloud Pro é executado em GPUs NVIDIA hospedadas no Google Cloud.

Isso foi possível depois que a Apple estendeu pela primeira vez sua arquitetura de computação em nuvem privada para infraestrutura de terceiros, “enquanto mantém as poderosas proteções de segurança e privacidade da Apple”, de acordo com a empresa.

Quanto aos modelos em si, aqui está um detalhamento de cada um, conforme explicado pela Apple:

AFM 3 Core, a próxima geração do nosso modelo denso de 3 bilhões de parâmetros que oferece um avanço na qualidade.
AFM 3 Core Advanced, nosso modelo de dispositivo mais poderoso. É nativamente multimodal, permitindo recursos úteis como vozes expressivas e ditado de maior precisão. Baseado em pesquisas de ponta da Apple, esse modelo de 20 bilhões de parâmetros usa uma arquitetura esparsa, ativando apenas de 1 a 4 bilhões de parâmetros por vez, dependendo da solicitação. O AFM 3 Core Advanced é desbloqueado e otimizado para nossos sistemas de silício Apple mais capazes.
AFM 3 Cloud, nosso carro-chefe do lado do servidor, otimizado para velocidade, eficiência e desempenho.
ADM 3 Cloud (Image), para geração e edição de imagens, que desbloqueia ferramentas avançadas de edição de fotos, o novo Image Playground e muito mais.
AFM 3 Cloud Pro, nosso modelo baseado em servidor mais capaz, que potencializa nossos casos de uso mais exigentes, como uso de ferramentas de agente e raciocínio complexo.

Os destaques aqui são AFM 3 Core Advanced e AFM 3 Cloud Pro.

Começando com o AFM 3 Core Advanced, ele reúne 20 bilhões de parâmetros em um modelo no dispositivo, o que não é pouca coisa. A maioria dos modelos no dispositivo voltados para o público em geral tendem a permanecer na faixa de bilhões de parâmetros baixos.

Para fazer o AFM 3 Core Advanced funcionar bem, a Apple usou uma arquitetura esparsa que ativa até 4 bilhões de parâmetros por vez, dependendo do prompt, em vez de uma arquitetura densa que precisaria manter todos os 20 bilhões de parâmetros ativos para cada solicitação.

Embora conceitualmente semelhante à abordagem Mistura de Especialistas, essa ativação seletiva depende de uma técnica que a Apple inventou e detalhou no interessante estudo Poda seguindo instruções para modelos de linguagem grandes, lançado há um ano.

Já o AFM 3 Cloud Pro é aquele que roda em infraestrutura externa. Você pode ler alguns detalhes técnicos dessa expansão neste artigo publicado no blog de segurança da Apple no início desta semana, mas aqui está a parte mais importante:

Com base nisso, a Apple e o Google colaboraram para desenvolver capacidades que vão muito além de uma implantação tradicional de computação confidencial:

Não dependemos apenas de tecnologias de computação confidenciais para mitigar ataques que aproveitam o acesso privilegiado fora de uma VM confidencial, incluindo ataques de canal lateral. Consideramos que todos os componentes — desde o firmware, passando pelas pilhas de sistemas operacionais host e convidados até o código do aplicativo — fazem parte de nossa base de computação confiável, sujeito à nossa transparência verificável e garantias de acesso sem privilégios.
Para reduzir o risco de ataques à cadeia de suprimentos, mantemos um registro criptograficamente verificável e somente anexado de todo o hardware do Google Cloud que faz parte da frota do PCC. Para componentes que poderiam ser abusados para exfiltrar dados do usuário se comprometidos, nosso atestado de software está enraizado em pelo menos duas raízes distintas de confiança de fornecedores independentes.
Mesmo quando implementada com computação confidencial, acreditamos que a pilha de inferência deve ser projetada com privacidade e segurança desde o início. O PCC no Google Cloud aproveita muitos dos mesmos padrões de segurança arquitetônica que o PCC no silício da Apple para implementar essas proteções em camadas: a análise inicial dos dados da rede para cada solicitação ocorre em um processo dedicado dentro de seu próprio namespace, o software de inferência compartilhado é reciclado com um curto período de vida e as chaves atestadas são mantidas em uma VM confidencial separada e dedicada, isolada de entradas externas.

Em seu blog Machine Learning Research, a Apple afirma que todos os cinco modelos “compartilharam uma base inicial comum antes de se especializarem em suas respectivas arquiteturas e casos de uso, adicionando recursos multimodais como áudio, compreensão de imagens, raciocínio de longo contexto e geração visual de alta qualidade”.

A empresa acrescenta que, para treinar estes modelos, utilizou “uma mistura de dados que inclui informações publicamente disponíveis, dados licenciados ou adquiridos de terceiros, dados de código aberto, dados obtidos através de estudos dedicados e dados sintéticos”. A Apple também enfatiza que o processo de treinamento não incluiu dados ou interações do usuário e que os editores da web podem optar por não participar do treinamento do modelo básico.

Os resultados

A Apple afirma que conduziu extensas avaliações humanas de seus modelos básicos de terceira geração, com revisores internos classificando as respostas em categorias como seguimento de instruções, veracidade, apresentação e compreensão de imagem.

Os modelos foram avaliados em relação aos seus antecessores (quando aplicável), e você pode ver alguns dos resultados abaixo:

Fração de respostas preferidas em avaliações humanas lado a lado de recursos gerais de texto, comparando AFM 3 Core e AFM 3 Cloud com nossa geração anterior de modelos. Os resultados são apresentados em quatro grupos de localidades distintos para demonstrar um desempenho consistente em variantes internacionais. “Inglês” representa nosso conjunto global de avaliação de inglês, enquanto “PFIGSCJK”, “DNNSTV” e “AFIHHMPRTU” representam nossos locais globais restantes com suporte.

Fração de respostas preferidas em avaliações humanas lado a lado das capacidades de compreensão de imagens em inglês. Os resultados comparam o AFM 3 Core e o AFM 3 Cloud com seus antecessores de 2025.

Fração de respostas preferidas em avaliações humanas lado a lado para tarefas de ditado. Os resultados comparam o AFM 3 Core Advanced com o sistema de ditado de produção existente da Apple em sete dimensões de qualidade. AFM 3 Core Advanced demonstra uma taxa de ganhos positiva na qualidade geral, com preferência estendendo-se consistentemente a todas as dimensões individuais de formatação e compreensão.

Para um mergulho ainda mais profundo nos modelos Apple Foundation de terceira geração, siga este link.

Vale a pena conferir na Amazon

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.

Fuente