Em um novo artigo, uma equipe de pesquisadores da Apple detalha uma estrutura criativa que melhora as respostas do LLM em raciocínio matemático, geração de código e muito mais. Aqui estão os detalhes.
Difusão e autorregressão, unidas
Em um estudo recém-revisado intitulado LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning, pesquisadores da Apple, juntamente com pesquisadores da Universidade da Califórnia, San Diego, detalham uma maneira interessante de melhorar a qualidade das respostas geradas por grandes modelos de linguagem (LLMs) em determinados domínios.
No passado, discutimos modelos de difusão, que geram texto iterando muitos tokens em paralelo a cada passagem, em contraste com modelos autorregressivos, que funcionam calculando e prevendo tokens um por um.
A Apple até examinou modelos de difusão aplicados à previsão e codificação do dobramento de proteínas, o que é infinitamente interessante.
O que o LaDiR faz, em poucas palavras, é combinar as duas abordagens: ele adota a difusão durante o processo de raciocínio e depois gera o resultado final de forma autorregressiva.
Mais do que isso, na verdade funciona com vários caminhos de raciocínio em paralelo, cada um executando o seu próprio processo de difusão, com um mecanismo que os impulsiona a explorar diferentes possibilidades, produzindo assim um conjunto diversificado de respostas candidatas.

Eles explicam que durante o tempo de inferência, quando o modelo está essencialmente descobrindo o que e como responderá ao prompt do usuário, o LaDiR gera uma série de blocos de raciocínio ocultos, cada um começando como um padrão aleatório (ou ruído) e gradualmente sendo refinado em uma etapa mais coerente.
Depois que o modelo determina que fez raciocínio suficiente, ele passa a gerar a resposta final de forma autorregressiva, um token por vez.
O detalhe principal é que o LaDiR pode executar vários desses caminhos de raciocínio em paralelo, com um mecanismo que o incentiva a explorar diferentes possibilidades para evitar que todos convirjam cedo demais para a mesma ideia, anulando o propósito de tudo.
É importante ressaltar que o LaDiR não é um modelo novo em si, mas sim uma estrutura que se baseia em modelos de linguagem existentes. Isso muda a forma como eles raciocinam sobre um problema, em vez de substituí-los totalmente.
Como funciona o LaDiR
No estudo, os pesquisadores aplicaram o LaDiR ao LLaMA 3.1 8B da Meta para raciocínio matemático e planejamento de quebra-cabeças, e ao Qwen3-8B-Base para geração de código.
Em benchmarks matemáticos, o LaDiR alcançou maior precisão do que as abordagens existentes e demonstrou um desempenho mais forte mesmo em tarefas mais difíceis e fora de distribuição.

Em benchmarks de geração de código, como HumanEval, o LaDiR produziu resultados mais confiáveis, superando o ajuste fino padrão por uma margem notável, especialmente em problemas mais difíceis.

E em tarefas de planejamento do tipo quebra-cabeça, como o jogo Countdown, o LaDiR explorou uma gama mais ampla de respostas válidas do que qualquer modelo de linha de base e encontrou soluções corretas de forma mais confiável do que todas as linhas de base de uso geral. No entanto, ficou aquém de um modelo especializado e específico para tarefas de precisão em uma única tentativa.

Embora alguns dos aspectos do artigo LaDiR possam ser bastante técnicos, vale a pena ler se você estiver interessado no funcionamento interno de grandes modelos de linguagem e em novas abordagens para melhorar o desempenho na geração de texto.
Para ler o artigo completo, acesse este link.
Vale a pena conferir na Amazon


FTC: Usamos links de afiliados automotivos para geração de renda. Mais.



