Em um estudo de pesquisa totalmente novo, os cientistas da Apple oferecem uma versão de difusão que pode gravar 128 vezes mais rápido que seus equivalentes. Veja como funciona.
Os bits impopulares
Aqui está o que você precisa entender para este estudo de pesquisa: LLMs como ChatGPT são designs autorregressivos. Eles criam mensagens sequencialmente, um token de cada vez, pensando tanto nos símbolos oportunos do cliente quanto em todos os símbolos produzidos anteriormente.
Ao contrário dos designs autorregressivos, existem designs de difusão. Eles criam vários símbolos em paralelo e os melhoram ao longo de uma série de ações repetitivas até que o feedback completo se materialize.
Em última análise, uma versão dos projetos de difusão são os projetos de correspondência de fluxo, que geralmente ignoram o procedimento repetitivo dos projetos de difusão e descobrem como criar o resultado de uma só vez.
Para um estudo muito mais aprofundado de como funcionam os designs de difusão, leia esta mensagem na versão de codificação baseada em difusão da Apple. E para saber mais sobre designs de correspondência de fluxo, leia esta mensagem na versão de correspondência de fluxo da Apple para dobramento saudável de proteínas.
O novo estudo da Apple
Em uma pesquisa divulgada hoje, intitulada “FS-DFM: geração rápida e exata de texto longo com versões de linguagem de difusão em poucas etapas”, cientistas da Apple e do Ohio State College recomendam uma versão totalmente nova chamada Few-Step Discrete Flow-Matching, ou FS-DFM.
No estudo, os cientistas mostram que o FS-DFM foi capaz de criar fluxos completos com apenas oito rodadas de desenvolvimento rápido, correspondendo à qualidade dos projetos de difusão que exigiam mais de mil ações para alcançar um resultado semelhante.
Para conseguir isso, os cientistas adotam uma estratégia intrigante de três etapas: inicialmente, a versão é treinada para gerenciar diversos planos orçamentários de modelos de melhoria. Depois disso, eles utilizam uma versão auxiliar “educadora” para ajudá-lo a fazer atualizações maiores e mais precisas em cada marca, sem “ultrapassar” a mensagem designada. E, em última análise, eles modificam o modo como cada modelo funciona para que a versão possa chegar ao resultado com ações menos e mais constantes.
Quando comparado a projetos de difusão maiores, o FS-DFM teve um bom desempenho em duas métricas cruciais: perplexidade e piora.
Basicamente, o índice de perplexidade é uma estatística tradicional de qualidade de mensagens em designs de linguagem. Quanto menor a perplexidade, mais precisa e natural a mensagem parece.
Quando se trata de piora, basicamente determina com que confiança a versão escolhe cada palavra. Na técnica, se o agravamento também for reduzido, a mensagem pode tornar-se recorrente ou previsível, mas se for demasiado cara, pode começar a parecer arbitrária ou muda.
Em comparação com a versão de difusão Desire com 7 bilhões de critérios e a versão de difusão LLaDA com 8 bilhões de critérios, as versões FS-DFM com 1,7, 1,3 e 0,17 bilhões de critérios alcançaram constantemente a redução da perplexidade e mantiveram uma piora ainda mais segura em todas as contagens de modelos.
Dados os resultados e a garantia que esta abordagem revela, e a ausência de projetos e pesquisas semelhantes disponíveis, os cientistas também disseram que “estão planejando lançar pontos de verificação de código e versão para ajudar na reprodutibilidade e estudos adicionais”.
Se você quiser se aprofundar nas técnicas da Apple e ainda mais em detalhes de aplicação dos designs da Apple, não deixe de conferir o artigo completo no arXiv. Inclui várias instâncias de eficiência, como esta, que codifica por cores o modelo em que cada palavra foi alterada pela última vez:
Número 9: Cronograma de geração em nível de token. A mensagem mostrada é o último exemplo; a história de cada um
token inscreve a ação de sua última modificação utilizando 8 tons claros (início → fim). Aparecem símbolos estabilizados antecipadamente
em cores muito iniciais, enquanto as edições posteriores desvanecem para as cores finais, fazendo melhorias locais e convergência total
fácil de ver. Tenha em mente que vários símbolos são tingidos de amarelo, sugerindo que foram previstos antecipadamente. Esse
é o resultado do avanço escalar (comparação com o número 4).
Encontre “FS-DFM: geração rápida e exata de texto longo com versões de linguagem de difusão em poucas etapas” no arXiv.
Pechinchas de dispositivos na Amazon
FTC: Fazemos uso de links da web de associados de veículos que geram receita. Muito mais.
.
Fuente