Início Tecnologia Alibaba apresenta Qwen 3 – Uma nova família de modelos de raciocínio...

Alibaba apresenta Qwen 3 – Uma nova família de modelos de raciocínio de IA que são ‘híbridos’

29
0
Abstract image of big data wave and information vertical line dots on a dark background.

Alibaba, uma gigante da tecnologia chinesa, lançou Qwen 3 na segunda -feira. A empresa diz que os modelos são comparáveis ​​e às vezes ainda melhores que os modelos do Google ou do OpenAI. A maioria desses modelos pode ser baixada no licenciamento “aberto” do Hugging Face, Github e AI Development Platform, abraçando o rosto. Os modelos variam de 0,6 a 235 trilhões de parâmetros. Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.

A ascensão das séries de modelos originadas pela China, como Qwen, aumentou a pressão sobre os laboratórios americanos, como o OpenAI, para fornecer tecnologias de IA mais capazes. Esses modelos também incentivaram os formuladores de políticas a estabelecer restrições para limitar o acesso das empresas de IA chinesas aos chips necessários para treinar seus modelos. O Alibaba afirma que os modelos QWEN3 são modelos híbridos, no sentido em que eles têm a capacidade de “raciocinar” o seu caminho através de problemas complicados e podem responder a solicitações simples rapidamente. Os modelos podem verificar seus próprios modelos usando o raciocínio, assim como o Open’s O3, ao preço de uma latência mais alta. O blog de Qwen afirmou que “integramos perfeitamente o modo de pensamento e não pensamento, oferecendo aos usuários flexibilidade para controlar seu orçamento de pensamento”. O Alibaba afirma que o modelo QWEN 3 suporta 119 idiomas diferentes e foi treinado usando um conjunto de dados de quase 36 trilhões de tokens. O modelo funciona com tokens, que são bits de dados brutos. 1.000.000 tokens equivale a cerca de 750.000 palavras em inglês. O Alibaba afirma que o QWEN 3 foi treinado usando uma variedade de materiais, incluindo livros didáticos, par de perguntas e respostas, fragmentos de código e outros. O Alibaba diz que essas melhorias e outras melhoraram bastante o QWEN 3 em comparação com Qwen 2. Qwen-3-3-235b A22B, que é a maior versão QWEN 3, vence o O3-mini do OpenAI nas forças de código. QWEN 3-235B A22B também é superior ao mini O3 no AIME (um benchmark de matemática difícil) e BFCL. Esses testes avaliam a capacidade de “raciocínio” de um modelo. O QWEN-3-235B A22B ainda não foi divulgado. O QWEN3 32B supera o OpenAI O1 em vários testes, incluindo uma referência para precisão chamada LiveBench.

O Alibaba afirma que o QWEN 3 se destaca na capacidade de chamar ferramentas, seguir instruções e copiar formatos de dados específicos. O QWEN 3 pode ser baixado de fogos de artifício, provedores de serviços hiperbólicos e outros provedores de serviços em nuvem.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here