Alguns meses atrás, a Apple lançou o FastVLM, uma versão em linguagem visual (VLM) que forneceu um manuseio de fotos de alta resolução quase instante. Atualmente, você pode dar uma volta, oferecida que você tem um Mac movido a silício da Apple. Abaixo está como.
Quando inicialmente cobrimos o FastVLM, esclarecemos que ele alavancou a MLX, a estrutura aberta de ML aberta da Apple, especialmente para a Apple Silicon, para fornecer até 85 vezes mais rápidas legendas de videoclipe, embora tenham mais de 3 vezes o tamanho menor que as versões comparáveis.
Desde então, a Apple lidou melhor com a tarefa, que atualmente pode ser descoberta em abraçar o rosto, não simplesmente no Github. Ao abraçar o rosto, você pode embalar a variação mais leve, FastVLM-0.5 B, exatamente no seu navegador da Internet e examiná-lo por conta própria.
Dependendo do seu equipamento, pode demorar um pouco para toneladas. Foram necessários vários minutos no meu Pro MacBook Pro de 16 GB M2. No entanto, o mais rápido possível, a versão começou a definir com precisão minha aparência, a área atrás de mim, várias expressões e coisas que eu certamente traria direto à vista.
Sob a borda esquerda, você pode reajustar o tempo em que a versão levará em consideração à vida atualiza a inscrição, ou você pode escolher entre algumas idéias, como:
- Explique o que você vê em uma frase.
- Qual é a sombra da minha camiseta?
- Identifique qualquer tipo de mensagem ou conteúdo da Web criado perceptível.
- Que sentimentos ou atividades estão sendo representadas?
- Nomeie as coisas que estou mantendo na minha mão.
Se você parece levar pontos melhor, pode tentar utilizar um aplicativo de câmera eletrônica on -line para alimentar o videoclipe do dispositivo e vê -lo imediatamente definir várias cenas com cuidado, com o fator de tornar um desafio compreender o que está ocorrendo. Obviamente, a situação de uso real certamente seria variada, mas isso enfatiza o quão rápido e preciso a versão pode ser.
O que é especialmente intrigante sobre esse experimento é que ele é executado na sua área no navegador da Internet, implicando nenhuma informação antes de deixar a ferramenta e também pode ficar offline. Obviamente, isso certamente seria uma excelente situação de uso para vestidos e inovação assistiva, onde agilidade e latência reduzida certamente serão críticas para abrir situações de uso muito melhores.
Ele merece ter em mente que o julgamento funciona na versão mais leve de 0,5 bilhão de parâmetros, enquanto a família FastVLM também consiste em versões maiores e muito mais eficazes, com 1,5 bilhão e 7 bilhões de critérios. Com versões maiores, a eficiência e a taxa também podem melhorar, embora executá-lo diretamente no navegador da Internet provavelmente seria um não.
Você avaliou isso? Compartilhe suas idéias nas observações.
Pechinchas de dispositivos na Amazon
FTC: Utilizamos os ganhos fazendo links da Web Associate de carro. Muito mais.
.
Fuente