Início Tecnologia Você pode tentar a versão de legendamento do clipe de vídeo com...

Você pode tentar a versão de legendamento do clipe de vídeo com raio de luz da Apple diretamente do seu navegador da Internet

34
0
Os pesquisadores seniores da IA continuam a deixar a Apple no meio de

Alguns meses atrás, a Apple lançou o FastVLM, uma versão em linguagem visual (VLM) que forneceu um manuseio de fotos de alta resolução quase instante. Atualmente, você pode dar uma volta, oferecida que você tem um Mac movido a silício da Apple. Abaixo está como.

Quando inicialmente cobrimos o FastVLM, esclarecemos que ele alavancou a MLX, a estrutura aberta de ML aberta da Apple, especialmente para a Apple Silicon, para fornecer até 85 vezes mais rápidas legendas de videoclipe, embora tenham mais de 3 vezes o tamanho menor que as versões comparáveis.

Desde então, a Apple lidou melhor com a tarefa, que atualmente pode ser descoberta em abraçar o rosto, não simplesmente no Github. Ao abraçar o rosto, você pode embalar a variação mais leve, FastVLM-0.5 B, exatamente no seu navegador da Internet e examiná-lo por conta própria.

Dependendo do seu equipamento, pode demorar um pouco para toneladas. Foram necessários vários minutos no meu Pro MacBook Pro de 16 GB M2. No entanto, o mais rápido possível, a versão começou a definir com precisão minha aparência, a área atrás de mim, várias expressões e coisas que eu certamente traria direto à vista.

Sob a borda esquerda, você pode reajustar o tempo em que a versão levará em consideração à vida atualiza a inscrição, ou você pode escolher entre algumas idéias, como:

  • Explique o que você vê em uma frase.
  • Qual é a sombra da minha camiseta?
  • Identifique qualquer tipo de mensagem ou conteúdo da Web criado perceptível.
  • Que sentimentos ou atividades estão sendo representadas?
  • Nomeie as coisas que estou mantendo na minha mão.

Se você parece levar pontos melhor, pode tentar utilizar um aplicativo de câmera eletrônica on -line para alimentar o videoclipe do dispositivo e vê -lo imediatamente definir várias cenas com cuidado, com o fator de tornar um desafio compreender o que está ocorrendo. Obviamente, a situação de uso real certamente seria variada, mas isso enfatiza o quão rápido e preciso a versão pode ser.

O que é especialmente intrigante sobre esse experimento é que ele é executado na sua área no navegador da Internet, implicando nenhuma informação antes de deixar a ferramenta e também pode ficar offline. Obviamente, isso certamente seria uma excelente situação de uso para vestidos e inovação assistiva, onde agilidade e latência reduzida certamente serão críticas para abrir situações de uso muito melhores.

Ele merece ter em mente que o julgamento funciona na versão mais leve de 0,5 bilhão de parâmetros, enquanto a família FastVLM também consiste em versões maiores e muito mais eficazes, com 1,5 bilhão e 7 bilhões de critérios. Com versões maiores, a eficiência e a taxa também podem melhorar, embora executá-lo diretamente no navegador da Internet provavelmente seria um não.

Você avaliou isso? Compartilhe suas idéias nas observações.

Pechinchas de dispositivos na Amazon

FTC: Utilizamos os ganhos fazendo links da Web Associate de carro. Muito mais.

.

Fuente