Início Tecnologia A Apple treinou uma IA para reconhecer gestos manuais inéditos de sensores...

A Apple treinou uma IA para reconhecer gestos manuais inéditos de sensores vestíveis

18
0
Apple apresentará vários estudos e demonstrações de IA na conferência NeurIPS 2025 no próximo mês

No novo estudo, a Apple ensinou um modelo de IA para reconhecer gestos manuais que não faziam parte do conjunto de dados de treinamento original. Aqui estão os detalhes.

O que é EMG?

A Apple publicou um novo estudo em seu blog Machine Learning Research, chamado EMBridge: Enhancing Gesture Generalization from EMG Signals through Cross-Modal Representation Learning. Este estudo será apresentado na Conferência ICLR 2026 em abril.

Nele, os pesquisadores explicam como treinaram um modelo de IA para reconhecer gestos manuais, mesmo quando esses gestos específicos não faziam parte do conjunto de dados original.

Para conseguir isso, eles desenvolveram o EMBridge, “uma estrutura de aprendizagem de representação intermodal que preenche a lacuna de modalidade entre EMG e pose”.

EMG, ou Eletromiografia, mede a atividade elétrica gerada pelos músculos durante a contração. Suas aplicações práticas abrangem desde diagnóstico médico e fisioterapia até controle de próteses.

Mais recentemente (embora esta definitivamente não seja uma área nova), tem sido mais amplamente explorada em wearables e sistemas AR/VR.

Os óculos Ray-Ban Display da Meta, por exemplo, usam tecnologia EMG na forma do que Meta chama de Neural Band, um dispositivo usado no pulso que “interpreta seus sinais musculares para navegar pelos recursos do Meta Ray-Ban Display”, de acordo com a descrição da empresa.

No estudo da Apple, os sinais EMG usados ​​para treinamento não foram detectados por um dispositivo usado no pulso. Em vez disso, os pesquisadores usaram dois conjuntos de dados:

  • emg2pose: “(…) um conjunto de dados EMG de código aberto em grande escala contendo 370 horas de sEMG e dados de pose de mão sincronizados em 193 usuários consentidos, 29 grupos comportamentais diferentes que incluem uma gama diversificada de movimentos de mão discretos e contínuos, como fechar o punho ou contar até cinco. Os rótulos de pose de mão são gerados usando um sistema de captura de movimento de alta resolução. O conjunto de dados completo contém mais de 80 milhões de rótulos de pose e é de escala semelhante aos maiores equivalentes de visão computacional. Cada usuário completaram quatro sessões por categoria de gesto, cada uma com um posicionamento diferente da banda EMG. Cada sessão durou de 45 a 120 segundos, durante as quais os usuários realizaram repetidamente uma mistura de 3 a 5 gestos semelhantes ou movimentos de forma livre irrestritos.
  • NinaPro DB2: “Utilizamos dois conjuntos de dados NinaPro EMG para uma avaliação mais abrangente do EMBridge. Especificamente, o Ninapro DB2 é usado para pré-treinamento, que inclui dados de pose EMG emparelhados de 40 indivíduos. Ele contém 49 gestos manuais (incluindo flexões básicas dos dedos, preensão funcional e movimentos combinados) realizados por 40 indivíduos saudáveis. Os sinais EMG são registrados a partir de 12 eletrodos colocados no antebraço a uma taxa de amostragem de 2 kHz, juntamente com a cinemática da mão dados capturados por uma luva de dados Para classificação de gestos downstream, usamos o NinaPro DB7, que contém dados de 20 indivíduos não amputados coletados com o mesmo dispositivo EMG e conjunto de gestos do DB2.

Com tudo isso dito, é fácil ver como o EMBridge da Apple poderia abrir caminho para um futuro modelo Apple Watch (ou outros wearables) para controlar dispositivos como Apple Vision Pro, Macs, iPhones e outros wearables, incluindo seus rumores de óculos inteligentes.

Na prática, desde novos métodos de interação até melhorias de acessibilidade, as possibilidades podem ser significativas.

É verdade que o estudo em si obviamente não menciona nenhum produto ou aplicativo específico da Apple, mas afirma o seguinte:

Uma aplicação prática potencial de nossa estrutura é a interação humano-computador vestível. Em
Em cenários como VR/AR e aplicações de controle protético, um dispositivo usado no pulso deve inferir continuamente gestos manuais do EMG para acionar um avatar virtual ou mão robótica.

O que é EMBridge?

O EMBridge foi a maneira dos pesquisadores preencherem a lacuna entre os sinais musculares EMG reais e os dados estruturados da pose da mão.

Treinado usando uma estrutura intermodal, o modelo foi primeiro pré-treinado em EMG e dados de pose de mão separadamente.

Então, os pesquisadores alinharam as duas representações para que o codificador EMG pudesse aprender com o codificador de pose. Isso permitiu que a EMBridge aprendesse a reconhecer padrões de gestos a partir de sinais EMG.

Feito isso, eles treinaram o sistema usando reconstrução de pose mascarada, ocultando partes dos dados de pose e pedindo ao modelo para reconstruí-los usando apenas as informações extraídas dos sinais EMG.

O resultado, conforme explicado pelos pesquisadores:

“Até onde sabemos, o EMBridge é a primeira estrutura de aprendizagem de representação multimodal a obter classificação de gestos de disparo zero a partir de sinais EMG vestíveis, mostrando potencial para reconhecimento de gestos do mundo real em dispositivos vestíveis.”

Para reduzir erros de treinamento causados ​​por gestos semelhantes tratados como negativos, os pesquisadores ensinaram o modelo a reconhecer quando as poses representam configurações de mãos semelhantes, permitindo gerar alvos fáceis para essas poses, em vez de tratá-las como completamente não relacionadas.

Isto ajudou a estruturar o espaço de representação do modelo, melhorando a sua capacidade de generalização para gestos nunca antes vistos.

Os autores avaliaram o EMBridge em dois benchmarks, emg2pose e NinaPro, e descobriram que ele superou consistentemente os métodos existentes, particularmente no reconhecimento de gestos de disparo zero (ou nunca antes visto). É importante ressaltar que isso foi feito com apenas 40% dos dados de treinamento.

Uma limitação importante observada no artigo é que o modelo depende de conjuntos de dados contendo sinais EMG e dados de pose de mão sincronizados. Isto significa que a sua formação ainda depende de conjuntos de dados especializados que podem ser difíceis de recolher.

Ainda assim, o estudo é interessante, especialmente numa altura em que o controlo de dispositivos baseados em EMG parece estar em ascensão.

Para obter detalhes técnicos completos sobre o EMBridge, incluindo seus componentes Q-Former, MPRL e CASCLe, siga este link.

Vale a pena conferir na Amazon

Adicione 9to5Mac como fonte preferencial no Google
Adicione 9to5Mac como fonte preferencial no Google

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.

Fuente