Os pesquisadores da Apple publicaram um estudo que analisa como os LLMs podem analisar dados de áudio e movimento para obter uma melhor visão geral das atividades do usuário. Aqui estão os detalhes.
Eles são bons nisso, mas não de uma forma assustadora
Um novo artigo intitulado “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition” oferece insights sobre como a Apple pode estar considerando incorporar a análise LLM junto com os dados de sensores tradicionais para obter uma compreensão mais precisa da atividade do usuário.
Isto, argumentam eles, tem um grande potencial para tornar a análise da atividade mais precisa, mesmo em situações onde não há dados de sensores suficientes.
Dos pesquisadores:
“Os fluxos de dados de sensores fornecem informações valiosas sobre atividades e contexto para aplicações downstream, embora a integração de informações complementares possa ser um desafio. Mostramos que grandes modelos de linguagem (LLMs) podem ser usados para fusão tardia para classificação de atividades a partir de dados de séries temporais de áudio e movimento. Selecionamos um subconjunto de dados para reconhecimento de atividades diversas em contextos (por exemplo, atividades domésticas, esportes) do conjunto de dados Ego4D. Os LLMs avaliados alcançaram pontuações F1 de classificação zero e one-shot de 12 classes significativamente acima chance, sem treinamento específico de tarefa. A classificação zero-shot por meio de fusão baseada em LLM de modelos específicos de modalidade pode permitir aplicações temporais multimodais onde há dados de treinamento alinhados limitados para aprender um espaço de incorporação compartilhado. Além disso, a fusão baseada em LLM pode permitir a implantação de modelos sem exigir memória e computação adicionais para modelos multimodais específicos de aplicativos direcionados.
Em outras palavras, os LLMs são realmente muito bons em inferir o que um usuário está fazendo a partir de sinais básicos de áudio e movimento, mesmo quando não são treinados especificamente para isso. Além disso, quando dado apenas um único exemplo, a sua precisão melhora ainda mais.
Uma distinção importante é que, neste estudo, o LLM não foi alimentado com a gravação de áudio real, mas sim com breves descrições de texto geradas por modelos de áudio e um modelo de movimento baseado em IMU (que rastreia o movimento através de dados de acelerômetro e giroscópio), conforme mostrado abaixo:

Mergulhando um pouco mais fundo
No artigo, os pesquisadores explicam que usaram o Ego4D, um enorme conjunto de dados de mídia filmado em perspectiva de primeira pessoa. Os dados contêm milhares de horas de ambientes e situações do mundo real, desde tarefas domésticas até atividades ao ar livre.
Do estudo:
“Fizemos a curadoria de um conjunto de dados de atividades diárias do conjunto de dados Ego4D, pesquisando atividades da vida diária nas descrições narrativas fornecidas. O conjunto de dados selecionado inclui amostras de 20 segundos de doze atividades de alto nível: aspirar, cozinhar, lavar roupa, comer, jogar basquete, jogar futebol, brincar com animais de estimação, ler um livro, usar um computador, lavar louça, assistir TV, fazer exercícios/levantamento de peso. Essas atividades foram selecionadas para abranger uma variedade de tarefas domésticas e de condicionamento físico, e com base em sua prevalência no maior conjunto de dados.”
Os pesquisadores analisaram os dados de áudio e movimento por meio de modelos menores que geraram legendas de texto e previsões de classe e, em seguida, alimentaram esses resultados em diferentes LLMs (Gemini-2.5-pro e Qwen-32B) para ver quão bem eles conseguiam identificar a atividade.
Em seguida, a Apple comparou o desempenho desses modelos em duas situações diferentes: uma em que lhes foi dada a lista das 12 atividades possíveis para escolher (conjunto fechado) e outra em que não foram dadas nenhuma opção (aberto).
Para cada teste, eles receberam diferentes combinações de legendas de áudio, rótulos de áudio, dados de previsão de atividade da IMU e contexto extra, e foi assim que eles fizeram:

No final, os investigadores observam que os resultados deste estudo oferecem insights interessantes sobre como a combinação de vários modelos pode beneficiar os dados de atividade e saúde, especialmente nos casos em que os dados brutos do sensor por si só são insuficientes para fornecer uma imagem clara da atividade do utilizador.
Talvez mais importante ainda, a Apple publicou materiais suplementares juntamente com o estudo, incluindo IDs de segmento Ego4D, carimbos de data e hora, prompts e exemplos únicos usados nos experimentos, para ajudar os pesquisadores interessados em reproduzir os resultados.
Ofertas de acessórios na Amazon
FTC: Usamos links de afiliados automotivos para geração de renda. Mais.



