Início Tecnologia O mais recente modelo de IA da Apple ouve o que faz...

O mais recente modelo de IA da Apple ouve o que faz com que o idioma “Off” pareça, é por isso que importa

23
0
O mais recente modelo de IA da Apple ouve o que faz com que o idioma "Off" pareça, é por isso que importa

Como parte de seu fantástico corpus de obras em modelos de linguagem e voz, a Apple acaba de publicar um novo estudo que adota uma abordagem muito focada para um difícil problema de aprendizado automático: não apenas para reconhecer o que foi dito, mas como já foi dito. E as implicações da acessibilidade são monumentais.

No documento, os pesquisadores introduzem uma imagem para a análise da discussão usando aqueles que chamam de dimensões da qualidade vocal (VQD), que são características interpretáveis ​​como inteligibilidade, dureza, respiração, monotonia da etapa e assim por diante.

Estes são os mesmos atributos aos quais os patologistas da língua vocal prestam atenção ao avaliar as vozes afetadas por condições ou doenças neurológicas. E agora, a Apple está trabalhando em modelos que também podem detectá -los.

Ensinando inteligência artificial de ouvir e ouvir

Hoje, a maioria dos modelos de idiomas é treinada principalmente em vozes saudáveis ​​e típicas. Isso significa que eles tendem a quebrar ou sofrer quando os usuários parecem diferentes. Obviamente, isso é uma enorme lacuna de acessibilidade.

Os pesquisadores da Apple treinaram sondas leves (modelos de diagnóstico simples que estão no topo dos sistemas vocais existentes) em um grande conjunto de dados públicos de fala atípica anotada, incluindo itens de pessoas com paralisia cerebral de Parkinson.

Mas aqui está o problema: em vez de usar esses modelos para transcrever o que é dito, eles mediram a maneira como o item soa, usando sete dimensões fundamentais.

  • Inteligibilidade: Como é fácil entender o discurso.
  • Consoantes imprecisas: como os sons consoantes são claramente articulados (por exemplo, consoantes confusas ou suaves).
  • Item difícil: Uma qualidade vocal áspera, tensa ou grave.
  • Naturalidade: Quão típico ou fluente a discussão soa para um ouvinte.
  • Monolomet: Falta de variação no volume (ou seja, conversando com um volume plano).
  • Monopitch: Falta de variação do tom, resultando em um tom plano ou robótico.
  • Respiração: Qualidade vocal Saboradamente arejada ou sussurrada, geralmente devido ao fechamento da dobra vocal incompleta.

Em poucas palavras, eles ensinaram as máquinas a “ouvir como médico”, em vez de simplesmente gravar o que foi dito.

Uma maneira um pouco mais complicada de dizer que seria: a Apple usou cinco modelos (PLAP, Hubert, Hubert ASR, Raw-Net3, Spice) para extrair recursos de áudio e, portanto, treinar sondas de luz para prever as dimensões da qualidade vocal dessas características.

No final, essas sondas tiveram fortemente o desempenho na maioria das dimensões, embora o desempenho tenha variado um pouco, dependendo do alongamento e da tarefa.

Um dos aspectos extraordinários desta pesquisa é que a saída do modelo pode ser explicada. Ainda é raro na IA. Em vez de oferecer uma misteriosa “pontuação confiável” ou um julgamento de caixa preta, esse sistema pode indicar características vocais específicas que levam a uma classificação específica. Isso, por sua vez, pode levar a ganhos significativos na avaliação e diagnóstico clínicos.

Além da acessibilidade

Curiosamente, a Apple não parou na linguagem clínica. A equipe também testou seus modelos sobre a discussão emocional por um conjunto de dados chamado Ravdess e, embora nunca tenha sido treinado em áudio emocional, os modelos VQD também produziram previsões intuitivas.

Por exemplo, as vozes raivosas tinham uma “monoloudness” mais baixa, as vozes calmas foram classificadas como menos difíceis e as vozes tristes apareceram como mais monótonas.

Isso poderia abrir o caminho para um Siri mais reconhecível, que poderia modular seu tom e falar dependendo de como ele interpreta o humor ou o estado mental do usuário, em vez de suas palavras reais.

O estudo completo está disponível no ARXIV.

FTC: Usamos conexões de afiliação automática para obter renda. Além disso.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here