Por que a IA é fundamental para os planos da XPENG para carros autônomos -

O fabricante de veículos elétricos XPENG tem como meta um lançamento global em 2027 para seu sistema de direção autônomo VLA 2.0 de próxima geração. Ao anunciar seus planos de lançamento em março, a XPENG afirmou que o VLA 2.0 é o primeiro modelo de condução de IA com potencial L4 na China, marcando um passo significativo em direção ao sonho do carro autônomo.

Os carros da XPENG ainda não estão completamente sem motorista. Mas falando ao Mashable, o chefe do Centro de Inteligência Geral do XPENG, Dr. Xianming Liu, explicou que o VLA 2.0 pode ser a chave para finalmente atingir esse objetivo.

VEJA TAMBÉM:

Os VE chineses estão a espalhar-se por todo o mundo, mas não nos EUA

O que é direção autônoma L4?

Os sistemas de direção autônoma são comumente categorizados em um dos seis níveis, conforme definido pela organização global de padrões automotivos SAE International. Estas variam desde nenhuma automação de condução no Nível 0 (L0) até automação total de condução no Nível 5 (L5).

A maioria dos carros atualmente disponíveis com tais sistemas operam em L2, oferecendo automação parcial da direção. Apesar do nome, o sistema Full Self-Driving (FSD) da Tesla é um sistema L2. A empresa mudou a marca do sistema no início deste ano, depois que o termo “Full Self-Driving” foi considerado enganoso, adicionando o sufixo “(Supervisionado)” e eliminando o nome “Autopilot”. (O recurso foi renomeado novamente para “Tesla Assisted Driving” para cumprir os regulamentos para seu lançamento na China em maio.)

Alguns outros fabricantes de automóveis atingiram o L3, com a Mercedes-Benz a tornar-se o primeiro fabricante de automóveis a oferecer aos clientes dos EUA automação de condução condicional em 2024. No entanto, este sistema de condução autónoma L3 só funciona em circunstâncias muito restritas, como em autoestradas específicas durante o tempo claro durante o dia, o que limita a sua praticidade.

L4 marca o próximo ponto alto da automação de direção, a apenas um passo de não precisar de nenhum motorista. Agora XPENG afirma que seu sistema VLA 2.0 alimentado por IA – que significa Vision-Language-Action – está praticamente lá.

Mashable fez um teste em um XPENG P7 com VLA 2.0 habilitado e achou difícil contestar. O carro foi capaz de navegar suavemente pelas grandes estradas da cidade de Pequim, pelas ruas rurais acidentadas e pelo tráfego intenso de pedestres e scooters com intervenção mínima do motorista. Ele ainda poderia estacionar sozinho depois que todos tivessem saído do veículo.

O driver precisou assumir o controle em alguns pontos, demonstrando que o VLA 2.0 ainda não é um sistema completamente autônomo. Empresas de robotáxis autônomos, como Tesla e Waymo, sofreram incidentes de segurança após retirarem humanos do volante, e a XPENG não afirma que está pronta para dar esse salto. Mas, no geral, o VLA 2.0 parecia seguro, eficiente e até luxuoso.

Da direção autônoma à IA física

De acordo com Liu, o VLA 2.0 é uma mudança fundamental quando comparado ao sistema anterior de Piloto Guiado de Navegação L2 (NGP) do XPENG. Enquanto o NGP se concentra no desenvolvimento da direção autônoma, o VLA 2.0 se concentra na solução de problemas físicos de IA.

“Depois que você trabalha no problema da IA, tudo muda”, disse Liu.

Sistemas de direção autônoma, como o NGP, normalmente operam em uma estrutura de percepção, previsão, planejamento e controle. Nesse sistema, o veículo utiliza sensores integrados para detectar seu ambiente e abstraí-lo em dados, como usar caixas para representar outros carros. Em seguida, ele prevê o que esses obstáculos farão, planeja um curso de ação e controla o carro para executar esse plano.

“O NGP é um sistema de direção autônoma tradicional onde fazemos primeiro a percepção e depois fazemos o planejamento. Este é um paradigma muito antigo de direção autônoma, ou mesmo atualmente na robótica”, disse Liu. “Há muitas limitações nesses tipos de algoritmos. Depois de trabalhar com direção autônoma ou IA por mais de 10 anos, você verá a limitação. Você nunca poderá ampliar ou generalizar o suficiente de todo o sistema para diferentes tipos de cenários.”

Para criar um sistema de condução autónomo L4 e, eventualmente, um robotáxi totalmente autónomo, o carro deve ser capaz de identificar e responder a situações inesperadas que não foram especificamente contabilizadas na sua programação. O problema, explicou Liu, é que os desenvolvedores não sabem necessariamente quais podem ser esses problemas.

“Chamamos isso de desconhecido, desconhecido”, disse Liu. “Há tantos problemas desconhecidos e desconhecidos. Você nunca pode resolvê-los um por um. Então você precisa mudar o paradigma e tentar mudar o sistema para ser generalizado e escalável o suficiente para resolver todos os problemas.”

Xianming Liu, da XPENG, trabalha com IA e direção autônoma há quase uma década.
Crédito: XPENG

Para o XPENG, a solução foi mudar toda a sua abordagem para a condução autónoma, passando a concentrar-se na IA física – a integração do software de IA com hardware tangível, como carros ou robótica. Ao contrário da IA digital, como chatbots ChatGPT, DeepSeek e Claude, a IA física é capaz de interagir diretamente com o mundo físico. Também é capaz de absorver e ajustar-se a um fluxo constante de informações, rompendo com a estrutura sequencial dos sistemas de condução autônoma anteriores.

“A IA física é totalmente diferente da digital porque a entrada do sinal não é estruturada, é contínua”, disse Liu. “A carga de informações é muito maior do que a de dados estruturados, como texto ou voz. E também o sinal de controle requer alta latência e alta eficiência. Isso significa que sua latência precisa ser muito pequena.”

A mudança para a IA física permitiu que o XPENG aumentasse a escala, ampliando os parâmetros do modelo e alimentando-o com grandes quantidades de dados para aprender.

Velocidade da luz mashável

“Nós apenas pegamos todas as entradas do sensor da câmera e treinamos diretamente o modelo. Ampliamos a capacidade do modelo, transformamos em bilhões de parâmetros e treinamos o modelo usando uma escala de dados ainda maior em comparação com modelos de linguagem grandes, e (então) pedimos ao modelo para tomar uma decisão”, disse Liu.

“Mudamos o paradigma da direção automotiva e felizmente vimos o resultado. O modelo é generalizado o suficiente para estar pronto para a direção autônoma L4.”

Como os carros autônomos estão ligados aos robôs humanóides

Em vez de se concentrar apenas na direção autônoma, a XPENG está desenvolvendo o modelo básico de IA por trás do VLA 2.0 para ser aplicado em uma variedade de casos de uso – incluindo robótica. A empresa se tornou viral quando estreou seu robô humanóide IRON, estranhamente realista, em novembro passado, até mesmo abrindo-o para dissipar as especulações de que se tratava de uma pessoa real de terno.

Embora a conexão entre os dois projetos possa não ser imediatamente aparente, Liu disse ao Mashable que muitos dos desafios enfrentados pelo desenvolvimento de carros autônomos e robôs humanóides são muito semelhantes. Como tal, as inovações são transferíveis.

“Grande parte do nosso orçamento de P&D é gasto na IA ou na infraestrutura de treinamento, nos dados, na modelagem em si”, disse Liu, observando que a XPENG se vê tanto como uma empresa de EV quanto de IA física.

Um foco significativo da pesquisa e desenvolvimento contínuo do XPENG é a capacidade do modelo de IA de reconhecer e responder a instruções verbais cada vez mais complexas. Esta é uma função importante tanto para robôs humanóides quanto para carros autônomos.

“Os robôs não só precisam de compreender o ambiente, que é o mundo, (mas) precisam de reconstruir o mundo”, disse Liu. “Mas às vezes também (eles) precisam entender como se comunicar com os humanos ou mesmo com outros agentes no mundo.”

O XPENG X9 EV pode acomodar até sete pessoas.
Crédito: XPENG

Embora o VLA 2.0 navegue usando a visão dos sensores da câmera do carro, ele também é capaz de receber instruções verbais. Esta funcionalidade está atualmente limitada à execução de instruções diretas e imediatas, como dizer ao carro para virar à esquerda em 300 metros ou mudar para a faixa da direita. Em última análise, o XPENG visa que os passageiros possam simplesmente entrar no carro, dizer verbalmente para onde ir e relaxar enquanto são transportados para o seu destino.

“Você pergunta ao carro: ‘ei, pare na frente. Quero comprar um café, então você precisa parar na frente do Starbucks.’ O carro precisa entender suas instruções, precisa traduzir suas instruções em algumas ações”, disse Liu. “Queremos ter certeza de que o modelo pode compreender não apenas o mundo, que é o sensor (dados de suas câmeras), mas também a instrução e a intenção humana”.

XPENG e Tesla estão dirigindo para o mesmo destino

O trabalho da XPENG com veículos elétricos autônomos e robôs humanóides gerou comparações frequentes com a empresa Tesla de Elon Musk. Liu reconheceu tais paralelos, observando que a Tesla também está construindo um modelo de IA semelhante destinado a alcançar a condução L4.

“Acho que só há uma maneira de resolver o problema completamente: é preciso repensar o problema desde o início”, disse Liu ao Mashable. “(XPENG e Tesla estão) fazendo algo na mesma trajetória. Queremos resolver o problema seguindo os primeiros princípios (ou seja, dividindo-o em seus elementos mais básicos). Vá diretamente para L4, tente resolver o problema sem usar regras, apenas usando modelos de IA. Acho que isso é uma semelhança.”

Humoristicamente, Liu observou que o ponto em que o XPENG se distingue do Tesla é o grande volume de dados que possui sobre má direção. Utilizando esses dados, a XPENG conseguiu desenvolver seu modelo para responder a tais cenários, garantindo que esteja melhor preparado para quaisquer eventos inesperados que possam ocorrer na estrada.

“Para o XPENG, temos muitos dados na China, o que é uma condução terrível. Portanto, você encontrará muitos casos extremos (ou seja, situações raras e inesperadas fora da norma)”, disse Liu. “Portanto, todos os dias, o problema que enfrentamos não é que não temos dados suficientes para resolver os casos extremos, mas temos muitos casos extremos.

Abandonando o roteiro

Em vez de consumir e confiar em dados de roteiros, o VLA 2.0 foi treinado em comportamentos humanos de direção. Isto é para garantir que ele seja capaz de responder adequadamente a uma variedade ilimitada e não prescritiva de situações. Por exemplo, ele pode analisar um cenário ao vivo e determinar o limite de velocidade típico e seguro para esse tipo de ambiente e condições.

“Às vezes, mesmo que a estrada seja limitada, é tipo 80 (limite de velocidade), mas está muito lotado, é preciso diminuir a velocidade e prestar atenção. Ou durante o mau tempo, por exemplo, chovendo ou neblina, as pessoas vão desacelerar por causa da situação, por causa do meio ambiente”, disse Liu.

“Portanto, nesses casos, você não pode pedir a um carro que siga as instruções do limite de velocidade do mapa ou de todas as placas. Você precisa ter certeza de que o modelo está ciente do risco e entende como dirigir com segurança e como controlar a velocidade.”

É importante ressaltar que os motoristas também podem ajustar manualmente a velocidade máxima do carro, para que ele não viaje em um ritmo que os deixe desconfortáveis.

“Para segurança e conforto, a chave é controlar a velocidade”, disse Liu. “As pessoas podem controlar o volante, controlar a rolagem para definir o limite de velocidade. Mas o modelo tenta aprender que tipo de velocidade típica as pessoas dirigirão nesse tipo de situação, porque precisamos ter certeza de que o carro é seguro o suficiente e também não muito lento.”

XPENG tem vários modelos de carros disponíveis na China, mas nenhum entrou nos EUA
Crédito: XPENG

Embora o VLA 2.0 seja treinado em uma grande quantidade de dados gerais, o XPENG espera eventualmente oferecer uma experiência mais personalizada. Liu confirmou que a empresa está desenvolvendo a capacidade de os carros individuais aprenderem e se ajustarem aos seus proprietários específicos, adaptando-se aos seus hábitos de condução pessoais. (Significativamente, o VLA 2.0 não transfere dados para a nuvem, com todo o processamento necessário feito localmente no carro.)

“Estamos trabalhando nisso”, disse Liu. “Definitivamente, o comportamento de direção personalizado é uma das coisas em que estamos trabalhando, então esperamos que algum dia você veja isso.”

Exatamente em que tipo de linha do tempo esse recurso pode estar não está claro. O que está claro é que o XPENG tem grandes ambições — e talvez até a tecnologia para sustentá-las. Liu reconheceu que o VLA 2.0 ainda não é perfeito, ainda exigindo a intervenção do motorista às vezes. Mesmo assim, não há como negar que se trata de um avanço importante em direção ao objetivo final de criar veículos seguros e totalmente autônomos.

Esta entrevista foi levemente editada para fins de gramática e clareza.

Divulgação: Mashable viajou para a China como convidado da XPENG.

Tópicos
Carros autônomos

Fuente