Games + AI: Uma nova fronteira para a imersão

Games + AI: Uma nova fronteira para a imersão

A primeira vez que me deparei com a promessa da IA generativa em jogos foi quando eu ainda era criança, em 2009, com a apresentação do Project Milo. Na época, ver aquele trailer me deixou absolutamente fascinado. Eu com miinha ingenuidade de criança acreditei cegamente no que estava sendo mostrado. Fiz de tudo para conseguir um xbox com kinect, acreditando que eu iria conversar com os npcs de forma tão natural que a demo fazia parecer.

Apresentação do Project Milo na E3 de 2009

Com o tempo, caiu a ficha de que fui enganado. Anos se passaram e o Project Milo nunca se tornou um produto real. A tecnologia da época era extremamente limitada em relação ao que temos hoje em IA. O Xbox 360, com seus “poderosos” 512 MB de RAM, não teria como rodar nada remotamente parecido com os modelos de linguagem e voz que usamos atualmente. Ainda assim, aquela demo foi suficiente para plantar a semente: imaginar um futuro em que seria possível interagir de forma natural com npcs.

Um sonho não tão distante assim

Avançando para 2023, senti que aquilo iria deixar de ser apenas uma ideia. A Epic já tinha lançado a um pouco mais de 1 ano a demo Matrix Awakens, que já impressionava pelos gráficos da Unreal Engine 5 rodando em consoles. Porém, anos depois uma empresa chamada “Replica Studios” desenvolveu um plugin que adicionava diálogos por voz com NPCs dentro dessa mesma demo. Em uma época em que nem mesmo a OpenAI havia lançado a funcionalidade de conversas por voz, ver NPCs respondendo de forma natural era algo surreal.

Anúncio do plugin publicado pela Replica Studios

O que antes era uma demonstração de nicho para desenvolvedores de jogos rapidamente se tornou viral. O Fortnite, conhecido pelas suas colaborações com diversas franquias da cultura pop, trouxe o Darth Vader com um NPC. Até ai não era algo surpreendente, já que a skins já tinha sido lançada antes no passe de batalha. Porém, a maior surpresa era que pela primeira vez, milhões de jogadores puderam interagir por voz com um dos personagens mais icónicos da cultura pop e receber respostas geradas por IA conversacional em tempo real.

Demonstração de uma conversa com o Vader

Como esse tipo de interação funciona?

Por trás dessa “magia” de conversar com NPCs existe uma estrutura orquestrando multiplas ferramentas a trabalhar em conjunto. Tudo começa com o Speech-to-Text (STT), que transforma a fala do jogador em texto. Esse texto é então enviado para um Large-Language-Model(LLM), que interpreta o que foi dito e gera uma resposta coerente. Por fim, o Text-to-Speech (TTS) converte essa resposta em voz, dando vida ao personagem.

Essas três ferramentas juntas, quando bem implementadas, podem proporcionar uma sensação de conversa natural. A diferença entre algo imersivo e algo robótico está justamente na fluidez dessa troca. Se há atraso ou respostas fora de contexto, a imersão se quebra.

Por trás da conversa com o Darth Vader no Fortnite, estavam exatamente essas mesmas etapas: reconhecimento de fala, geração de resposta e síntese de voz. A diferença é que, dessa vez, uma parceria com o Google permitiu o uso do Gemini como LLM, enquanto a ElevenLabs ficou responsável por fornecer as vozes e o reconhecimento de fala com seus modelos avançados. O resultado foi uma interação muito natural, que mostrou o quanto essa tecnologia já está pronta para experiências em larga escala.

Nem tudo são flores!

Apesar de parecer simples quando tudo funciona, criar esse tipo de interação envolve vários desafios técnicos. O primeiro deles é a latência, o tempo entre o jogador falar e o NPC responder. Mesmo um atraso de poucos segundos já é o suficiente para quebrar a imersão. Por isso, otimizar o tempo de resposta entre o reconhecimento de fala, o processamento do modelo e a geração de voz é essencial.

Outro ponto importante é o controle das respostas. Modelos de linguagem são extremamente flexíveis, mas essa liberdade pode gerar respostas fora do contexto do jogo ou até incoerentes com a personalidade do personagem. Por isso, muitos estúdios usam prompts cuidadosamente projetados, definindo o tom, os limites e até o estilo de fala de cada NPC.

No fim, o segredo está em encontrar o equilíbrio entre o que é tecnicamente possível e o que é perceptível para o jogador. Às vezes, pequenas pausas, gestos ou expressões do personagem já são suficientes para mascarar as limitações e manter a ilusão viva.

Além do entretenimento

Essas mesmas tecnologias que hoje criam momentos impressionantes em jogos também têm um potencial enorme fora do entretenimento. Se um NPC consegue entender o que dizemos, reagir de forma coerente e manter uma conversa natural, por que não usar isso em contextos de treinamento e capacitação profissional?

Empresas do mundo todo já começam a explorar essa ideia, criando simulações realistas com personagens virtuais para treinar habilidades interpessoais, atendimento ao público e resolução de conflitos. Diferente de um treinamento tradicional, onde o colaborador apenas assiste a vídeos ou lê manuais, essas simulações colocam o participante dentro de um ambiente interativo, onde ele precisa conversar, tomar decisões e lidar com situações que imitam o dia a dia real.

O grande diferencial é que a IA permite que cada interação seja única. O “instrutor” ou “cliente” virtual reage de acordo com o que o usuário faz ou fala, oferecendo uma experiência mais natural e personalizada. Isso torna o aprendizado mais envolvente, prático e mensurável, já que é possível avaliar não só o que foi dito, mas como foi dito.

No fim das contas, a mesma tecnologia que faz o Darth Vader responder a jogadores no Fortnite pode ser usada para treinar pessoas reais a lidarem melhor com outras pessoas, abrindo uma nova fronteira para o desenvolvimento profissional.

Colocando mão na massa

Como essa ideia de conversar com NPCs sempre me atraiu, decidi levá-la adiante no meu trabalho de conclusão de curso. Quando comecei a desenvolver o projeto, a Epic ainda nem tinha lançado o Darth Vader no Fortnite, e esse tipo de interação com IA em jogos ainda era algo bem experimental. A proposta foi justamente colocar em prática tudo isso que antes eu só via em trailers e demonstrações: criar uma experiência interativa onde a IA generativa fosse usada para construir diálogos naturais com personagens virtuais.

O resultado foi o Atende.AI, um protótipo de serious game em realidade virtual voltado para o treinamento interpessoal. Nele, o jogador realiza o atendimento em uma agência dos correios, interagindo com clientes virtuais controlados por múltiplas ferramentas de IA que reagem de forma contextual ao que é dito. Para aumentar o nível de desafio e a variedade das situações, cada cliente possui parâmetros que definem seu temperamento, podendo ser, por exemplo, colaborativo, inseguro ou distraído. Isso faz com que o jogador precise adaptar sua comunicação e postura a cada cenário, assim como aconteceria em um atendimento real.

Durante o desenvolvimento, o maior desafio foi equilibrar a parte técnica com a experiência do usuário, garantindo que as respostas da IA fossem rápidas e coerentes o suficiente para manter a imersão. Apesar das limitações, o projeto serviu como uma prova prática de que essas interações, antes focadas a grandes produções de entretenimento, também podem ser aplicadas em contextos reais de capacitação profissional.

Demostração do projeto Atende.AI

Bônus

Se você se interessou pelo projeto, dê uma olhada no relatório completo. Nele, você encontra o embasamento científico da proposta, além de detalhes técnicos sobre o desenvolvimento e a escolha de abordagens e ferramentas.