O CEO da Google, Sundar Pichai, previu um modelo de Inteligência Artificial (IA) que, segundo ele, permitiria que as pessoas tivessem conversas abertas sobre tecnologia.
Mas os funcionários atuais e os ex-funcionários que trabalharam com o modelo de linguagem dizem que permitir um diálogo coerente, fluido e preciso entre humanos e tecnologia continua a ser uma tarefa difícil.
Como resultado, a Google deu um passo mais incremental na IA de conversação ao preparar-se para ensinar línguas estrangeiras através da Pesquisa Google.
O projeto, conhecido internamente como Tivoli, surgiu da unidade de Pesquisa do Google e deve ser lançado ainda este ano.
Vai funcionar inicialmente sobre o texto, e a aparência exata da instrução não pode ser aprendida.
Os googlers também estão a avaliar modos de adicionar a funcionalidade ao assistente de voz e às linhas de produtos do YouTube.
O ensino de línguas estrangeiras permite que o Google mova a IA de conversação mais fluida, como um caso de uso prático, mas de baixo risco.
Usar o tempo ou frase incorreta provavelmente não causará danos graves aos utilizadores.
Há décadas que os pesquisadores de IA trabalham para promover um diálogo entre computadores e humanos que pareça real, captar as nuances de como as pessoas comunicam e simplificar as tarefas.
Essa aspiração de tecnologia já apareceu em filmes como HER, em que um homem comunica com um assistente virtual robô e vive apaixonado.
Numa grande aposta de que as pessoas vão querer aceder a tecnologia no futuro com a voz, e não com os dedos, a Google, Amazon, Apple, Microsoft e Samsung desenvolveram os seus próprios assistentes virtuais.
Hoje, estão integrados em smartphones, altifalantes em casa, controladores de TV e câmaras.
Alguns assistentes, como o Google Assistant, o Samsung Bixby e a Amazon’s Alexa, movimentam carros e aparelhos como frigoríficos inteligentes, fornos e máquinas de lavar.
Mas a maioria desses assistentes virtuais só pode completar uma tarefa de cada vez, a menos que os utilizadores programem atalhos e outras sequências. Caso contrário, solicitações complexas e perguntas de acompanhamento costumam confundir os assistentes. Há também a luta para espelhar a seriedade ou o tom dos pedidos e compreender o seu contexto.
A Google ainda é líder em Inteligência Artificial?
A Google teve uma posição de liderança em IA durante anos, atraindo de forma consistente os maiores talentos da indústria para iniciativas que vão do Google Brain ao DeepMind.
O LaMDA começou na unidade de pesquisa do Google Brain e é o modelo de linguagem que irá impulsionar a nova ferramenta de pesquisa.
Mas a Google enfrenta grande concorrência de outras empresas de tecnologia, incluindo OpenAI, uma equipa apoiada pela Microsoft que publicou avanços significativos, como GPT-3.
Uma ampla gama de empresas está a usar o modelo – que retorna respostas a perguntas em linguagem natural – para desenvolver ferramentas de IA de conversação.
Os utilizadores da Google usam rotineiramente a pesquisa da Google para traduzir idiomas.
No entanto, surge a questão de que a função de ensino de um idioma estrangeiro pode criar um novo problema antitrust para a empresa.
Funcionários atuais e ex-funcionários que trabalham no projeto disseram que esperavam que a criação de intercâmbios mais fluidos por meio de IA conversacional para alunos de línguas facilitasse o domínio de novos idiomas e expandisse o potencial de ganhos dos alunos, tornando-os elegíveis para novos empregos.
O desenvolvimento do Tivoli começou há cerca de dois anos no Google, usando um modelo de conversação neural anterior, Meena, que desde então evoluiu para o LaMDA. (O Google renomeou-o em parte devido a preocupações internas como o facto de ser muito relacionado ao género, podendo ser associado a uma pessoa.)
O LaMDA pode permitir uma conversa coerente e fluida, embora Pichai tenha reconhecido na conferência de programadores da Google que a pesquisa ainda está nos seus estágios iniciais e que a tecnologia tem limitações.
Esta ferramenta foi treinada apenas em texto, não em imagens, áudio e outros meios que as pessoas usam para comunicar.
Os avanços da IA e do modelo de linguagem mudaram aos poucos devido ao poder de computação necessário para treinar grandes modelos e à complexidade de como as pessoas interagem umas com as outras quando falam, escrevem e partilham multimédia.
«Conversar é o que fazemos. Conseguir um sistema tão bom quanto um ser humano médio é apenas uma barreira muito alta», referiu Clément Delangue, cofundador da plataforma de machine learning Hugging Face, que ajuda empresas de IA a construir modelos de processamento de linguagem natural.
Melhorar ainda mais as conversas entre humanos e tecnologia, como assistentes digitais, também é repleto de complexidade ética, partilham pesquisadores de IA responsáveis, porque muitos humanos tendem a tomar como verdadeiras as informações que as ferramentas digitais fornecem em resposta às perguntas.
Além disso, os próprios modelos são tão bons quanto os dados fornecidos, que normalmente vêm de fontes da Internet, incluindo fóruns de discussão, artigos de notícias e outros sites.
Isso significa que os preconceitos e imprecisões humanos estão embutidos.
O sistema da OpenAI foi criticado por gerar conteúdo preconceituoso e ofensivo, por exemplo. Uma porta-voz da OpenAI anunciou que tem equipas dedicadas à segurança e à política e que desenvolveu um processo que pode melhorar o comportamento do modelo de linguagem e mitigar resultados prejudiciais.
A Google tem lutado com acusações de retaliação contra trabalhadores que levantam preocupações sobre a ética da IA.
A unidade de IA da Google sofreu alterações na liderança desde a demissão do pesquisador Timnit Gebru no ano passado, após uma disputa sobre um artigo de pesquisa.
M. Bender, professora do departamento de linguística da Universidade de Washington, afirmou que os consumidores correm o risco de acreditar que a IA de conversação fornecerá sempre respostas precisas.
Bender, que coescreveu o artigo que está no centro do conflito de Gebru com a Google, partilhou que também está preocupada que a empresa tenha priorizado a capacidade do LaMDA de gerar uma linguagem coerente e sensata em vez da sua precisão factual.
«Se o bot de chat é enquadrado como algo explicitamente fictício e divertido, então, com certeza, essa é uma ordem de objetivos é legítima. Mas se for para envolver algo como pesquisar ou responder a perguntas genuínas das pessoas sobre informações, então os factos têm de ser primeiro.»
A corrida para desenvolver inteligência artificial que possa imitar a conversação humana está em progressivo desenvolvimento tecnológico e ético.