Aos olhos dos humanos, as inteligências artificiais (IAs) podem parecer neutras e imparciais. Porém, um estudo realizado pela Universidade de Washington revelou que as pessoas tendem a manipular o comportamento das IAs para atender aos seus próprios interesses, mesmo que isso prejudique o treinamento correto desses sistemas. Essa descoberta aponta para um desafio importante no desenvolvimento da IA.
Como as pessoas influenciam o treinamento da IA
O experimento envolveu um jogo clássico da teoria dos jogos, no qual um jogador tem uma certa quantia de dinheiro para dividir com outro. As pessoas costumam aceitar propostas de divisão igualitária ou próximas disso, mas o estudo revelou que esse padrão muda quando o outro jogador é uma IA.
Quando informados de que estavam interagindo com uma inteligência artificial, os participantes humanos passaram a rejeitar as ofertas de divisão igual, preferindo propostas mais vantajosas para si. Isso porque eles entenderam que suas respostas serviriam para treinar a IA, incentivando-a a fazer ofertas cada vez melhores para o lado humano.
Essa descoberta é preocupante, pois mostra que as pessoas podem agir de maneira enviesada quando estão treinando uma IA, mesmo que isso não seja benéfico para o desenvolvimento desses sistemas a longo prazo.
O impacto no treinamento de IAs
Estudos anteriores com jogadores humanos mostram que eles tendem a rejeitar ofertas muito desiguais, como 70-30. Então, ao “treinar” a IA para fazer propostas piores para si, os participantes do estudo acabaram tornando-a mais “generosa”, mesmo que isso não fosse melhor para eles no futuro.
Para os pesquisadores, isso revela um problema no treinamento de IAs: o comportamento humano enviesado pode criar sistemas com respostas distorcidas, prejudicando o objetivo de desenvolver inteligências artificiais imparciais e eficientes.
Desafios para o futuro da IA
O impacto desse fenômeno pode ser menor em IAs baseadas em Modelos de Linguagem de Grande Porte (LLMs), como o Gemini da Google. Nesses casos, a participação humana direta no treinamento é menor.
Porém, em situações em que os seres humanos são necessários para aprimorar o aprendizado da IA, existe o risco de criar sistemas enviesados e menos confiáveis. Isso mostra a importância de se desenvolver estratégias para mitigar esse problema, a fim de garantir que as inteligências artificiais do futuro sejam realmente imparciais e confiáveis.
Conclusão
O estudo da Universidade de Washington revela um desafio importante no desenvolvimento da inteligência artificial: a tendência das pessoas de manipular o comportamento das IAs em benefício próprio. Essa descoberta aponta para a necessidade de se pensar em métodos de treinamento que minimizem os efeitos desse viés humano, para que possamos contar com sistemas de IA cada vez mais justos e confiáveis.