Pesquisadores testam os limites e falhas da inteligência artificial na identificação de imagens.
A inteligência artificial é produto de décadas de dedicação da engenhosidade humana, que deu origem a sistemas complexos capazes de desempenhar funções muitas vezes com mais celeridade e assertividade que seus próprios criadores. Mas enquanto o medo de sermos dominados pelas máquinas continua sendo apenas uma paranoia cinematográfica, cientistas tentam pregar peças nos computadores – e às vezes conseguem.
Um estudo comandado por um time de psicólogos cognitivos da Universidade da Califórnia (UCLA) submeteu redes de deep learning a alguns testes de identificação de imagens, e os resultados foram curiosos. Na verdade o objetivo não era exatamente enganar a máquina, mas observar em que medida eles se assemelham ao cérebro humano ao analisar imagens e quais são suas limitações nessa missão.
Em um dos testes imagens de animais e objetos foram alteradas. Por exemplo, testaram a identificação de um camelo com listras de zebra, uma chaleira com a superfície de uma bola de golfe e um elefante com o padrão quadriculado de uma meia. O sistema VGG-19 – submetido ao teste, um dos mais avançados da atualidade – só acertou cinco das 40 tentativas. Apontou que definitivamente não se tratava de um elefante e que era apenas de 0,41% a chance de tratar-se de uma chaleira – nesse caso, seu “chute” foi que era mesmo uma bola de golfe. Um forte indício de que para essa tecnologia, mais vale a textura ou o preenchimento que a forma das figuras mostradas.
Noutro teste, os cientistas “mostraram” imagens de estatuetas de vidro transparente, e o resultado foi decepcionante. Nem o VGG-19 nem outro sistema testado, o AlexNet, conseguiram acertar de primeira nenhum desafio. Um urso polar foi identificado como um abridor de latas e um ganso foi rotulado como “website”.
Para analisar a capacidade dos sistemas de avaliar as imagens apenas pela silhueta, foram feitos outros dois testes: um com figuras contornadas em preto e sem preenchimento, e o outro com desenhos todos em preto. Os melhores resultados vieram no segundo. Os “contorno internos” das imagens em branco confundem a máquina.
No quinto experimento, humanos entraram em ação. Primeiro seis imagens que o VGG-19 acertou no teste das silhuetas em preto foram “embaralhadas”, como na figura ao lado. Ao tentar identificá-las novamente, o sistema acertou 5 e chegou muito perto de acertar a sexta. Para os estudantes selecionados para analisar as mesmas imagens, não foi tão fácil. Alguns tiveram apenas um segundo para ver os desenhos. Acertaram 23% das vezes. Quando puderam ver por quanto tempo julgavam necessário, o percentual aumentou, mas pouco: 37%.
Como conclusão geral, os pesquisadores apontaram que enquanto os seres humanos tendem a ver o objeto por inteiro, os sistemas de inteligência artificial processam fragmentos das figuras. Felizmente, seguimos mais competentes que os computadores para identificar imagens. Ao menos por enquanto, vão dizer os mais temerosos.