Seleccione Edição
Entra no EL PAÍS
Login Não está cadastrado? Crie sua conta Assine

Máquinas que veem como humanos

Novo algoritmo ajuda a determinar que partes de uma imagem atrairão a atenção

O novo algoritmo prevê automaticamente em que áreas de uma imagem (aqui, marcadas em cores quentes) uma pessoa fixará mais a atenção. Ampliar foto
O novo algoritmo prevê automaticamente em que áreas de uma imagem (aqui, marcadas em cores quentes) uma pessoa fixará mais a atenção.

Procuramos instintivamente o centro, visualmente falando. Quando uma pessoa não precisa realizar uma tarefa específica (dirigir, cozinhar, ler...), tende a pousar a vista durante um breve instante no centro da cena que tem diante de si, por mais que esse espaço esteja vazio de conteúdo. São apenas alguns segundos, porque imediatamente segue o mesmo padrão visual de quando tem um objetivo; com um viés: nossos olhos captam os objetos proeminentes, aqueles que sobressaem na cena. O resto, o que não é útil para nossa tarefa, é apenas ruído visual, “informação irrelevante para nosso cérebro que, por esse motivo, desprezamos”.

Quem explica é Víctor Leborán, membro da equipe do Centro de Pesquisa em Tecnologias da Informação da Universidade de Santiago da Compostela (CiTIUS) que desenvolveu um modelo computacional capaz de predizer para onde os humanos olhamos. Ou seja, que partes de uma cena têm maior probabilidade de atrair nossa atenção, mesmo quando há nela objetos em movimento.

Essa capacidade humana de eliminar os dados desnecessários do entorno, chamada atenção visual, é, segundo o pesquisador, um processo “derivado de um conjunto de mecanismos evolutivos extremamente complexos em nível óptico e neuronal” de que agora podem dispor as máquinas. Serão capazes de ver como nós.

“O robô reproduz cada um de nossos passos neuronais e é capaz de identificar as partes mais relevantes de seu entorno”, detalham os pesquisadores do CiTIUS para concluir que, dessa forma, se avança na resolução de um dos problemas mais frequentes no âmbito da inteligência artificial: o do excesso de informação.

Ensinar um robô a reproduzir os passos necessários para que aprenda a identificar as partes mais relevantes de seu entorno “requer numerosas e intrincadas técnicas”, muitas inspiradas em modelos humanos.

O modelo prediz para onde olhamos e que partes de uma cena têm maior probabilidade de atrair nossa atenção

O algoritmo desenvolvido –o modelo de atenção visual AWS (Adaptive Whitening Saliency, ou Proeminência mediante Branqueamento Adaptativo)– foi qualificado por especialistas internacionais como um dos melhores do mundo na atualidade. Sua principal contribuição é o desenvolvimento da ferramenta que não só permite filtrar o ruído para sua implementação na robótica móvel, como também detecta quais são as partes mais significativas de uma imagem, as mais atraentes para o espectador.

Para a publicidade

“Tem grande potencial na publicidade”, sustenta Leborán. Conta que uma empresa norte-americana utiliza um modelo semelhante, embora menos desenvolvido, e oferece aos clientes, a um preço de 3.000 euros (12.000 reais) anuais, a consulta do mapa de proeminência de suas páginas: as regiões em que se concentra o impacto visual; aquele lugar concreto para onde se dirige a vista do usuário.

A novidade do modelo desenvolvido pela equipe do CiTIUS é que permite integrar o movimento nesse mapa de informação destacada, conforme confirmaram os estudos experimentais realizados com humanos, “e é preciso levar em conta que as páginas na Internet são cada vez mais dinâmicas”, afirmam os pesquisadores.

O modelo estático, de imagens fixas (AWS) desenvolvido previamente por essa equipe, foi incluído em uma comparação internacional em 2013 realizada por especialistas da University of Southern California, e obteve o primeiro lugar do ranking. Desde então, os pesquisadores avançaram em seu trabalho criando o modelo dinâmico (AWS-D) que pode funcionar sobre vídeos.

Quando há movimento, um elemento muito competitivo na atenção, ele prevalece sobre a cor, por mais chamativa que seja

“Quando alguém se senta na frente do computador simplesmente para navegar, costuma olhar para o centro por alguns segundos. Esse é o lugar em que os criadores de conteúdo geralmente colocam a informação que querem transmitir”, explica Leborán. E detalha que, logo em seguida, a vista se dirige àquelas regiões do entorno diferentes em alguma característica, como a cor, a orientação, o tamanho... Entretanto, quando há movimento, um elemento muito competitivo, ele prevalece sobre a cor, por mais chamativa que seja.

“Nosso modelo é o que melhor prediz esses pontos de fixação em comparação com os demais modelos computacionais de ponta”, diz a equipe científica. Submeteram um grupo de pessoas a livre observação de imagens e vídeos e os pontos sobre os quais todos eles fixaram o olhar coincidiram com o mapa de proemiência previsto pela máquina que, utilizando essa tecnologia, aprendeu a olhar como olhamos.

MAIS INFORMAÇÕES