Quatro compras com o cartão bastam para identificar qualquer pessoa

Os padrões de uso dos cartões permitem descobrir a identidade de 90% de uma amostra de 1,1 milhão de pessoas anônimas, conforme demonstra um estudo do MIT

Os dados anônimos das compras permitem identificar as pessoas, em especial mulheres e os que têm mais rendimentos.
Os dados anônimos das compras permitem identificar as pessoas, em especial mulheres e os que têm mais rendimentos.Yves-Alexandre de Montjoye/MIT

Quatro gestos tão corriqueiros como pagar o bilhete de metrô, a comida do almoço, um par de tênis em uma loja de material esportivo ou as entradas do cinema permitem identificar quase qualquer pessoa. Embora não se saiba o nome ou o número da conta, um estudo com dados de compras de 1,1 milhão de pessoas revela a identidade em mais de 90% dos casos. É o poder dos metadados e do big data.

Quando estourou o caso Snowden nos Estados Unidos, aconteceu um grande escândalo com um dos programas de espionagem da NSA que compilava milhões de ligações telefônicas. As autoridades norte-americanas esclareceram em seguida que não espionavam o conteúdo das conversas em si, a não ser metadados como quem ligava para quem, a que horas ou durante quanto tempo. O Google e o Facebook também os usam para melhorar seus serviços ou oferecer publicidade mais personalizada. Em princípio, a reunião desse tipo de dados de forma anônima em grandes bases não seria uma grande ameaça à privacidade das pessoas. Agora, essa presunção se demonstrou falsa.

Um grupo de pesquisadores do Media Lab do Instituto Tecnológico de Massachusetts (MIT) criou alguns algoritmos matemáticos que permitem identificar uma pessoa baseando-se em seus hábitos de compra. Conseguiram que um grande banco de um país da OCDE (por razões óbvias, não dizem o nome do banco e nem de que país se trata) deixasse que aplicassem seus algoritmos a uma base de dados com as transações de pagamentos eletrônicos de 1,1 milhão de clientes em 10.000 lojas durante os meses de janeiro e março de 2014.

Os dados de navegação na internet, os movimentos bancários ou os dados de transporte e mobilidade também têm um alto grau de unicidade e permitiriam de forma inequívoca distinguir uma pessoa de outra

"Com uma média de quatro transações, o dia e a loja é suficiente para identificar de forma exclusiva as pessoas em 90% dos casos", diz o pesquisador do MIT e coautor do estudo, Yves-Alexandre de Montjoye. "A lógica subjacente reside em que muitas pessoas compram algo em uma determinada loja (C&A, por exemplo) em um dia determinado (digamos, ontem). Entretanto, só algumas delas também comprarão em determinado Walmart nesse mesmo dia. E ainda menos irão comer no dia seguinte na mesma região. Quando você sabe quatro lugares ou lojas e dias, em 90% das vezes há uma e só uma pessoa em toda a base de dados que compra algo em quatro lugares nesses quatro dias", explica.

Dos arquivos do banco usados para o estudo, os pesquisadores só dispunham do dia (renunciaram a registrar a hora, o que teria afinado ainda mais os resultados) e o estabelecimento comercial onde se realizou a compra. Como é lógico, cada transação também possui um identificador de usuário em forma de uma combinação alfanumérica de 8 dígitos, que permite à entidade bancária passar o pagamento a quem fez a compra. Isso serviu para que os pesquisadores confirmassem as porcentagens de acerto.

Mais informações

Há um quarto metadado que pareceria irrelevante, mas que, na realidade, dá pistas extras para identificar as pessoas. Trata-se da importância da compra. Os autores do estudo, publicado na revista Science, agruparam as importâncias em intervalos. Não necessitaram do preço exato para ampliar as possibilidades de voltar a identificar o comprador.

"Analisamos também o que acontece se sabemos o preço aproximado do que você comprou. Por exemplo, 30 dólares na C&A, 20 no Walmart, 7 para a comida... Isso, na prática, faz as pessoas inclusive mais únicas. Aqui, com apenas três pontos (lojas, dia e preço) há 94% de possibilidades de voltar a identificar um indivíduo", comenta o pesquisador francês.

É o paradoxo dos dias de hoje. As bases com imensas quantidades de dados anonimizados servem para mostrar a unicidade do ser humano. Como diz Montjoye, não se trata tanto do aspecto previsível dos humanos, "mas de como nossa conduta (e nossos padrões de compra) nos fazem únicos em comparação com outros".

Os autores do estudo também averiguaram o efeito do gênero ou o nível de renda na probabilidade da reidentificação. Embora as mulheres só fossem 24% da amostra analisada, comprovaram que elas são, em média, 1,2 vezes mais identificáveis. O mesmo fenômeno acontece com o nível de rendimento. Os compradores com maior média de gasto têm 1,7 vezes mais probabilidades de serem identificados.

O objetivo do estudo não era explicar por que as compras permitem identificar as pessoas, mas os pesquisadores lidaram com algumas possíveis variáveis para explicar essas diferenças. Viram que a forma como alguém divide o tempo entre diferentes lojas era o melhor indicador para saber se o comprador era mulher ou de alta renda. Esses dois grupos mostram um padrão de maior diversidade na hora de comprar que os homens ou as pessoas de menor renda.

Embora os cientistas do MIT afirmem que são necessários mais estudos em outros âmbitos, eles acreditam que os dados de navegação na internet, os movimentos bancários ou os dados de transporte e mobilidade também têm um alto grau de unicidade e permitiriam de forma inequívoca distinguir uma pessoa de outra. Em um país como a Espanha, por exemplo, onde segundo as estatísticas do Banco da Espanha há quase 70 milhões de cartões de crédito e débito com os quais se fazem operações de 100 bilhões de euros, a simples ideia de se possa identificar alguém pelo uso que faz de seu cartão causa espanto.

Os metadados podem ser dados pessoais", diz o diretor da AEPD

Felizmente, os autores do estudo tiveram de assinar um acordo de confidencialidade com o banco para poder usar sua base de dados, que se supõe bem custodiada. Mas, como concluem em seu trabalho, o problema fundamental que o estudo revela é que as leis sobre privacidade repousam sobre uma premissa que eles demonstraram estar incorreta. Por muito estrita que seja a norma, esta só é aplicável aos dados pessoais, ou seja, aqueles que permitem identificar um indivíduo. Os mais óbvios são seu nome, seu rosto, seu endereço e seu telefone. Mas, o que acontece com os metadados como a compra de um par de tênis em uma loja determinada?

"Os metadados podem ser dados pessoais e muitas vezes o são", recorda o diretor da Agência Espanhola de Proteção de Dados, José Luis Rodríguez. "Para que não sejam dados pessoais têm de ser anônimos, com uma dissociação irreversível", acrescenta. Se, como nessa pesquisa, é possível fazer o caminho inverso dos metadados à identidade da pessoa, então seria aplicada a legislação sobre privacidade. Para Rodríguez, o problema de fundo é que "na medida que existe cada vez mais informação disponível, debilita-se a anonimização porque há mais possibilidades de combinar e, portanto, de identificar ou individualizar a pessoa".

Regras

Mais informações

Arquivado Em

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Logo elpais

Você não pode ler mais textos gratuitos este mês.

Assine para continuar lendo

Aproveite o acesso ilimitado com a sua assinatura

ASSINAR

Já sou assinante

Se quiser acompanhar todas as notícias sem limite, assine o EL PAÍS por 30 dias por 1 US$
Assine agora
Siga-nos em: