_
_
_
_
_

Um tuíte, um voto?

A revolução do ‘big data’, com sua enorme coleta de informações, promete mudar as pesquisas de opinião pública. Mas as últimas experiências eleitorais aconselham usar essas técnicas para complementar os métodos tradicionais

Em maio de 2010, quatro professores da Universidade Técnica de Munique publicaram um estudo sobre as eleições realizadas no ano anterior na Alemanha. À primeira vista, o documento não era grande coisa: os autores ratificavam o resultado das eleições nove meses depois de terem acontecido. O que mais chamou a atenção foi como os autores fizeram o estudo das intenções de voto: contaram o número de menções no Twitter que cada partido recebeu nas quatro semanas anteriores às eleições. Aconteceu que o número de tuítes correspondentes a cada partido estava muito próximo da porcentagem final de votos obtidos, ainda mais próximo do que os resultados apontados pelas pesquisas anteriores à votação. A equação parecia simples: quanto mais tuítes, mais votos.

Rafa Hohr
Mais informações
Twitter: Eduardo “quero desmentir” Cunha
A nova era da computação e seus primeiros movimentos no Brasil
“A maior parte da informação não é publicada; fica na mente das pessoas”
Deus e o impeachment no arsenal de tweets de Eduardo Cunha

O teste parecia indicar que as pesquisas de opinião pública poderiam mudar para sempre graças ao uso do big data (dados em grande escala) e, mais particularmente, graças aos dados que geramos todos os dias quando usamos as redes sociais. Na Espanha existem cerca de 13 milhões de usuários do Twitter. Em média, tuítam cinco vezes por dia. Isso representa um enorme volume de texto, equivalente a 2.000 exemplares diários da Bíblia. Suponhamos que alguém tente ler todos os tuítes. Não acabaria compreendendo muito melhor os pensamentos (banais, profundos, mesquinhos) de seus concidadãos? Se for assim, por que não usar todos esses dados para prever o que vai acontecer quando esses cidadãos forem às urnas?

Quem se dedica às pesquisas de opinião costuma responder que “o tamanho não importa”. As amostras reduzidas são úteis desde que sejam representativas da população em geral; por exemplo, se as pessoas forem escolhidas aleatoriamente. Por outro lado, outras amostras maiores podem ser até prejudiciais se não forem típicas da população em geral. Os usuários do Twitter são muito numerosos, mas eles não são uma amostra representativa (geralmente são mais jovens e mais à esquerda), e os tuítes reunidos aleatoriamente não representam a opinião geral nem no Twitter nem na população.

Recentemente, as eleições gerais britânicas de 2015 mostraram uma falta de consistência da equação “mais tuítes, mais votos”. Antes da eleição, um grupo de pesquisadores previu que o Partido Nacional Escocês (SNP, na sigla em inglês), que recebia muitos tuítes favoráveis, obteria 9,2% dos votos, número 0,5 ponto percentual superior à porcentagem da Escócia na população total do Reino Unido. Há muitos escoceses que usam o Twitter e muitos escoceses que apoiam o SNP, mas os últimos costumam ser mais ativos do que aqueles que não o são, por isso é impossível tentar prever resultados eleitorais com base em tuítes.

Isso significa que devemos nos conformar com os métodos tradicionais de pesquisa? Não necessariamente. Nas eleições britânicas de 2015, falharam redondamente tanto as pesquisas de opinião tradicionais quanto os analistas de big data. Todas as projeções com base em pesquisas (inclusive a minha) apontavam que o Partido Trabalhista e o Conservador ficariam praticamente num empate. No entanto, os conservadores conseguiram uma vitória contundente, seis pontos acima dos trabalhistas.

Nas eleições britânicas de 2015, as pesquisas de opinião falharam tanto quanto os analistas de big data

As razões desse fracasso –e de outros fracassos de pesquisas de opinião recentes em Israel e na Argentina– ainda não estão claras. Mas, certamente, têm a ver com o pequeno segredo que guarda o setor: as amostras que as empresas de pesquisa de opinião utilizam são cada vez menos representativas de uma amostra aleatória da população. É difícil que alguns métodos de sondagem (entrevistas telefônicas, grupos da Internet) reflitam certos setores da população. Se uma amostra tem, por exemplo, menos idosos do que há em geral, as empresas dão mais peso que o devido aos idosos entrevistados.

A reponderação funciona muito bem com aspectos como idade e sexo, porque os censos nacionais nos permitem saber quantas pessoas compõem cada categoria demográfica. Mas, quando se trata de outros atributos, não podemos recalibrar de modo tão simples. Um dos problemas no Reino Unido foi de que nas amostras havia pouca representação das pessoas politicamente menos ativas, que desligavam o telefone quando entrevistadas e não participavam dos grupos da Internet. Isso é muito mais difícil de corrigir por uma reponderação porque o censo, obviamente, não registra quantas pessoas têm interesse por política.

Os problemas de predição das pesquisas tradicionais não são tão graves como os apresentados pelo uso do big data. Daniel Gayo-Avello, da Universidade de Oviedo, estuda os acertos das previsões baseadas no Twitter, e sua conclusão é que, em geral, são menores do que os acertos obtidos pelas pesquisas tradicionais. Assim, a enorme coleta de dados não se popularizou porque nos ajude a prever melhor os resultados eleitorais, mas porque ajuda os partidos a identificar os eleitores e que assim possam se dirigir a eles.

Em julho do ano passado, o Partido Trabalhista britânico lançou uma ferramenta na Internet capaz de dizer a uma pessoa qual era o seu número do Serviço Nacional de Saúde (NHS, da sigla em inglês) quando era criança. A ferramenta solicitava a data de nascimento, um endereço de e-mail e um código postal e dizia o número aproximado (eu nasci em 1982 e o NHS foi fundado em 1948; portanto, eu sou aproximadamente a criança número 24 milhões). Era uma ferramenta engenhosa por várias razões. Fazia as pessoas pensarem no NHS, questão na qual os trabalhistas tinham vantagem sobre os conservadores. Obrigava a fornecer a data de nascimento, elemento útil agrupar os eleitores, mas também para relacionar dados. E, como solicitava um código postal, permitiu que o partido cruzasse os dados com os do censo eleitoral. Aqueles que usaram a ferramenta receberam e-mails do partido com mensagens que muitas vezes davam uma ênfase especial na saúde.

A enorme coleta de dados se popularizou porque ajuda a identificar os eleitores, e não por suas previsões

A ferramenta dos trabalhistas poderia ter sido muito mais agressiva em sua coleta de dados. As ferramentas desse tipo são comuns no Facebook, mas não é tão frequente que depois verifiquemos a qual tipo de dados têm acesso. Os provedores de dados em grande escala têm hoje um poder comparável ao das agências de classificação de risco. As pesquisas nasceram como uma forma de emancipação, uma forma que a estatística proporcione uma avaliação pública e verificável do ânimo do eleitorado. A carga de responder recaía sobre alguns tantos entrevistados selecionados aleatoriamente. A utilização de dados em grande escala, no entanto, oferece enormes quantidades de informações particulares e faz com que a carga esteja em todos.

'Porta' a 'porta'

El País
  • EUA. A campanha de reeleição de Obama foi pioneira. A cada eleitor foi atribuída uma nota de probabilidade em várias dimensões, como a possibilidade de fazer doações ou a dificuldade de convencê-los a votar em Obama. Assim, se concentraram em uma série de eleitores. Para chegar a esse nível de detalhe é fundamental a grande quantidade de informação à qual os partidos têm acesso naquele país, comprada por não pouco dinheiro de brokers de dados comerciais.
  • Reino Unido. Os três principais partidos recorreram a plataformas de big data nas eleições de maio. Mas os resultados estão longe daqueles alcançados por Obama por causa da maior proteção de dados na Europa.
  • Canadá. Nas últimas eleições, em outubro, os três partidos utilizaram plataformas móveis e aplicativos para, entre outras coisas, organizar os dados coletados durante as visitas aos eleitores.

É fácil destacar os êxitos das pesquisas. Mas o maior êxito do big data está relacionado com sua função de “persuasor oculto”, algo sobre o qual escreveu Vance Packard em seu célebre ensaio de 1957 sobre manipulação mental, As Formas Ocultas da Propaganda.

Chris Hanretty é professor de Política na Universidade de East Anglia e cofundador do site electionforecast.co.uk.

Mais informações

Arquivado Em

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_