Na Prática a Teoria é Outra Rotating Header Image

Eleições 2010: a amostra das pesquisas (II)

 

O Cristiano respondeu ao meu post anterior. Como a resposta é interessante, e minha tréplica ficou grande demais para o Intense Debate, aqui vai ela:

Cristiano, obrigado pela resposta. Eu ia te mandar um email, mesmo, porque, ao contrário do cara lá do sapato, seu texto sugere que você entende desse troço, e está sinceramente interessado no aspecto estatístico da questão. Vamos lá:

Por exemplo. Imagine que desejamos saber a demanda por shampoo masculino e sabemos que 50% dos homens tem cabelo e 50% são carecas, em uma população de 100 homens. Daí resolvemos sortear 10 homens aleatoriamente. Rodamos a urna e escolhemos 9 carecas e 1 cabeludasso. Qual a probabilidade de esse sortei ocorrer? Muito baixa. Qual o valo desta pesquisa? Também muito baixo, porque eh pouco representativo da populacao.

Bem, creio que com um tamanho adequado de amostra, um sorteio que desse essa proporção seria um freak of nature total, não? Porque deveríamos supor que isso ocorreu agora? Lembrando, nós saberíamos que a amostra dos carecas estava errada só se soubéssemos, ou pelo menos tivéssemos uma boa idéia, de qual a amostra real. No caso da pesquisa, naturalmente, não sabemos.

Lembremos que as características que estão sendo discutidas se referem a cidades (este é o meu ponto), não a pessoas; se o número de entrevistados  analfabetos, por exemplo, fosse 30 pontos percentuais maior que o número de analfabetos na população, aí, sim, estaria tudo furado. Se as cidades sorteadas tiverem analfabetismo 10 pontos acima da média, isso pode não querer dizer nada, porque, inclusive, nada garante que os entrevistados naquela cidade são analfabetos.

Aparentemente a pesquisa do Vox Populi sorteou cidades com um perfil de educação, renda etc (nem entro na questao de como foi a votacao na eleicao passada, ou como eh a distribuicao do bolsa familia) que não representa a populacao. Esta é a critica. Ou seja, ao rodar a urna, um evento de probabilidade baixa ocorreu.

Repito: só pelos dados que estão sendo discutidos, não sabemos se a amostra do VP, ou da Sensus, não são representativos. A propósito, nos bancos de dados que eu já vi (um dos quais por looooongos sete anos), no livro-código do banco de dados, ou em algum relatório que o acompanha, há a comparação dos indivíduos amostrados com dados do censo, justamente para checar essas coisas. Não sei se no Brasil se faz isso, mas deve existir algo assim. Aí, sim: se a amostra do Instituto tiver duas vezes mais, sei lá, pobres, ou negros, ou adoradores de Elvis, enfim, qualquer característica que nos pareça relevante nesse caso, está furado.

Mas, com o risco de ser repetitivo, repito (pois é): a amostra tem que ser aleatória para os indivíduos, não para as cidades.

A questao que mais me intrigou foi a distribuicao dos votos do Ciro entre Serra e Russeff, quando o primeiro sai da pesquisa. Este resultado também tem probabilidade muito baixa, dados os historicos de pesquisas anteriores.

Ah, sim, esse resultado é muito interessante. Mas, se você pensar, não é tão improvável, não. Na tabelinha aí de baixo tem os resultados de Serra, Dilma, Marina e Indecisos, com e sem Ciro (que tem 11,9% das intenções), e a diferença entre as duas colunas(dados tirados o ótimo arquivo de pesquisas do UOL):

          S/   Ciro           Ciro   Diferença
Serra 40,7 33,2 7,5
Dilma 28,5 27,8 0,7
Marina 9,5 6,8  2,7
Indecisos 21,4 20,4 1
Soma das Diferenças 11,9

A conclusão simples, e excelente para sua candidatura, é que Ciro começou a tirar voto de Serra. Isso pode ter acontecido, pode não ter acontecido, mas  não é absolutamente improvável. O Ciro não tem perfil de petista. E, , se o cara não quer votar na Dilma, vai ter que votar no Ciro, porque Serra continua Missing in Action.

Mas, claro, pode ser ponto fora da curva, vamos ver. Por exemplo, na margem de erro, essa queda de 12 pontos de diferença para 6 pode ter sido de, digamos, 4 pontos, ao invés de 6.

De qualquer maneira, valeu, aí, Cristiano, pela resposta, e parabéns pelo blog.

PS: na primeira pesquisa encomendada pela candidatura Marina Silva, o resultado é praticamente igual aos de Vox e Sensus, com diferença de 5 pontos entre Serra e Dilma na estimulada (com Ciro).

Viralize:
  • Twitter
  • Facebook
  • del.icio.us
  • Digg
  • Technorati
  • Tumblr
  • Posterous
  • Google Bookmarks
  • LinkedIn
  • Blogplay
  • StumbleUpon
  • Wikio
  • Print
  • PDF
  • email

This website uses IntenseDebate comments, but they are not currently loaded because either your browser doesn't support JavaScript, or they didn't load fast enough.

6 Comments on “Eleições 2010: a amostra das pesquisas (II)”

  1. #1 Leonardo Bernardes
    on Feb 6th, 2010 at 1:15 pm

    "A pesquisa do Vox Populi sorteou cidades com um perfil de educação, renda etc que não representa a populacao". A Vox Populi não entrevista cidades, mas pessoas. E por mais que o perfil de uma cidade seja diferente (ou superior) ao padrão nacional, isso não quer dizer que quem mora ali é necessariamente um exemplar dessa diferença. Se você pesquisa somente em determinados bairros, ou em determinados Departamentos de Universidades, dentro de uma cidade, talvez você consiga números relativamente homogêneos, mas por isso há o cuidado em distribuir os pontos de coleta de informação (bem, se se tem informação quanto ao direcionamento desse tipo de coisa, aí sim vale a pena ouvi-la). Se a escolha individual é aleatória é justo porque se pretende evitar a discussão acerca do que seja ou não o paradigma de "representação". Quem vai determinar quando a população está ou não representada? Poupo importa, se a pesquisa escolhe aleatoriamente seus entrevistados.

    Se a gente levar à frente do argumento de Cristiano, a necessidade de bem representar carecas e calvos numa pesquisa, nós chegamos à exigência de que os institutos de pesquisa abandonem a aleatoriedade e passem a selecionar os entrevistados por critérios até que determinados paradigmas de representação tenham sido satisfeitos.

    Há um certo nível de controle, o resto fica a cargo da aleatoriedade na escolha dos entrevistados.

  2. #2 Cristiano
    on Feb 6th, 2010 at 2:56 pm

    Caros,

    em primeiro lugar. Não é o Vox Populi, é a CNT/Sensus. Eu me enganei ao escerever o nome do instituto, mas estamos falando da mesma pesquisa.

    O ponto todo é o seguinte: essa amostra é pouco representativa da população. Como eu sei disso? Porque grande parte da população eleitoral brasileira vive em grandes centros urbanos. É óbvio que existem mais cidades pequenas do que grandes. E que se você sortear cidades vai sortear mais cidades pequenas, como o Celso escreveu no post.

    O comentário do Leonardo diz tudo. "a necessidade de bem representar carecas e calvos numa pesquisa, nós chegamos à exigência de que os institutos de pesquisa abandonem a aleatoriedade e passem a selecionar os entrevistados por critérios até que determinados paradigmas de representação tenham sido satisfeitos."

    Exato Leonardo. Uma pesquisa quee se preze, não pode ser totalmente aleatória! Ela tem que ter critérios mínimos que representem a população. Foi isso que eu quis mostrar com o caso dos carecas x cabeludos.

    Veja bem, meu ponto não é que isso foi feito intencionalmente. Mas chamou a atenção, dado que isso não ocorria anteriormente. Por exemplo. Na pesquisa do Vox Populi (agora sim Vox Populi) as cidades do RS entrevistadas foram as seguintes:
    ALVORADA (RS), CAPAO DO LEAO (RS) , CAXIAS DO SUL (RS), PORTO ALEGRE (RS), SANTA CECILIA DO SUL (RS), SINIMBU (RS), TRAMANDAI (RS), URUGUAIANA (RS)

    5 destas são grandes centros urbanos: ALVORADA, CAXIAS, TRAMANDAÍ, PORTO ALEGRE e URUGUAIANA. As outras 3 são menores.

    Vamos olhar agora a pesquisa do CNT/CENSUS.
    RS – Bagé – 8 RS – Cacique Doble – 11 RS – Carazinho – 10 RS – Caxias do Sul – 11 RS – Dois Irmãos – 12 RS – Novo Hamburgo – 12 RS – Pelotas – 10 RS – Porto Alegre – 15 RS – Sapiranga – 12 RS

    2 Cidades conhecidem. PORTO ALEGRE e CAXIAS. NOVO HAMBURGO e PELOTAS seriam as duas outras "grandes" e podemos considerar BAGÉ como uma quinta.

    Você dirá, poxa, mas então tá tudo bem. Estaria, se o objetivo fosse misturar cidades e não pessoas. No momento que pega-se 12 pessoas em DOIS IRMÃOS e 15 em PORTO ALEGRE, pronto a pesquisa naufragou. Já que a ponderação populacional foi pro buraco.

    Vejam bem, que eu estou falando com a informação que eu tenho. Não temos o numero de pessoas entrevistadas na do Vox Populi. Pelo menos eu nao achei no site. Mas eu imagino que a do Vox Populi tenha mais pessoas de POA do que de SINIMBU.

    Era só essa a crítica.

    Vejam que a outra questão, de o Ciro distribuir 90% dos votos pro Serra e 10% pra Russeff é bem improvável. Eu não falei que era ABSOLUTAMENTE improvável. Eu falei que era um evento improvável. Assim como ganhar na Loteria é um evento improvável, mas possível.

    A margem de erro é outra coisa que os jornalistas nao entendem. Se eu digo que tem 3% de margem. Significa que com uma chance relativamente baixa eu posso errar por 3% para cima ou para baixo. MAS, errar 3% para baixo para um candidato E AO MESMO TEMPO errar 3% para cima para outro (de modo que eles se aproximem) é um evento com probabilidade baixíssima. Isso nunca é comentado, mas essa conta é sempre feita pra tentar alegar empate técnico. Sim, tecnicamente há empate. Mas a chance dessa tecnicalidade ocorrer é baixíssima.

    Bom, chega de palpitar. Vocês entenderam o ponto. Veja bem, eu não sou nem Serrista nem Rousseffista. Faz muitos anos que nem voto. Só me chamou a atenção o debate e entrei nele. Eu só queira fazer o paralelo com a eleição que ocorreu no RS 4 anos atrás, quando as pesquisas erraram de lavada.

    Abraço pra vcs e bom debate!!

    PS: Celso, parabéns pelo blog tb!

  3. #3 João Paulo Rodrigues
    on Feb 6th, 2010 at 5:10 pm

    Bom, se a questão é a proporcionalidade, Porto Alegre tem, pelo IBGE, 1.423.123 habitantes, num estado com 10.855.214, ou seja, 13,11% da população gaúcha. Na amostra, POA está representada por 14,85% da amostragem (15 pessoas num universo de 101 entrevistados). O fato de Sapiranga ter quase o mesmo número de representantes que POA se deve ao fato de que Sapiranga, junto com Carazinho, Cacique Doble e Dois Irmãos responder pelo fator "interior", na pesquisa. Não daria para pegar somente um em Sapiranga, um em Carazinho etc., porque a deturpação, em face do universo de 100, continuaria, e o instituto teria que arcar com os cursto de fazer a pesquisa em dezenas de pequenas cidades, e não só em 4 – sem alterar os resultados.
    Já POA representa a si mesma, pois só há, obviamente, uma capital e metrópole no RS. Bom, capital cada estado só tem um, em toda parte. Provavelmente, Novo Hamburgo represente a região metropolitana e Caxias a serra. Não tive a pachorra de descobrir onde ficam as cidades pequenas, mas, vendo as demais, parece nítido que há uma preocupação com a variedade regional.
    Não entendo nada de estatística, mas não me parece haver nenhuma deflação do valor de POA na pesquisa em questão.

  4. #4 João Paulo Rodrigues
    on Feb 6th, 2010 at 5:11 pm

    "Bom, capital cada estado só tem um…" Digo: "Bom, capital cada estado só tem UMA".

  5. #5 Cristiano
    on Feb 7th, 2010 at 4:03 pm

    Oi João,
    você tem razao na proporcionalidade em termos de populacao. Mas em distribuição de renda e educação, por exemplo? O ponto todo é o seguinte, por que a cidade X foi escolhida? E não a cidade Y? Em tese, você gostaria de fazer exatamente o que você disse, selecionar cidades que representam certas regiões em termos de população votante, educação, renda, etc? Se você sorteia a cidade, perde essa chance de fazer a amostra se parecer com a população.

    É obvio que cada estado só tem uma capital, mas existem outros centros urbanos. A populacao da regiao metropolitana de POA tem 4 milhões de habitantes. Não creio que NH e Sapiranga sejam uma boa representação dos outros 2.5 milhoes. Mas veja, eu estou dando um caso, que eu achei mais simples.

    "Coincidentemente" nesse caso, os dois prefeitos são do PT. Enquanto Alvorada, usada no Vox Populi é do PTB. Como eu nao sei a renda e a educação o debate na internet passou a ser em cima dessa "coincidencia" de poder das prefeituras das cidades "sorteadas".

    Foi de fato, essa crítica mais geral feita pelos analistas.

    Abraço!
    Cristiano

    Enfim..

  6. #6 João Paulo Rodrigues
    on Feb 7th, 2010 at 10:58 pm

    Entendi. Mas
    "O ponto todo é o seguinte, por que a cidade X foi escolhida? E não a cidade Y? Em tese, você gostaria de fazer exatamente o que você disse, selecionar cidades que representam certas regiões em termos de população votante, educação, renda, etc? Se você sorteia a cidade, perde essa chance de fazer a amostra se parecer com a população."
    O ônus da prova cabe a quem critica. Pode ser que as cidades não representem um panorama ponderado. Mas pode ser que sim.
    Obrigado pela réplica.
    Um abraço.

Leave a Comment