Estatística – Intervalos de confiança e seu entendimento contra-intuitivo

O cenário: Estatística inferencial. O problema:

  • Estamos considerando uma variável aleatória Y,
  • Estamos interessados em determinado parâmetro (por exemplo, a média) associado a esta variável aleatória Y,
  • Nós não sabemos o valor do parâmetro.

Assim:

  1. Nós iremos estimar este parâmetro desconhecido utilizando os dados obtidos em nossa pesquisa e
  2. Iremos também verificar quão boa é nossa estimativa.

O primeiro objetivo é bem mais fácil do que o segundo. Veja só: se o parâmetro que temos a necessidade de estimar é a média de uma variável aleatória, nós podemos fazer isso a partir da média amostral. A média populacional, que também é chamada de Esperança, é apresentada como E(Y) ou µ. A média amostral, por sua vez, é apresentada como ȳ. Basicamente, é possível mostrar que a média amostral é o melhor estimador para média populacional. Ele é não-viesado e consistente. No entanto, é importante lembrar que o valor de µ nem sempre será o ȳ de uma amostra.

A ideia para o segundo objetivo é a seguinte: apesar de termos, tipicamente, apenas uma mostra em mãos quando a gente trabalha na vida real, o raciocínio que embasa a estatística frequentista depende de pensarmos a longo prazo. Ou seja, pensarmos em todas as possibilidades adequadas para amostras. A melhor amostra adequada é, sem dúvidas, uma amostra aleatória simples e o exemplo abaixo materializa isso:

Nossa turma 5 de Estatística aplicada está com as inscrições abertas. Clique aqui e aproveite.

Estamos interessados em estimar a média de horas dormidas por um grupo de calouros universitários. Em termos estatísticos µ= E(Y).

  • Coletamos uma amostra de observações  y1, y2, … , ysobre esta variável,
  • Calculamos a média amostral e
  • Para verificar o quão boa a nossa estimativa foi, vamos olhar em todas as outras possíveis amostras.

Isto pede que …  

  • A gente faça mais pesquisas e armazene os valores encontrados das diversas médias amostrais Ȳn (repita o procedimento).
  • Esta nova variável Ȳterá uma distribuição (em inglês, sampling distribution) e nos dirá o quão bom foi nosso método para estimar a média populacional a partir da média amostral.

Nós não sabemos exatamente de Ȳn, pois depende de µ e nós não temos. Porém, os pressupostos do modelos  frequentistas nos permitem entender o seguinte:

  • Se especificamos uma probabilidade, nós podemos achar um número (por exemplo a) em que a probabilidade de Ȳestar entre µ-a e µ+a é de 0.95. Muita atenção, não estamos falando da probabilidade do parâmetro (na estatística frequentista, µ é uma constante), mas de nossa estimativa!

Agora só há duas possibilidades:

  1. A amostra que estamos trabalhando é uma das 95% que contem o parâmetro (µ)
  2. A amostra que estamos trabalhando é uma das 5% que não contem o parâmetro

(Imagem do livro Elementary Statistics, de Allan G. Bluman, 2012)

Não temos como saber a resposta.
Para isto ficar ainda mais claro, preparamos um excel em que você pode visualizar este procedimento. No excel, ao contrário da vida real, estipulamos que o 6. Após 100 simulações, em aproximadamente 5, o valor da média amostral (considerando o intervalo de confiança para ela), não contem o parâmetro.
Clique aqui e baixe.
Finalmente, o recado deste tutorial é dado quando o leitor entende que um intervalo de confiança se refere à probabilidade de um intervalo de confiança futuro conter o valor do parâmetro.
Um forte abraço,
Luis Anunciação
Psicometria (PUC-Rio)