Suponha que queremos estimar o parâmetro populacional \(\theta\) através de um intervalo.
Um intervalo de confiança (IC) para \(\theta\) é sempre da forma:
\[ \mbox{estimativa} \pm \mbox{margem de erro}\]
\[\hat \theta \pm \mbox{margem de erro}\]
Sendo:
\[ \begin{aligned} 0.95 & = P\left(-1.96\leq Z \leq 1.96\right) \\ & = P\left(-1.96\leq \frac{S_n-np}{\sqrt{np(1-p)}} \leq 1.96\right) \\ & = P\left(-1.96\sqrt{np(1-p)}\leq S_n-np \leq 1.96\sqrt{np(1-p)}\right) \\ & = P\left(\frac{-1.96\sqrt{np(1-p)}}{n}\leq \frac{S_n-np}{n} \leq \frac{1.96\sqrt{np(1-p)}}{n}\right) \\ & = P\left(\hat{p}-1.96\sqrt{\frac{p(1-p)}{n}}\leq p \leq \hat{p}+1.96\sqrt{\frac{p(1-p)}{n}}\right) \end{aligned} \]
\[\hat{p}=\frac{S_n}{n}=\bar{X}_n\]
Note que \(p\) é desconhecido, mas a variância depende da função de \(p(1-p)\), dada no seguinte gráfico:
A função \(p(1-p)\) atinge o valor máximo quando \(p=1/2\), ou seja, \(p(1-p) \leq \frac{1}{4}\).
Vimos que \(p(1-p)\leq \frac{1}{4}\), então erro-padrão é maximizado por:
\[\sqrt{\frac{p(1-p)}{n}}\leq \sqrt{\frac{1}{4n}} \quad \Longleftrightarrow \quad -\sqrt{\frac{p(1-p)}{n}}\geq -\sqrt{\frac{1}{4n}}\]
Portanto, \(0.95 \leq P\left(\hat{p}-1.96\sqrt{\frac{1}{4n}}\leq p \leq \hat{p}+1.96\sqrt{\frac{1}{4n}}\right)\).
Caso geral (conservador): Um IC de \(100(1-\alpha)\%\) para \(p\) é dado por
Veja que tivemos que escolher as quantidades \(z_{\alpha/2}\) tal que:
\[P(-z_{\alpha/2}<Z<z_{\alpha/2})=1-\alpha\]
\[P(|Z|\leq z_{\alpha/2})=P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2})=1-\alpha\]
Seja \(Z\sim N(0,1)\). O percentil \(z_{\alpha/2}\) é tal que \(1-\alpha = P\left(-z_{\alpha/2}\leq Z\leq z_{\alpha/2}\right)\)
Como determinar \(z_{\alpha/2}\)?
\[ \begin{aligned} 1-\alpha = P\left(-z_{\alpha/2}\leq Z\leq z_{\alpha/2}\right) & = P(Z \leq z_{\alpha/2}) - P(Z \leq -z_{\alpha/2}) \\ & = P(Z \leq z_{\alpha/2}) - P(Z \geq z_{\alpha/2}) \\ & = P(Z \leq z_{\alpha/2}) - \left[1-P(Z \leq z_{\alpha/2})\right] \\ & = 2P(Z \leq z_{\alpha/2}) - 1 \\ & = 2\Phi(z_{\alpha/2}) - 1 \end{aligned} \]
Portanto, \(1-\frac{\alpha}{2} = \Phi(z_{\alpha/2}) \quad \Rightarrow \quad \Phi^{-1}\left(1- \frac{\alpha}{2}\right) = z_{\alpha/2}\)
Procure na tabela o valor de \(z\) tal que a probabilidade acumulada até o valor de \(z\), isto é \(P(Z\leq z)=\Phi(z)\), seja \(1-\alpha/2\).
Encontrar \(z_{0.05}\) tal que \(0.90 = P\left(-z_{0.05}\leq Z\leq z_{0.05}\right)\).
Numa pesquisa de mercado, \(n=400\) pessoas foram entrevistadas (usando amostra aleatória) sobre preferência do produto da marca A, e \(60\%\) destas pessoas preferiam a marca A.
Encontre um \(IC\) de \(95\%\) para a proporção de pessoas que preferem a marca A.
Pelo resultado da pesquisa, \(\hat{p}=0.6\).
Logo, o \(IC\) com grau de confiança \(1-\alpha=0.95\) é dado por:
\[\begin{aligned} IC(p, 0.95) &= \left[0.6 - 1.96\frac{1}{\sqrt{1600}};0.6 + 1.96\frac{1}{\sqrt{1600}}\right] \\ &=\left[0.551;0.649\right] \end{aligned} \]
Suponha que em \(n=400\) entrevistados, tivéssemos obtido \(k=80\) respostas de pessoas que preferem a marca A.
Vamos obter um intervalo de confiança para \(p\), com grau de confiança de \(90\%\):
\[ \begin{aligned} IC_1(p, 0.90) &= \left[0.2 - 1.64\frac{1}{\sqrt{1600}};0.2 + 1.64\frac{1}{\sqrt{1600}}\right] \\ &=[0.159; 0.241] \end{aligned} \]
E se usarmos a estimativa \(\hat{p}\) para também estimar o erro-padrão \(\sqrt{\frac{p(1-p)}{n}}\)?
Podemos construir o seguinte \(IC\) de \(100(1-\alpha)\%\)
\[IC(p, 1-\alpha)= \left[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}};\hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]\]
\[ \begin{aligned} IC_2(p, 0.90) &= \left[0.2 - 1.64\sqrt{\frac{(0.2)(0.8)}{400}}; 0.2 + 1.64 \sqrt{\frac{(0.2)(0.8)}{400}} \right] \\ &=[0.167; 0.233] \end{aligned} \]
O intervalo que utiliza \(\hat{p}\) também para estimar o erro-padrão tem menor amplitude do que o intervalo que utiliza o fato de \(p(1-p) \leq \frac{1}{4}\). Por isso esse último é chamado de conservador.
Veja as amplitudes dos \(IC\)'s que encontramos no exemplo anterior:
\(IC_1(p, 0.90) = [0.159;0.241] \quad \Rightarrow \quad A_1=0.241-0.159=0.082\)
\(IC_2(p, 0.90) = [0.167;0.233] \quad \Rightarrow \quad A_2=0.233-0.167=0.066\)
Em resumo, os intervalos de \(100 (1-\alpha)\%\) de confiança para \(p\) podem então ser de duas formas:
Método Conservador \[IC_1(p, 1-\alpha)=\left[\hat{p}-z_{\alpha/2}\sqrt{\frac{1}{4n}};\hat{p}+z_{\alpha/2}\sqrt{\frac{1}{4n}}\right]\]
Usando \(\hat p\) para estimar o erro-padrão \[IC_2(p, 1-\alpha)=\left[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}};\hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]\]
Veja que nos dois casos, os \(IC\)'s são da forma \(\hat p \pm \mbox{margem de erro}\)
Coletamos uma amostra aleatória \(X_1, X_2, \ldots, X_n\) de uma população com distribuição de Bernoulli com probabilidade de sucesso igual a \(p\), portanto com média \(p\) e a variância \(p(1-p)\) e usamos \(\bar{X}_n=\hat{p}\) para estimar \(p\).
Pelo TCL: \[\hat{p} \sim N\left(p,\frac{p(1-p)}{n}\right)\]
Propriedade da Normal: \[Z=\frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \sim N(0,1)\] \[P(-z_{\alpha/2}<Z<z_{\alpha/2})=1-\alpha\]
Então, um intervalo de \(100(1-\alpha)\%\) de confiança para \(p\):
\[IC(p, 1-\alpha)=\left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}\right]\]
Problema: não conhecemos \(p\). Portanto, usamos:
\[IC(p, 1-\alpha) = \left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]\] ou, pelo método conservador, \[IC(p, 1-\alpha) = \left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{1}{4n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{1}{4n}}\right]\]
De uma amostra aleatória de 100 alunos de uma universidade, 82 afirmaram ser não fumantes.
Construa um intervalo de confiança de 99% para a proporção de não fumantes entre todos os alunos da universidade.
\(\hat{p}=0.82, n=100, \alpha=0.01,\) e \(z_{0.005}=2.58\)
\[ \begin{aligned} IC_1(p, 0.99) &= \left[\hat{p} - z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}; \hat{p} + z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right] \\ &= \left[ 0.82 -2.58\sqrt{\frac{(0.82)(0.18)}{100}} ; 0.82 + 2.58\sqrt{\frac{(0.82)(0.18)}{100}}\right] \\ &= [0.72; 0.92] \end{aligned} \]
Podemos também calcular o \(IC\) de 99% pelo método conversador: \[ \begin{aligned} IC_2(p, 0.99) &= \left[\hat{p} - z_{\alpha/2}\sqrt{\frac{1}{4n}}; \hat{p} + z_{\alpha/2}\sqrt{\frac{1}{4n}}\right] \\ &= \left[0.82 - 2.58\sqrt{\frac{1}{400}}; 0.82 + 2.58\sqrt{\frac{1}{400}}\right] \\ &= [0.69; 0.95] \end{aligned} \]
Interpretação: Com um grau de confiança de 99%, estimamos que a proporção de não fumantes entre os alunos está entre 72% e 92% (resultado do slide anterior).
E pelo método conservador, com um grau de confiança de 99%, estimamos que a proporção de não fumantes entre os alunos está entre 69% e 95%.
Pesquisa do GSS. Você concorda ou não com a seguinte frase: "é mais importante para um esposa ajudar a carreira do marido do que ter uma carreira própria."
A última vez que esta pergunta foi incluÃda no GSS foi em 1998 onde 1823 pessoas responderam e 19% concordaram.
Calcule e interprete o \(IC\) de 95% para a proporção na população que concorda com a frase.
\(\hat{p}=0.19, n=1823, \alpha=0.05,\) e \(z_{0.025}=1.96\)
Então,
\[ \begin{aligned} IC(p, 0.95) &= \left[\hat{p}-1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} ; \hat{p}+1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right] \\ &= \left[0.19-1.96 \sqrt{\frac{0.19(1-0.19)}{1823}}; 0.19+1.96 \sqrt{\frac{0.19(1-0.19)}{1823}}\right] \\ &= [0.17; 0.21] \end{aligned} \]
Interpretação: Se várias amostras forem retiradas da população e calcularmos um \(IC\) de 95% para cada amostra, cerca de 95% desses intervalos irão conter a verdadeira proporção na população, \(p\).
INCORRETO: Dizer que "a probabilidade de que \(p\) esteja dentro do intervalo é 95%"
Por que incorreto? \(p\) é uma constante, não é variável aleatória. Ou \(p\) está no intervalo ou não está. O intervalo é que é aleatório.
Um \(IC\) de 95% para \(p\) é: \([0.17; 0.21]\)
A margem de erro (metade do comprimento do IC) é:
\[ME=1.96\sqrt{\frac{0.19(1-0.19)}{1823}}=0.02\]
\[P(|\hat{p}-p|<0.02)=0.95\]
Interpretação: Com probabilidade 0.95, o erro ao usar a proporção amostral para estimar a proporção populacional não excede 0.02.
Curiosidade: em 1977 a pergunta foi feita pela primeira vez no GSS. \(\hat{p}=0.57\) e \(IC\) de 95% foi \([0.55; 0.59]\).
Exemplo: Na teoria, muita gente se considera "eco-friendly". Mas e na prática?
Em 2000, GSS perguntou: "Você estaria disposto a pagar mais pela gasolina para proteger o ambiente?"
Entre \(n=1154\) participantes, 518 responderam que sim.
Encontre IC 95% para a proporção da população que concorda.
Interprete.
Estimativa: \(\hat{p}=518/1154=0.45\)
Desvio padrão da estimativa (erro padrão): \(\sqrt{\frac{0.45(1-0.45)}{1154}}=0.015\)
\[\begin{aligned} IC(p, 0.95) &= \left[0.45-1.96 \sqrt{\frac{(0.45)(0.55)}{1154}}; 0.45+1.96 \sqrt{\frac{(0.45)(0.55)}{1154}}\right] \\ &= \left[0.45-1.96\times0.015; 0.45+1.96\times0.015\right] \\ &= [0.42; 0.48] \end{aligned} \]
Interpretação: Com grau de confiança de 95%, estimamos que a proporção populacional que concorda em pagar mais está entre 0.42 e 0.48. A estimativa pontual, 0.45, tem margem de erro de 3%.
E se estivéssemos interessados na proporção que não pagaria mais?
Estimativa: \(\hat{p}=1-518/1154=0.55\)
Desvio padrão da estimativa (erro padrão): \(\sqrt{\frac{0.55(1-0.55)}{1184}}=0.015\)
\[\begin{aligned} IC(p, 0.95) &= \left[0.55-1.96 \sqrt{\frac{(0.55)(0.45)}{1154}}; 0.55+1.96 \sqrt{\frac{(0.55)(0.45)}{1154}}\right] \\ &= \left[0.55-1.96\times0.015; 0.55+1.96\times0.015\right] \\ &= [0.52; 0.58] \end{aligned} \]
Interpretação: Com grau de confiança de 95%, estimamos que a proporção populacional que não pagaria mais está entre 0.52 e 0.58. A estimativa pontual, 0.55, tem margem de erro de 3%.
GSS: 598 responderam, 366 acham justo. Encontre um \(IC\) de 99%.
Estimativa: \(\hat{p}=366/598=0.61\)
Desvio padrão da estimativa (erro padrão): \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=0.02\)
\[\begin{aligned} IC(p, 0.99) &= \left[0.61-2.58\times0.02\,;\,0.55+2.58\times0.02\right]= \left[0.56\,;\,0.66\right] \end{aligned} \]
Com grau de confiança igual a 99%, estimamos que a proporção populacional que concorda está entre 0.56 e 0.66. A estimativa pontual, 0.61, tem margem de erro de 5%.
E o \(IC\) de 95%?
\[\begin{aligned} IC(p, 0.95) &= \left[0.61 - 1.96\times0.02\,;\,0.55 + 1.96 \times 0.02\right] \\ &= \left[0.57\,;\,0.65\right] \end{aligned} \]
Com grau de confiança igual a 95%, estimamos que a proporção populacional que concorda está entre 0.57 e 0.65. A estimativa pontual, 0.61, tem margem de erro de 4%.
Com maior grau de confiança, temos uma margem de erro um pouco maior.
A Datafolha quer fazer uma pesquisa de boca-de-urna para predizer o resultado de uma eleição com apenas dois candidatos.
Seleciona então uma a.a. de eleitores e pergunta em quem cada um votou. Para esta pesquisa, o Datafolha quer uma margem de erro de 4%. Qual o tamanho de amostra necessário?
\[1.96\sqrt{\frac{p(1-p)}{n}}=0.04 \quad \Rightarrow \quad n=\frac{1.96^2p(1-p)}{0.04^2}\]
Problema é que não conhecemos \(p\).
Assim como para encontrar os \(IC\)'s, podemos usar o método conservador ou então usar informações obtidas em pesquisas anteriores (caso existam).
Método Conservador:
Outra alternativa
Uma firma de propaganda está interessada em estimar a proporção de domicÃlios que estão assistindo a final do campeonato brasileiro de futebol. Para isso, está planejando ligar para os domicÃlios selecionados aleatoriamente a partir de uma lista. Qual o tamanho da amostra necessário se a firma quer 90% de confiança de que a estimativa obtida tenha uma margem de erro igual a 0.02?
\[IC(p, 1-\alpha) = \left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{1}{4n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{1}{4n}}\right]\]
Margem de erro 0.02:\(\quad z_{\alpha/2}\sqrt{\frac{1}{4n}}=0.02\)
Como eles querem 90% de confiança, \(\alpha=0.10\) e \(z_{0.05}=1.645\)
\[1.645\sqrt{1/4n}=0.02 \quad \Longleftrightarrow \quad 1/4n=(0.02/1.645)^2 \quad \Rightarrow \quad n=1691.3\]
Tamanho amostral: 1692.
Em geral, para uma margem de erro \(m\): \[n=\left(\frac{z_{\alpha/2}}{2m}\right)^2\]
Suponha que \(p=30\%\) dos estudantes de uma escola sejam mulheres.
Coletamos uma amostra aleatória simples de \(n=10\) estudantes e calculamos a proporção de mulheres na amostra, ou seja, \(\hat{p}\).
Qual a probabilidade de que \(\hat{p}\) difira de \(p\) em menos de \(0.01\)? E se \(n=50\)?
Adaptado de: Morettin & Bussab, EstatÃstica Básica \(5^a\) edição, pág 276.
Solução: Temos que a probabilidade que desejamos encontrar é dada por
\[P \left( |\hat{p}-p| < 0.01 \right) = P \left( -0.01 < \hat{p} - p < 0.01 \right )\]
onde \(p\) é o valor verdadeiro da proporção de mulheres, e \(\hat{p}\) a proporção observada na amostra.
Seja \(X_i\) a v.a. indicando se a pessoa \(i\) é mulher ou não. Temos que \(X_i\sim\mbox{Bernoulli}(p)\), com \(p=0.3\).
Então sabemos que \(\mathbb E(X_i)=p\) e \(Var(X_i)=p(1-p)\).
Coletamos uma amostra de tamanho \(n\): \(X_1,\ldots,X_n\). Calculamos a proporção de mulheres na amostra: \[\bar{X}_n=\frac{S_n}{n}=\frac{X_1+\ldots+X_n}{n}\]
Sabemos que \(\mathbb E(\bar{X}_n)= \mathbb E(X_i)=p\) e \(Var(\bar{X}_n)=\frac{Var(X_i)}{n}=\frac{p(1-p)}{n}\).
Sabemos também, pelo TCL, que se \(n\) é grande, a distribuição de \(\bar{X}_n=\hat{p}\) pode ser aproximada por uma normal \(N \left( p, p(1-p)/n \right)\).
Como \(p=0.3\) e \(n=10\), temos que: \[\mbox{Var}\left( \hat{p} \right) = \frac{0.3 \times 0.7}{10} = 0.021\]
\[P \left( |\hat{p}-p| < 0.01 \right) = P \left( -0.01 < \hat{p} - p < 0.01 \right )\]
\[P \left( -\frac{0.01}{\sqrt{Var(\hat{p})}} < \frac{\hat{p} - p}{Var(\hat{p})} < \frac{0.01}{Var(\hat{p})} \right )\]
\[P \left( \frac{-0.01}{\sqrt{0.021}} < Z < \frac{0.01}{\sqrt{0.021}} \right) = P(-0.07 < Z < 0.07) = 0.056\,.\]
Mas \(n=10\) é grande? Podemos comparar essa probabilidade com o resultado exato.
Não sabemos a distribuição de \(\hat{p}\), mas o evento \(\hat{p}=\gamma\), onde \(\hat{p}=\frac{1}{n}\sum_{i=1}^nX_i\), é igual ao evento \(\sum_{i=1}^n X_i = n \gamma\), onde \(X_i\) são v.a. independentes e identicamente distribuidas Bernoulli\((0.3)\).
A soma é portanto Binomial\((10,0.3)\).
O evento \(\{|\hat{p}-p| < 0.01 \}\) é igual ao evento \(\{|\sum X_i-10 \cdot 0.3| < 0.1 \}\).
Como \(\sum X_i\) assume somente valores inteiros, temos que \[ \left\{ \left |\sum_{i=1}^{10} X_i-10 \cdot 0.3 \right| < 0.1 \right \} = \left \{ \sum_{i=1}^{10} X_i = 3 \right \}.\]
Portanto, \[P \left( \left \{ \sum_{i=1}^{10} X_i = 3 \right \} \right) = {\binom{10}{3}}0.3^3 0.7^7 = 0.267.\]
Temos uma probabilidade que é 5 vezes maior que a aproximação.
Tome \(n=50\), agora. Podemos modificar rapidamente as contas da aproximação normal. A variância agora é \(\frac{p(1-p)}{n}=0.0042\), e portanto a probabilidade aproximada é:
\[P \left( \frac{-0.01}{\sqrt{0.0042}} < Z < \frac{0.01}{\sqrt{0.0042}} \right) = P(-0.154 < Z < 0.154) = 0.12239\]
A probabilidade exata agora é dada pelo evento \(|\sum X_i-50 \cdot 0.3| < 0.5\), ou simplesmente \(\sum_{i=1}^{50} X_i = 15\).
Observe agora que \[P \left( \sum_{i=1}^{50} X_i = 15 \right) = {\binom{50}{15}}0.3^{15} 0.7^{50-15} = 0.12237\]
A diferença agora é muito menor e, à medida que \(n \rightarrow \infty\) ela tende a 0, pelo TCL.
é preciso contudo ter em mente que a aproximação só é válida para grandes tamanhos de amostra.
ExercÃcio
Suponha que estejamos interessados em estimar a porcentagem de consumidores de um certo produto. Se a amostra de tamanho 300 forneceu 100 indivÃduos que consomem o dado produto, determine:
Fonte: Morettin & Bussab, EstatÃstica Básica \(5^a\) edição, pág 309.
Interpretação: Se pudéssemos construir um grande número de intervalos aleatórios para \(p\), todos baseados em amostras de tamanho n, \(95\%\) deles conteriam o parâmetro \(p\).
Interpretação: Utilizando o tamanho amostral encontrado, teremos uma probabilidade de \(95\%\) de que a proporção amostral não difira do verdadeiro valor de \(p\) em menos que \(2\%\).
Note que a prática de obter amostras pequenas para examinar \(p\), e aà determinar o tamanho amostral sem utilizar o "pior caso", é no que consiste a idéia de amostras piloto.
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho