Um dos principais objetivos da EstatÃstica é tirar conclusões a partir dos dados.
Dados em geral consistem de uma amostra de elementos de uma população de interesse.
O objetivo é usar a amostra e tirar conclusões sobre a população.
Quão confiável será utilizar a informação obtida apenas de uma amostra para concluir algo sobre a população?
Para que serve uma estatÃstica? Para "estimar" os valores de uma distribuição, ou caracterÃsticas de uma população.
População:
Amostra:
Seja \(\theta\) a proporção de alunos na Unicamp que concorda com a presença da PM no campus.
Imagine um fenômeno de interesse que possa ser representado por uma v.a. \(X\) que assume os valores \(1\) ou \(2\) com igual probabilidade.
\[\mu=E(X)= 1 \times P(X=1) +2 \times P(X=2) = 1\times \frac{1}{2} + 2\times \frac{1}{2}=\frac{3}{2}\]
\[ \begin{aligned} \sigma^2& =Var(X)= E[(X-\mu)^2]\\ &= (1-1.5)^2 \times P(X=1) + (2-1.5)^2 \times P(X=2)\\ & =\frac{1}{4} \end{aligned} \]
Imagine que uma população de interesse tenha distribuição como a de \(X\) definida anteriormente.
Imagine também que, embora saibamos que os valores possÃveis sejam \(1\) e \(2\), não tenhamos conhecimento sobre suas respectivas probabilidades.
Isto é, se temos \(N\) elementos nessa população, podemos pensar que a caracterÃstica de interesse de cada elemento \(i\) segue uma v.a. \(X_i\) em que \(P(X_i=1)=P(X_i=2)=1/2\), mas nós não sabemos disso.
Imagine que o interesse seja \(\mu\).
Vamos coletar uma amostra aleatória simples com reposição (\(AAS_c\)) de tamanho \(n=2\) e calcular a média amostral.
Usaremos esta média amostral para estimar \(\mu\).
Quão útil é esta estimativa que se baseia em apenas 2 elementos da população?
Quão precisa?
Imagine que o aluno \(A\) realiza uma \(AAS_c\) com \(n=2\) a partir da população, obtém os dados e calcula \(\bar{x}\).
O aluno \(B\) realizar uma \(AAS_c\) com \(n=2\) a partir da população, obtém os dados e calcula \(\bar{x}\).
As duas médias amostrais serão necessariamente iguais?
A média amostral é uma v.a. e, portanto, tem uma distribuição de probabilidade.
Todas as combinações possÃveis de valores para o primeiro e para o segundo elemento amostrados segundo o plano \(AAS_c\) com \(n=2\) são:
Possibilidades | \((X_1=1,X_2=1)\) | \((X_1=1,X_2=2)\) | \((X_1=2,X_2=1)\) | \((X_1=2,X_2=2)\) |
---|---|---|---|---|
\(\bar{x}\) | 1 | 1.5 | 1.5 | 2 |
\(P(X_1=i,X_2=j)\) | 0.25 | 0.25 | 0.25 | 0.25 |
\[E(\bar{X})=1\times \frac{1}{4} + 1.5 \times \frac{1}{2} + 2\times \frac{1}{4}=\frac{3}{2}\]
\[ \begin{aligned} Var(\bar{X})&= E\left[(\bar{X}-E(\bar{X}))^2\right]\\ &=(1-1.5)^2\times \frac{1}{4} + (1.5-1.5)^2\frac{1}{2} + (2-1.5)^2\frac{1}{4}=\frac{1}{8} \end{aligned} \]
Repare que: \(E(\bar{X})=\mu=E(X)\) e \(Var(\bar{X})=\frac{\sigma^2}{n}=\frac{Var(X)}{n}\).
Distribuição de probabilidade de \(X\) (esquerda) e de \(\bar{X}\) (direita):
Resultado:
Ou seja, embora \(\mu\) seja desconhecido, sabemos que o valor esperado da média amostral é \(\mu\). Além disso, conforme o tamanho amostral aumenta, a imprecisão da média amostral para estimar \(\mu\) fica cada vez menor, pois \(Var(\bar{X})=\sigma^2/n\).
Usando o resultado enunciado anteriormente, temos a esperança e a variância da média amostral \(\bar{X}\): \(E(\bar{X})=\mu\) e \(Var(\bar{X})=\frac{\sigma^2}{n}\).
No entanto, para conhecermos a distribuição de probabilidade de \(\bar{X}\), como foi feito no Exemplo*, é preciso conhecer todos os valores possÃveis de \(X\) e suas respectivas probabilidades.
Mas, se conhecermos tudo isso, não precisamos fazer amostragem nem inferência: saberemos tudo o que desejarmos daquela população!
O Exemplo* foi um caso hipotético apenas para demonstrar como a média amostral \(\bar{X}\) se comporta quando realizamos a amostragem.
Na prática, não teremos informações suficientes para de fato descrevermos a distribuição exata de \(\bar{X}\).
Resultado
Para uma amostra aleatória simples \(X_{1},...,X_{n}\) coletada de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar{X}_{n}\) aproxima-se de uma distribuição Normal de média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\), quando \(n\) for suficientemente grande.
Definimos também:
\[Z=\frac{\bar{X}_{n}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)\]
\(X_{1},...,X_{n}\) uma amostra aleatória de tamanho \(n\).
Suponha que \(X_{i}\) modela o tempo de vida de um transistor em horas. Os tempos de vida de 100 transistores são coletados. Desejamos estudar a variável aleatória \(\bar{X}_{100}\) (média amostral de uma amostra de tamanho 100). Sabemos que:
Pelo T.C.L., temos que: \[\bar{X}_{n}\sim N\left(\frac{1}{2},\frac{1}{400}\right)\]
\[ \begin{aligned} P\left(\bar{X}_{100} \leq x\right) & = & P\left(\frac{\bar{X}_{100}-(1/2)}{(1/2)/\sqrt{100}} \leq \frac{x-(1/2)}{(1/2)/\sqrt{100}}\right) \\ & = & P\left(Z \leq 10(2x-1) \right) \end{aligned} \]
\[ \begin{aligned} P\left(\bar{X}_{100} \geq x\right) & = & 1 - P\left(\bar{X}_{100} \leq x\right) \\ & = & 1 - P\left(\frac{\bar{X}_{100}-(1/2)}{(1/2)/\sqrt{100}} \leq \frac{x-(1/2)}{(1/2)/\sqrt{100}}\right) \\ & = & 1 - P\left(Z \leq 10(2x-1) \right) \end{aligned} \]
\(X=\) resultado obtido no lançamento de um dado honesto.
\(x\) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
\(p(x)=P(X=x)\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) |
\(E(X)=\frac{1}{6}\times(1+2+3+4+5+6)=\frac{21}{6}=3.5\)
\(Var(X)=\frac{1}{6}[(1+4+9+16+25+36)-\frac{1}{6}\times(21)^{2}]=\frac{35}{2}=17.5\)
Se temos uma amostra aleatória simples de tamanho \(n\): \(X_1,X_2,\ldots, X_n\), pelo TCL sabemos que a distribuição amostral de \(\bar{X}_n\) é aproximadamente Normal\((3.5,\frac{17.5}{n})\).
O primeiro histograma a seguir mostra o resultado de 10000 repetições do seguinte experimento: observar o resultado do lançamento de 1 dado. Repare que é muito próximo de uma distribuição uniforme discreta (chance 1/6 para cada resultado).
O segundo histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 2 dados (equivalente a observar a média de 2 lançamentos de um dado).
O último histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 100 dados (equivalente a observar a média de 100 lançamentos de um dado).
Repare que conforme o número de dados (tamanho amostral) aumenta, a distribuição da média amostral se aproxima da distribuição normal com média 3.5 e variância cada vez menor (17.5/n).
Você pode verificar o comportamento de \(\bar{X}\) para vários tipos de distribuição de \(X\):
Utilizando a distribuição exata (n pequeno): \(P\left(\hat{p}=\frac{k}{n}\right)=P\left(\frac{S_{n}}{n}=\frac{k}{n}\right)=P\left(S_{n}=k\right)=\left(\begin{array}{l} n \\ k \\ \end{array}\right)p^{k}\left(1-p\right)^{n-k}\) \(k=0,1,...,n\).
Utilizando a aproximação para a Normal (n grande): \(\hat{p}\sim N\left(p,\frac{p(1-p)}{n}\right)\)
Se \(p\) for a proporção de fumantes no estado de SP, \(p=0.2\) e tivermos coletado uma amostra aleatória simples de 500 indivÃduos: \[ X_{i} = \left\{ \begin{array}{ll} 1, & \mbox{se o indivÃduo i é fumante} \\ 0, & \mbox{caso contrário} \\ \end{array} \right.\]
\(X\sim Bin(100,0.4)\)
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho