ME414 - Estatística para Experimentalistas

Estatísticas Sumárias: resumindo dados

Introdução

Vimos na aula anterior como usar gráficos e tabelas para resumir os dados.

Podemos também usar estatísticas: quantidades numéricas calculadas a partir dos dados.

Por exemplo, podemos estar interessados em encontrar qual seria um valor "típico" do conjunto de dados.

Podemos então usar uma estatística que descreva o centro da distribuição dos dados.

Objetivo: resumir os dados, através de valores que representem o conjunto de dados em relação à alguma característica (posição, dispersão).

Medidas de Posição Central

Média Aritmética

Se $x_1, x_2, \ldots, x_n$ são as $n$ observações, a média é:

\[\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\,.\]

A média pode ser interpretada como o ponto de equilíbrio de uma distribuição.

Exemplo: Cereais matinais

Porção de 30g:

##        Cereal Calorias Carboidratos
## 1   Sucrilhos      109         26.0
## 2    All Bran       81         13.5
## 3      Nesfit      102         21.0
## 4      Nescau      115         23.0
## 5        Snow      113         25.0
## 6      Crunch      119         23.0
## 7        Moça      113         25.0
## 8  Fibra Mais       84         15.0
## 9 Froot Loops      113         25.0

Exemplo: Cereais matinais

$x_i$: calorias do cereal $i$.

\[\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i=\frac{1}{9}\sum_{i=1}^9x_i=105.44\]

Mediana

A mediana é o valor que deixa 50% das observações abaixo dele e 50% acima.

Determinando a mediana:

Ordene as $n$ observações.

Se $n$ é ímpar, a mediana é o valor do meio, na sequência ordenada.

Se $n$ é par, a mediana é a média aritmética das duas observações que caem no meio da sequência ordenada.

Exemplo: Cereais matinais

Calorias dos 9 cereais:

## [1] 109  81 102 115 113 119 113  84 113

Ordenando:

## [1]  81  84 102 109 113 113 113 115 119

Mediana é 113.

Moda

A moda é o valor mais frequente.

Calorias dos 9 cereais:

## [1] 109  81 102 115 113 119 113  84 113

Tabela de frequências:

## 
##  81  84 102 109 113 115 119 
##   1   1   1   1   3   1   1

Portanto a moda de calorias dos cereias é 113.

Exemplo: Emissão de $CO_2$

Emissão per capita (em toneladas) para 8 países, em 2009 (http://data.worldbank.org):

País	Emissão $CO_2$	País	Emissão $CO_2$
China	5,8	Brazil	1,9
Índia	1,7	Rússia	11,1
EUA	17,3	Paquistão	0,9
Indonésia	1,9	Bangaladesh	0,3

Exemplo: Emissão de $CO_2$

$\bar{x}=\frac{1}{8}(5,8+1,7+17,3+1,9+1,9+11,1+0,9+0,3)\approx5.11$

Ordenando:

## [1]  0.3  0.9  1.7  1.9  1.9  5.8 11.1 17.3

Mediana é 1.9.

Exemplo: Emissão de $CO_2$

A mediana é bem menor do que a média.

Se desconsiderarmos os EUA:

## [1]  5.8  1.7  1.9  1.9 11.1  0.9  0.3

$\bar{x}=\frac{1}{7}(5,8+1,7+1,9+1,9+11,1+0,9+0,3)\approx 3.37$

Ordenando:

## [1]  0.3  0.9  1.7  1.9  1.9  5.8 11.1

Mediana é 1.9.

Mediana é menos afetada por valores muito extremos (muito diferentes do resto das observações).

Exemplo: número de casamentos

Total de vezes que casou ($x_{i}$)	Freq. (mulheres)	Freq. (homens)
0	5861	7074
1	2773	1561
2	105	43
Total	8739	8678

Qual medida de posição você usaria para apresentar a diferença entre homens e mulheres?

Fonte: http://www.census.gov/prod/2002pubs/p70-80.pdf

Exemplo: número de casamentos

A moda entre os homens é:

$0$.

A moda entre as mulheres é:

$0$.

Para as mulheres, a amostra ordenada é: \[\underbrace{0\,0\,0\,\ldots0}_{\mbox{5861 0's}}\quad \underbrace{1\,1\,1\,\ldots1}_{\mbox{2773 1's}} \quad \underbrace{2\,2\,2\,\ldots2}_{\mbox{105 2's}}\]

Como $n=8739$ é ímpar, a observaçãoo central está na posição $(1+8739)/2=4370$. A observação 4370 é 0, portanto a mediana é 0 para as mulheres. Similarmente, para os homens, a mediana é 0.

Exemplo: número de casamentos

Média entre as mulheres:

\[\bar{x}=\frac{0\times 5861+1\times 2773+2\times 105}{8739}=0,34\]

Média entre os homens: $\bar{x}=0,19$.

Para dados discretos com poucos valores diferentes, a mediana ignora muita informação.

Exemplo: número de casamentos

No entanto, como neste caso temos apenas os valores 0, 1 e 2, podemos apresentar os dados usando gráficos de barra.

## Warning: package 'ggplot2' was built under R version 3.2.3

Exemplo: número de casamentos

Mediana é resistente a observações discrepantes

Considere os três conjuntos de dados abaixo:

\[A: 8,9,10,11,12\]

\[B: 8,9,10,11,100\]

\[C: 8,9,10,11,1000\]

Média de $A$: 10. Mediana de $A$: 10.

Média de $B$: 27,6. Mediana de $B$: 10.

Média de $C$: 207,6. Mediana de $C$: 10.

Exemplo: Transporte

Uma empresária cuja empresa está localizada na Av. Paulista, em São Paulo, está preocupada com a quantidade de gasolina gasta pelos seus funcionários. Ela quer promover o uso de transporte público entre seus funcionários. Ela decide investigar a extensão, em km, do trajeto percorrido por cada funcionário caso usassem transporte público durante um dia típico.

Para seus 10 funcionários, os valores são:

\[1,1,4,1,1,1,10,1,6,1\]

Encontre a média, a mediana e a moda.

Média é 2,7.

Ordenando: 1,1,1,1,1,1,1,4,6,10.

Mediana é 1. Moda é 1.

Exemplo: Transporte

A empresária acabou de contratar um novo funcionário. Ele percorre 90 km em transporte público. Recalcule a média e a mediana.

\[1,1,4,1,1,1,10,1,6,1,90\]

Ordenada: 1,1,1,1,1,1,1,4,6,10,90.

Mediana é 1.

Média é 10,64

Qual medida de posição representa melhor a distância do grupo de funcionários?

Exemplo: Acidentes com Moto

Dados: entrevistas com 60 pessoas, em que cada uma relata o número de acidentes com moto que sofreu no último ano.

Por que a média seria provavelmente mais útil do que a mediana para resumir os dados?

Exemplo: Salários

A média salarial anual em 1998 nos EUA para pessoas com ensino superior era $528.200.

A mediana do salário anual em 1998 nos EUA para pessoas com ensino superior era $146.400.

Por que a média e a mediana diferem tanto?

Qual medida de posição você acredita que retrata de maneira mais realística um salário típico de pessoas com ensino superior nos EUA em 1998?

Exemplo: Sindicato

O sindicato dos trabalhadores está reivindicando aumento de salário em uma certa fábrica.

Explique por que o sindicato poderia usar a mediana dos salários de todos os empregados para justificar um aumento, enquanto que o gerente da fábrica poderia usar a média para argumentar que um aumento não é necessário?

Média, mediana e a distribuição dos dados

A figura a seguir mostra gráficos para três conjuntos de dados: A, B e C.

Média, mediana e a distribuição dos dados

Para quais conjuntos de dados, você esperaria que a média e a mediana tivessem o mesmo valor?

Para quais conjuntos de dados, você esperaria que a média e a mediana tivessem valores diferentes?

Qual valor seria maior: a média ou a mediana?

Gráfico A: média é 3.36, mediana é 3.

Gráfico B: média é 5, mediana é 5.

Gráfico C: média é 5, mediana é 5.

Assimetria

Se os dados são simétricos, a média coincide com a mediana e a moda

Assimetria à direita (positiva): Média > Mediana > Moda

Assimetria à esquerda (negativa): Média < Mediana < Moda

Medidas de Dispersão

Exemplo: Salário professor de música

Salário anual hipotético de professores de música na Dinamarca (esquerda) e nos EUA (direita).

Média salarial EUA: 39.87. Média salarial Dinamarca: 40.02.

Amplitude

Uma medida de dispersão é amplitude: a diferença entre o maior e o menor valor observado na amostra.

Nos EUA, os salários variam de 9 a 75.

Amplitude dos salários nos EUA: $75-9 = 66$.

Na Dinamarca, variam de 27 a 52.

Amplitude dos salários na Dinamarca: $52-27=25$.

Problema com a amplitude: utiliza apenas duas observações (a máxima e a mínima).

Medidas de dispersão

Considere dois conjuntos de dados:

$A=\{1,2,5,6,6\}$ e $B=\{ -40,0,5,20,35\}$

Ambos com média 4 e mediana 5.

No entanto, claramente temos que os valores de $B$ são mais dispersos do que em $A$.

Que medida podemos usar para considerar essa característica dos dados?

Medidas de dispersão

Podemos observar quão afastadas de uma determinada medida de posição estão as observações.

Desvio de uma observação $x_i$ da média $\bar{x}$ é a diferença entre a observação e a média dos dados: $(x_i-\bar{x})$.

O desvio é negativo quando a observação tem valor menor do que a média.

O desvio é positivo quando a observação tem valor maior do que a média.

Estamos interessados nos desvios de todos os pontos $x_i$'s, então poderia-se propor a seguinte medida de dispersão: $\sum_{i=1}^n(x_i-\bar{x})$.

Qual o problema?

A média representa o ponto de balanço dos dados, então os desvios irão se contrabalancear, ou seja: $\sum_{i=1}^n(x_i-\bar{x})=0$.

Medidas de dispersão

Além do mais, uma medida de dispersão onde os desvios positivos e negativos se cancelam, não seria útil.

Queremos que se leve em conta cada desvio, independente do sinal.

Alternativas:

$\sum_{i=1}^n\mid x_i-\bar{x}\mid$
$\sum_{i=1}^n(x_i-\bar{x})^2$

Ambas alternativas evitam que desvios iguais em módulo, mas com sinais opostos, se anulem.

Variância e Desvio-padrão

A média dos desvios ao quadrado é denominada variância: \[s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2\,.\]

Desvio padrão é a raiz da variância:

\[s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}\]

Interpretação: distância típica entre uma observação e a média dos dados.

Quanto maior $s$, maior a dispersão dos dados.

Para facilitar cálculos: $\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$.

Exemplo

Conjunto de dados $A: \{1,2,5,6,6\}$.

$x_i$: $\quad 1 \quad 2 \quad 5 \quad 6 \quad 6$

$\bar{x}$: $\quad 4$

$x_i-\bar{x}$: $\quad -3\quad -2\quad 1 \quad 2 \quad 2$

$(x_i-\bar{x})^2$: $\quad 9 \quad 4 \quad 1 \quad 4 \quad 4$

\[s^2=\frac{9+4+1+4+4}{5-1}=5,5\]

Exemplo

Conjunto de dados $B: \{-40,0,5,20,35\}$.

$x_i$: $\quad -40 \quad 0 \quad 5 \quad 20 \quad 35$

$\bar{x}$: $\quad 4$

$x_i-\bar{x}$: $\quad -44\quad -4\quad 1 \quad 16 \quad 31$

$(x_i-\bar{x})^2$: $\quad 1936 \quad 16 \quad 1 \quad 256 \quad 961$

\[s^2=\frac{1936+16+1+256+961}{5-1}=792,5\]

Exemplo: "Qual o número ideal de filhos?"

Média: 2 (para ambos os sexos).

Amplitude: 4 (para ambos os sexos).

Para homens: desvio típico da média parece estar em torno de 2.

Para mulheres: desvio típico da média é menor do que o dos homens, pois a grande maioria das observações coincide com a própria média.

Desvio-padrão entre homens: $s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}=2\,.$

Desvio-padrão entre mulheres: $s=1.15$.

Exemplo: P1 de ME414

A primeira prova de ME414 teve um total de 100 pontos. Suponha que a média tenha sido 80.

Qual seria um valor plausível para o desvio padrão das notas da classe? $s$: 0, 10 ou 50.

$s=0$: todos os alunos tiraram a mesma nota.
$s=50$: uma nota típica da classe estaria 50 pontos distante da média, ou seja, 30 ou 130 pontos.
$s=10$: notas típicas seriam de 70 ou 90.

Leitura

Ross: seções 3.1, 3.2, 3.3, 3.4, 3.5

Slides produzidos pelos professores:

Samara Kiihl
Tatiana Benaglia
Benilton Carvalho

Estatísticas Sumárias: resumindo dados

Introdução

Medidas de Posição Central

Média Aritmética

Exemplo: Cereais matinais

Exemplo: Cereais matinais

Exemplo: Cereais matinais

Exemplo: Cereais matinais

Mediana

Exemplo: Cereais matinais

Moda

Exemplo: Emissão de \(CO_2\)

Exemplo: Emissão de \(CO_2\)

Exemplo: Emissão de \(CO_2\)

Exemplo: número de casamentos

Exemplo: número de casamentos

Exemplo: número de casamentos

Exemplo: número de casamentos

Exemplo: número de casamentos

Mediana é resistente a observações discrepantes

Exemplo: Transporte

Exemplo: Transporte

Exemplo: Acidentes com Moto

Exemplo: Salários

Exemplo: Sindicato

Média, mediana e a distribuição dos dados

Média, mediana e a distribuição dos dados

Assimetria

Medidas de Dispersão

Exemplo: Salário professor de música

Amplitude

Medidas de dispersão

Medidas de dispersão

Medidas de dispersão

Variância e Desvio-padrão

Exemplo

Exemplo

Exemplo: "Qual o número ideal de filhos?"

Exemplo: P1 de ME414

Leitura