ME414 - Estatística para Experimentalistas

Análise de Variância (ANOVA)

Introdução

Já vimos anteriormente como testar se existe diferença entre duas médias \(\mu_1\) e \(\mu_2\) de duas populações independentes. Ou seja:

\[H_0: \mu_1=\mu_2 \quad \mbox{vs} \quad H_a: \mu_1 \neq \mu_2\]

Considerando o caso das variâncias iguais e desconhecidas, usamos \(s_p^2\) como estimador da variância \(\sigma^2\) e temos a estatística do teste: \[T= \frac{\bar{X} - \bar{Y}}{ \sqrt{s_p^2 ( \frac{1}{n} + \frac{1}{m}} )} \stackrel{H_0}{\sim} t_{n+m-2}.\]

Mas e se quiséssemos comparar as médias de 3 ou mais populações (grupos)?

Análise de Variância

Exemplo: O Departamento de Estatística oferece o curso ME414 todo semestre para várias turmas. Suponha que queremos saber se existe diferença significativa no desempenho na P1 entre as turmas A, B, C e I.

Poderíamos comparar as médias duas a duas, certo?

No entanto, isso não é muito viável quando temos muitos grupos.

A técnica estatística adequada para esse tipo de problema, com a qual pode-se comparar se as médias de várias populações (grupos) são todas iguais com um único teste é chamada de Análise de Variância (ANOVA).

Análise de Variância - ANOVA

Objetivo: Comparar se as médias de 3 ou mais populações (grupos) são iguais.

Hipóteses: \[\begin{aligned} H_0: &\mbox{as médias são as mesmas para todos os grupos} \\ H_a: & \mbox{pelo menos uma média é diferente das demais} \end{aligned} \]

Em termos estatísticos: \[\begin{aligned} H_0: &\mu_1=\mu_2=\ldots=\mu_k \\ H_a: & \mbox{pelo menos uma média é diferente das demais} \end{aligned} \]

A estatística do teste, chamada de F, é conceitualmente o seguinte: \[F = \frac{\mbox{Variação Entre as Médias Amostrais dos Grupos}}{\mbox{Variação Média Dentro dos Grupos}}\]

ANOVA - Condições

Devemos checar três condições nos dados onde iremos realizar a ANOVA:

as observações são independentes dentro dos grupos e entre os grupos;
os dados dentro de cada grupo são aproximadamente normais; e
a variância é aproximadamente constante entre os grupos.

Detalhes da ANOVA

Um conceito fundamental em Análise de Variância é que a variação total dos dados, considerando todas as amostras como vindas de uma única população, pode ser separadas em duas partes:

variação devido às diferenças entre as médias dos grupos
variação das observações dentro de cada grupo

Ou seja, escrevendo como uma equação:

\[\mbox{Variação Total = Variação Entre Grupos + Variação Dentro dos Grupos}\]

Iremos ver agora como medir cada uma dessas variações.

Estrutura dos Dados

Grupos	Observações	Média
Grupo 1	\(X_{11}, X_{12}, X_{13}, \ldots, X_{1n}\)	\(\bar{X}_1\)
Grupo 2	\(X_{21}, X_{22}, X_{23}, \ldots, X_{2n}\)	\(\bar{X}_2\)
\(\vdots\)	\(\vdots\)	\(\vdots\)
Grupo k	\(X_{k1}, X_{k2}, X_{k3}, \ldots, X_{kn}\)	\(\bar{X}_k\)

Veja que a média e variância amostral para cada grupo são calculadas como: \[\bar{X}_i = \frac{1}{n} \sum_{j=1}^n X_{ij} \quad \mbox{e} \quad s_i^2 = \frac{1}{n-1} \sum_{j=1}^n (X_{ij} - \bar{X}_i)^2\]

Notação

Considere a seguinte notação:

\(k\): número de populações ou grupos

\(n\): tamanho de cada grupo

\(X_{ij}\): a \(j\)-ésima observação dentro do \(i\)-ésimo grupo, \(i=1, \ldots, k\) e \(j=1,\ldots,n\)

\(\bar{X}_i\): média amostral do \(i\)-ésimo grupo

\(\bar{X}\): média amostral considerando todas as observações como parte de um único grupo/população.

\(s_i\): desvio padrão amostral do \(i\)-ésimo grupo

Variação Total

A variação total das observações é chamada de Soma de Quadrados Total ou \(SQ_T\) e é calculada como o numerador da variância amostral se todas as observações fossem combinadas em um único grupo. Ou seja, \[SQ_T = \sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X})^2\]

Analiticamente pode-se mostrar que: \[\begin{aligned} SQ_T = \sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X})^2 &= n \sum_{i=1}^k (\bar{X_i} - \bar X)^2 + \sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X}_i)^2 \\ &= SQ_G + SQ_E \end{aligned} \]

Veremos agora o que são \(SQ_G\) e \(SQ_E\).

Variação Entre Grupos

A variação entre as médias dos grupos é chamada de Soma de Quadrados Entre Grupos ou \(SQ_G\) e é calculada da seguinte forma:

\[SQ_G = n \sum_{i=1}^k (\bar{X_i} - \bar X)^2 = n(\bar{X}_1 - \bar X)^2+ \ldots + n(\bar{X}_k - \bar X)^2\]

Veja que é a soma ponderada das diferenças entre as médias dos grupos \(\bar{X}_i\) e a média geral \(\bar X\) ao quadrado.

O numerador da estatística \(F\) é chamado de Quadrado Médio Entre Grupos ou \(QM_G\) e pode ser visto como sendo a variância amostral das médias dos grupos: \[QM_G = \frac{SQ_G}{k-1}\]

Variação Dentro dos Grupos

A variação das observações dentro dos grupos é chamada de Soma de Quadrados do Erro ou \(SQ_E\) e é calculada da seguinte forma: \[SQ_E = \sum_{i=1}^k \sum_{j=1}^n (X_{ij} - \bar{X}_i)^2 = \sum_{i=1}^k (n-1) s^2_i\]

Ou seja, é a soma ponderada das variâncias amostrais para o \(i\)-ésimo grupo.

O denominador da estatística \(F\) é chamado de Quadrado Médio do Erro ou \(QM_E\) e é a estimativa da variância populacional para \(k\) grupos: \[QM_E = \frac{SQ_E}{k(n-1)} = \frac{(n-1) s^2_1 + \ldots + (n-1) s^2_k}{kn-k}\]

Teste de Igualdade das Médias para \(k\) Grupos

Resumindo, estamos interessados em testar as hipóteses: \[\begin{aligned} H_0: &\mu_1=\mu_2=\ldots=\mu_k \\ H_a: & \mbox{pelo menos uma média é diferente das demais} \end{aligned} \]

A estatística do teste é dada por: \[F = \frac{QM_G}{QM_E} = \frac{\frac{SQ_G}{k-1}}{\frac{SQ_E}{k(n-1)}}\]

Sob a hipótese \(H_0\) de igualdade das médias, a estatística do teste segue uma distribuição \(F\) com \(k-1\) graus de liberdade no númerador e \(k(n-1)\) graus de liberdade no denominador. Ou seja, \[F \stackrel{H_0}{\sim} F_{k-1, k(n-1)}\]

Tabela F

Os valores críticos da distribuição \(F\) para \(\alpha=0.05\) ou \(\alpha=0.01\) estão na tabela abaixo. As linhas e colunas representam os graus de liberdade do denominador (\(\nu_2\)) e numerador (\(\nu_1\)), respectivamente.

Teste de Igualdade das Médias para \(k\) Grupos

Valor Crítico: Para um nível de significância \(\alpha\), encontrar o valor crítico \(F_{crit}\) na tabela \(F\) com \(k-1\) graus de liberdade no numerador e \(k(n-1)\) graus de liberdade no denominador tal que \(P(F_{k-1, k(n-1)} \geq F_{crit}) = \alpha.\)

Conclusão: Rejeitamos \(H_0\) se \(F_{obs} \geq F_{crit} = F_{k-1, k(n-1), \alpha}\)

Tabela ANOVA

Tudo o que discutimos até agora pode ser resumido na tabela abaixo. Essa tabela é chamada de Tabela ANOVA

Fonte de Variação	Soma de Quadrados	Graus de Liberdade	Quadrado Médio	Estatística F
Grupos (Entre)	\(SQ_G\)	\(k-1\)	\(QM_G\)	\(\displaystyle F = \frac{QM_G}{QM_E}\)
Erro (Dentro)	\(SQ_E\)	\(k(n-1)\)	\(QM_E\)
Total	\(SQ_T\)	\(kn-1\)

Na prática, basta calcular \(SQ_T\) e \(SQ_G\) e obter a \(SQ_E\) por subtração: \[SQ_T = SQ_G + SQ_E \qquad \Longrightarrow \qquad SQ_E = SQ_T - SQ_G\]

Turmas de ME414 - Notas P1

Voltando no exemplo das notas da P1 para as turmas A, B, C e I. Selecionamos ao acaso 15 alunos de cada turma e anotamos sua respectiva nota na P1.

A tabela abaixo mostra as notas dos primeiros 5 alunos.

Aluno	ME414_A	ME414_B	ME414_C	ME414_I
1	5.00	7.8	9.6	9.4
2	8.33	5.6	7.3	8.5
3	5.00	6.7	2.7	5.6
4	6.67	9.4	10.0	6.0
5	6.67	9.4	5.5	6.7

ME414 - Notas P1

Existe diferença do desempenho na P1 entre as turmas?

Estatísticas Descritivas

Resumo das Notas P1 por Turma
	n	Média	Variância	Desvio Padrão
ME414_A	15	5.71	3.02	1.74
ME414_B	15	7.71	1.75	1.32
ME414_C	15	6.45	6.10	2.47
ME414_I	15	7.66	2.18	1.48

A média geral, considerando todas as notas como sendo de uma única turma é \(\bar X = `r mu\).

Cálculo das Somas de Quadrados

\[\begin{aligned} SQ_T &= \sum_{i=1}^4 \sum_{j=1}^{15} (X_{ij} - \bar{X})^2 = 225.31 \\ \\ SQ_G &= n \sum_{i=1}^4 (\bar{X_i} - \bar X)^2 \\ &= 15\left[(5.71 - 6.88)^2 + (7.71 - 6.88)^2 + (6.45 - 6.88)^2 + (7.66 - 6.88)^2 \right] \\ &= 42.59 \\ \\ SQ_E &= SQ_T - SQ_G \\ &= 225.31 - 42.59 = 182.72 \end{aligned} \]

ANOVA - Notas P1 por Turma

Fonte de Variação	Soma de Quadrados	Graus de Liberdade	Quadrado Médio	Estatística F
Grupos (Turma)	\(42.59\)	\(3\)	\(14.2\)	\(\displaystyle F = \frac{14.2}{3.26} = 4.351\)
Erro	\(182.72\)	\(56\)	\(3.26\)
Total	\(225.31\)	\(59\)

Para \(\alpha=0.05\), olhando na tabela F com 3 e 56 graus de liberdadeo, o valor crítico é \(F_{crit} = F_{3, 56, 0.05} = 2.769\).

Conclusão: Para \(\alpha = 0.05\), como \(F_{obs}= 4.351 > 2.769 = F_{crit},\) rejeitamos a hipótese de que as médias da P1 para todas as turmas são iguais.

Notas P1 por Turma

Exemplo: Qual dieta você faria?

Uma nutricionista quer comparar a perda de peso para três tipos diferentes de dieta. Ela selecionou 12 de seus pacientes e escolheu 4 ao acaso para fazer cada uma das dietas. Depois de um período de três meses os pacientes foram pesados e a perda de peso (em Kg) foi a seguinte:

Paciente	Dieta 1	Dieta 2	Dieta 3
1	7	9	15
2	9	11	12
3	5	7	18
4	7	10	16

Exemplo: Dieta

Resumo das Perdas de Peso por Dieta
	n	Média	Variância	Desvio Padrão
Dieta 1	4	7.00	2.67	1.63
Dieta 2	4	9.25	2.92	1.71
Dieta 3	4	15.25	6.25	2.50

Exemplo: Dieta

Fonte de Variação	Soma de Quadrados	Graus de Liberdade	Quadrado Médio	Estatística F
Dieta	\(145.5\)	\(2\)	\(72.75\)	\(F = 18.444\)
Erro	\(35.5\)	\(9\)	\(3.94\)
Total	\(181\)	\(11\)

Para \(\alpha=0.05\), olhando na tabela F com 2 e 9 graus de liberdadeo, o valor crítico é \(F_{crit} = F_{2, 9, 0.05} = 4.256\).

Conclusão: Para \(\alpha = 0.05\), como \(F_{obs}= 18.444 > 4.256 = F_{crit},\) rejeitamos a hipótese de que as perdas de peso médias para todas as dietas são iguais.

Exemplo: Dieta

Leituras

OpenIntro: seção 5.5
Magalhães: seção 9.4

Slides produzidos pelos professores:

Samara Kiihl
Tatiana Benaglia
Benilton Carvalho