Processing math: 100%

ME414 - Estatística para Experimentalistas

Parte 20

Inferência para duas populações: Teste de hipótese para duas médias

Teste de hipótese para duas médias

População 1: Coletamos uma amostra aleatória X1,X2,,Xn de uma população com média μ1 e a variância σ21 e usamos ˉX para estimar μ1.

População 2: Coletamos uma amostra aleatória Y1,Y2,,Ym de uma população com média μ2 e a variância σ22 e usamos ˉY para estimar μ2.

A população 1 é independente da população 2.

Teste de hipótese para duas médias

Condições:

  1. As populações 1 e 2 são aproximadamente normais ou

  2. Os tamanhos amostrais n e m são suficientemente grandes.

Se pelo menos uma das condições acima é satisfeita, temos: ˉXN(μ1,σ21n)eˉYN(μ2,σ22m)

Teste de hipótese para duas médias (σ21σ22)

Caso 1: Variâncias diferentes e conhecidas

Assumindo que as duas amostras X1,,Xn e Y1,,Ym são independentes com σ21σ22 conhecidas, temos:

ˉXˉYN(μ1μ2,σ21n+σ22m)

Teste de hipótese para duas médias (σ21σ22)

Caso 1: Variâncias diferentes e conhecidas

Temos interesse em: H0: μ1μ2=Δ0 vs Ha: μ1μ2Δ0 (ou Ha: μ1μ2<Δ0 ou Ha: μ1μ2>Δ0).

E daí, sob H0, temos que: Z=(ˉXˉY)Δ0(μ1μ2)σ21n+σ22mN(0,1)

Teste de hipótese para duas médias (σ21σ22)

Se temos interesse em: H0:μ1μ2=Δ0vsHa:μ1μ2>Δ0.

Uma amostra aleatória de tamanho m é coletada da população X e calcula-se a média amostral, ˉx. Similarmente, para a população Y, temos ˉy obtida a partir de uma amostra aleatória de tamanho n.

p-valor=P(ˉXˉYΔ0σ21/n+σ22/mˉxˉyΔ0σ21/n+σ22/m)=P(ZˉxˉyΔ0σ21/n+σ22/m)=1Φ(ˉxˉyΔ0σ21/n+σ22/m) em que Φ(z)=P(Zz) para ZN(0,1).

Teste de hipótese para duas médias (σ21σ22)

Se temos interesse em: H0:μ1μ2=Δ0vsHa:μ1μ2<Δ0.

p-valor=P(ˉXˉYΔ0σ21n+σ22mˉxˉyΔ0σ21n+σ22m)=P(ZˉxˉyΔ0σ21n+σ22m)=Φ(ˉxˉyΔ0σ21n+σ22m) em que Φ(z)=P(Zz) para ZN(0,1).

Teste de hipótese para duas médias (σ21σ22)

Se temos interesse em: H0:μ1μ2=Δ0vsHa:μ1μ2Δ0.

p-valor=P(|ˉXˉYΔ0|σ21n+σ22m|ˉxˉyΔ0|σ21n+σ22m)=P(|Z||ˉxˉyΔ0|σ21n+σ22m)=2×[1Φ(|ˉxˉyΔ0|σ21n+σ22m)] em que Φ(z)=P(Zz) para ZN(0,1).

Teste de hipótese para duas médias (σ21=σ22)

Caso 2: Variâncias iguais e conhecidas

ˉXˉYN(μ1μ2,σ2n+σ2m)

Temos interesse em: H0: μ1μ2=Δ0 vs Ha: μ1μ2Δ0 (ou Ha: μ1μ2<Δ0 ou Ha: μ1μ2>Δ0).

E daí, sob H0, temos que: Z=(ˉXˉY)Δ0(μ1μ2)σ2(1n+1m)N(0,1)

Teste de hipótese para duas médias (σ21=σ22 desconhecidas)

Caso 3: Variâncias iguais e desconhecidas

Assim como no caso de uma média com variância desconhecida, usamos uma estimativa de σ2 e a distribuição normal é substituída pela distribuição t.

No caso de duas populações, o estimador da variância σ2 é a combinação das variâncias amostrais de cada população, ou seja, S2p=(n1)S21+(m1)S22n+m2, sendo S2i é a variância amostral da população i.

Teste de hipótese para duas médias (σ21=σ22 desconhecidas)

Quando σ2 é conhecida:

ˉXˉY(μ1μ2)σ2(1/n+1/m)N(0,1)

Quando σ2 é desconhecida: ˉXˉY(μ1μ2)S2p(1/n+1/m)tn+m2

Teste de hipótese para duas médias (σ21=σ22 desconhecidas)

Temos interesse em: H0: μ1μ2=Δ0 vs Ha: μ1μ2Δ0 (ou Ha: μ1μ2<Δ0 ou Ha: μ1μ2>Δ0).

E daí, sob H0, temos que: T=(ˉXˉY)Δ0(μ1μ2)S2p(1n+1m)tn+m2

Observação: Se n e m são pequenos, as duas amostras devem vir de populações aproximadamente normais. Se n e m são grandes, então a distribuição t com n+m2 graus de liberdade aproxima-se de uma normal.

Resumo: Teste de hipótese para duas médias

Para H0: μ1μ2=Δ0 vs H1: μ1μ2Δ0

Variâncias Estatística do teste Valor crítico para α Valor de p
Diferentes e conhecidas (σ21σ22) Z=(ˉXˉY)Δ0σ21n+σ22mN(0,1) rejeitar se |zobs|zα/2 2P(Z|zobs|)
Iguais e conhecidas (σ21=σ22=σ2) Z=(ˉXˉY)Δ0σ2(1n+1m)N(0,1) rejeitar se |zobs|zα/2 2P(Z|zobs|)
Iguais e desconhecidas (σ21=σ22=σ2) T(ˉXˉY)Δ0S2p(1/m+1/n)tn+m2 rejeitar se |tobs|tn+m2,α/2 2P(T|tobs|)

Resumo: Teste de hipótese para duas médias

Para H0: μ1μ2=Δ0 vs H1: μ1μ2Δ0

Variâncias Estatística do teste Valor crítico para α Valor de p
Diferentes e conhecidas (σ21σ22) Z=(ˉXˉY)Δ0σ21n+σ22mN(0,1) rejeitar se zobszα P(Zzobs)
Iguais e conhecidas (σ21=σ22=σ2) Z=(ˉXˉY)Δ0σ2(1n+1m)N(0,1) rejeitar se zobszα P(Zzobs)
Iguais e desconhecidas (σ21=σ22=σ2) T(ˉXˉY)Δ0S2p(1/m+1/n)tn+m2 rejeitar se tobstn+m+2,α P(Ttobs)

Resumo: Teste de hipótese para duas médias

Para H0: μ1μ2=Δ0 vs H1: μ1μ2Δ0

Variâncias Estatística do teste Valor crítico para α Valor de p
Diferentes e conhecidas (σ21σ22) Z=(ˉXˉY)Δ0σ21n+σ22mN(0,1) rejeitar se zobszα P(Zzobs)
Iguais e conhecidas (σ21=σ22=σ2) Z=(ˉXˉY)Δ0σ2(1n+1m)N(0,1) rejeitar se zobszα P(Zzobs)
Iguais e desconhecidas (σ21=σ22=σ2) T(ˉXˉY)Δ0S2p(1/m+1/n)tn+m2 rejeitar se tobstn+m+2,α P(Ttobs)

Relembrando: Como encontrar zα/2

P(|Z|zα/2)=P(zα/2Zzα/2)=1α

Procure na tabela o valor de z tal que a probabilidade acumulada até o valor de z, isto é P(Zz)=Φ(z), seja 1α/2.

Relembrando: Como encontrar tν,α/2

P(tν,α/2<T<tν,α/2)=1α

Nesse caso, ν=n+m2 e os valores da distribuição t encontram-se tabelados.

Exemplo: tempo de incubação de dois vírus

O tempo de incubação do vírus 1 segue uma distribuição normal com média μ1 e desvio padrão σ1=2.

Por outro lado, o tempo de incubação do vírus 2 segue uma distribuição normal com média μ2 e desvio padrão σ2=1.

Os tempos de incubação de ambos os vírus são considerados independentes.

Afirma-se que em média, o tempo de incubação do vírus 1 é 3 meses depois do tempo médio de incubação do vírus 2.

Exemplo: tempo de incubação de dois vírus

Realizaram um estudo de controle e os tempos de incubação registrados foram (tempo em meses):

  • X: tempo de incubação do vírus 1 (20 observações)
##  [1] 4.56 3.72 3.45 2.86 4.03 4.08 6.56 4.31 0.42 5.56 5.92 2.65 4.54 4.04
## [15] 4.23 6.24 6.16 5.46 3.22 2.28
  • Y: tempo de incubação do vírus 2 (22 observações)
##  [1] 2.44 1.49 2.68 2.60 1.51 1.60 1.47 3.70 2.22 1.78 2.36 1.56 2.98 3.33
## [15] 2.22 0.58 2.26 2.26 1.92 0.50 1.17 1.70

Exemplo: tempo de incubação de dois vírus

Recentemente, pacientes contaminados com os vírus foram avaliados e suspeita-se que talvez o tempo de incubação do vírus 1 não seja 3 meses depois do tempo médio de incubação do vírus 2.

Definindo as hipóteses as serem testadas:

H0:μ1μ2=3vsH1:μ1μ23

Os dados coletados serão usados para avaliar se temos ou não evidências contra H0.

Vamos calcular a média amostral das duas populações: ˉx=4.21 e ˉy=2.02.

Pelo enunciado, as duas populações são normais e as variâncias são conhecidas: σ21=2 e σ22=1. Veja que as populações são normais, variâncias diferentes mas conhecidas. Além disso, n=20 e m=22.

Exemplo: tempo de incubação de dois vírus

p-valor=P(|ˉXˉYΔ0|σ21m+σ22n|4.212.023|222+120)=P(|Z|2.12)=2×P(Z2.12)=2×[1Φ(2.12)]=2×[10.983]=0.034

Se α=0.01, como p-valor=0.034 >α=0.01, não temos evidência para rejeitar H0:μ1=3+μ2 com nível de significância 0.01.

Valor crítico para α=0.01: 2.58, ou seja, se |zobs|2.58 temos evidências para rejeitar H0 com nível de significância α=0.01.

Exemplo: Tecidos

Dois tipos diferentes de tecido devem ser comparados. Uma máquina de testes Martindale pode comparar duas amostras ao mesmo tempo. O peso (em miligramas) para sete experimentos foram:

Tecido 1 2 3 4 5 6 7
A 36 26 31 38 28 20 37
B 39 27 35 42 31 39 22

Construa um teste de hipótese com nível de significância 5% para testar a hipótese nula de igualdade entre os pesos médios dos tecidos. Admita que a variância é a mesma, e igual a 49.

Quais outras suposições são necessárias para que o teste seja válido?

Adaptado de: Profa. Nancy Garcia, Notas de aula.

Exemplo: Tecidos

Os tecidos do tipo A tem uma média amostral igual a ˉxA=30.86. Já os tecidos do tipo B têm média amostral de ˉxB=33.57.

A variância populacional é igual a 49, enquanto as variâncias amostrais são 44.14 e 52.62, respectivamente.

Suposições: Como os tamanhos amostrais n=m=7 são pequenos, devemos assumir os pesos dos tecidos dos dois tipos são normalmente distribuídos ou seja, XAN(μA,σ2) e XBN(μB,σ2). Além disso são independentes e com variâncias iguais.

Exemplo: Tecidos

Assumimos que as variâncias são iguais e conhecidas (σ21=σ22=49). Além disso, n=7 e m=7.

Definindo as hipóteses as serem testadas:

H0:μAμB=0vsH1:μAμB0.

Como a variância é conhecida, a estatística do teste é dada por Z=ˉXAˉXBΔ0σ1nA+1nB

Se a hipótese nula é verdadeira, temos que Δ0=μAμB=0 e ZN(0,1). Note que a hipótese alternativa é do tipo , então o teste é bilateral.

Exemplo: Tecidos

p-valor=P(|ˉXAˉXBΔ0|σ1nA+1nB|30.8633.570|717+17)=P(|Z|0.72)=2×P(Z0.72)=2×[1Φ(0.72)]=2×[10.7642]=0.4716

Se α=0.05, como p-valor=0.4716 >α=0.05, não temos evidência para rejeitar H0:μA=μB com nível de significância 0.05.

Valor crítico para α=0.05: 1.96, ou seja, se |zobs|1.96 temos evidências para rejeitar H0 com nível de significância α=0.05.

Exemplo: Tecidos

Vamos assumir agora que a variância populacional não fosse conhecida.

Assumindo ainda que as variâncias são iguais mas desconhecidas, vamos então estimar a variância amostral combinada.

Sabendo que s21=44.14, s22=52.62 e n=m=7 temos: s2p=(n1)s21+(m1)s22n+m2=(71)44.14+(71)52.627+72=48.38

Exemplo: Tecidos

Nesse caso, a estatística do teste, sob H0, é dada por:

T=ˉXAˉXBS2p(1nA+1nB)tn+m2

tobs=ˉxAˉxBs2p(1/nA+1/nB)=30.8633.5748.38(1/7+1/7)=0.73

Exemplo: Tecidos

Considerando nível de significância 0.05, rejeitamos H0 se |tobs|tn+m2,0.025.

Valor crítico para α=0.05: 2.18, ou seja, se |tobs|2.18 temos evidências para rejeitar H0 com nível de significância α=0.05. No caso, |tobs|=0.73<2.18, portanto não encontramos evidências para rejeitar a hipótese de que as médias são iguais.

Exemplo: tempo de adaptação

Num estudo comparativo do tempo médio de adaptação (em anos), uma amostra aleatória, de 50 homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados:

Estatística Homens Mulheres
Média 3.2 3.7
Desvio Padrão 0.8 0.9

Construa um teste de hipótese com nível de significância de 5% para a diferença entre o tempo médio de adaptação para homens e mulheres.

Fonte: Adaptado de Morettin & Bussab, Estatística Básica 5a edição, pág 365.

Exemplo: tempo de adaptação

Veja que não sabemos a variância populacional, mas temos os desvios-padrão amostrais e estes são bem próximos. Então iremos assumir que as variâncias são iguais porém desconhecidas.

Nesse caso, vamos então estimar a variância amostral combinada.

Sabendo que s1=0.8, s2=0.9 e n=m=50 temos: s2p=(n1)s21+(m1)s22n+m2=(501)(0.8)2+(501)(0.9)250+502=0.73

Exemplo: tempo de adaptação

Nesse caso, a estatística do teste, sob H0, é dada por:

T=ˉX1ˉX2S2p(1n+1m)tnA+mB2

tobs=ˉx1ˉx2s2p(1n+1m)=3.23.70.73(150+150)=2.93

Exemplo: tempo de adaptação

Considerando nível de significância 0.05 e Ha: μ1μ2, rejeitamos H0 se |tobs|tn+m2,0.025=1.98.

Valor crítico para α=0.05: 1.98, ou seja, se |tobs|1.98 temos evidências para rejeitar H0 com nível de significância α=0.05. No caso, |tobs|=2.93>1.98, portanto encontramos evidências para rejeitar a hipótese de que as médias são iguais.

Inferência para duas populações: Teste de hipótese para duas proporções

Teste de hipótese para duas proporções

Considere X1,,Xn1 e Y1,,Yn2 duas amostras independentes de ensaios de Bernoulli tal que Xb(p1) e Yb(p2), com probabilidade p1 e p2 de apresentarem uma certa característica.

Queremos testar: H0: p1p2=0 vs Ha: p1p20 (ou Ha: p1p2<0 ou Ha: p1p2>0).

Em aulas anteriores vimos que: ˆp1N(p1,p1(1p1)n1)eˆp2N(p2,p2(1p2)n2)

Como as variâncias de ˆp1 e ˆp2 dependem de p1 e p2 e, portanto, não são conhecidas, iremos usar uma estimativa dessas variâncias.

Teste de hipótese para duas proporções

Sob H0, p1=p2=p, portanto:

ˆp1N(p1,p(1p)n1)eˆp2N(p2,p(1p)n2)

No entanto, p é desconhecido. Iremos utilizar como estimativa para p: ˆp, definido como o número de sucessos entre todos os elementos amostrados. Ou seja, o estimador é a proporção de sucessos na amostra toda, sem levar em consideração as populações, pois, sob H0, p1=p2 (não há diferença entre as proporções das duas populações).

Teste de hipótese para duas proporções

Então, para H0: p1=p2 usamos a estatística do teste a seguir: Z=ˆp1ˆp2ˆp(1ˆp)(1n1+1n2)N(0,1)

em que ˆp é a proporção de sucessos entre os n1+n2 elementos amostrados.

Condições: Todas as quantidades n1ˆp1,n1(1ˆp1),n2ˆp2 e n2(1ˆp2) devem ser pelo menos igual a 10 para que a aproximação pela normal seja válida.

Teste de hipótese para duas proporções

Resumindo:

Para H0: p1p2=0

Ha Valor crítico para α Valor de p
p1p20 rejeitar se |zobs|zα/2 2P(Z|zobs|)
p1p2<0 rejeitar se zobszα P(Zzobs)
p1p2>0 rejeitar se zobszα P(Zzobs)

Exemplo: decisão sobre gastos

O dinheiro que não é gasto hoje pode ser gasto depois.

Será que ao relembrar o aluno deste fato faz com que tome a decisão sobre uma compra de maneira diferente?

O cético pode pensar que relembrar não irá influenciar na decisão.

Podemos utilizar um teste de hipótese:

  • H0: Relembrar o aluno de que ele pode poupar para comprar algo especial depois não irá influenciar na decisão de gasto do aluno.

  • Ha: Relembrar o aluno de que ele pode poupar para comprar algo especial depois irá aumentar a chance dele não gastar em algo no presente.

Exemplo: decisão sobre gastos

Alunos de ME414 do segundo semestres de 2015 foram recrutados para um estudo e cada um recebeu a seguinte informação através do Google Forms:

Imagine que você estivesse poupando para comprar algo especial. Em uma visita ao shopping você encontra um DVD da sua série/filme favorita que estava na sua "lista de desejos" há tempos. O DVD está em promoção, custando R$ 20,00. O que você faria?

56 alunos (grupo 1) selecionados ao acaso receberam a seguinte opção de resposta:

  • Compraria o DVD.
  • Não compraria o DVD.

54 alunos (grupo 2) selecionados ao acaso receberam a seguinte opção de resposta:

  • Compraria o DVD.
  • Não compraria o DVD. Pouparia os R$ 20,00 para algo especial.

Obs: estudo adaptado do artigo Frederick S, Novemsky N, Wang J, Dhar R, Nowlis S. 2009. Opportunity Cost Neglect. Journal of Consumer Research 36: 553-561.

Exemplo: decisão sobre gastos

Compraria Não compraria
grupo1 31 25
grupo2 29 25

Entre os alunos do grupo 1, a proporção que decide não comprar foi 0.45.

Entre os alunos do grupo 2, a proporção que decide não comprar foi 0.46.

Temos evidências contra a hipótese nula, ou seja, relembrar o aluno não influencia na decisão?

Exemplo: decisão sobre gastos

Para realizar o teste de hipótese, devemos fazer algumas suposições.

Considere duas populações: X e Y tal que:

  • Xib(p1) indica se o i-ésimo aluno do grupo 1 decide não comprar o DVD e p1 é a probabilidade de decidir por não comprar.
  • Yib(p2) indica se o i-ésimo aluno do grupo 2 decide não comprar o DVD e p2 é a probabilidade de decidir por não comprar.

Queremos testar:

  • H0: p1=p2
  • Ha: p1<p2

Exemplo: decisão sobre gastos

Seja ˆp1 a proporção que decide não comprar entre os alunos n1 amostrados do grupo 1.

Seja ˆp2 a proporção que decide não comprar entre os n2 alunos amostrados do grupo 2.

Relembrando o TCL:

ˆp1N(p1,p1(1p1)n1)eˆp2N(p2,p2(1p2)n2)

Condições: Todas as quantidades n1ˆp1,n1(1ˆp1),n2ˆp2 e n2(1ˆp2) devem ser pelo menos igual a 10 para que a aproximação pela normal seja válida.

Então, para H0: p1=p2 usamos a estatística do teste a seguir: Z=(ˆp1ˆp2)ˆp(1ˆp)(1n1+1n2)N(0,1)

em que ˆp é a proporção que decide não comprar entre os n1+n2 alunos amostrados.

Exemplo: decisão sobre gastos

H0: p1=p2 vs Ha: p1<p2, que é equivalente a testar: H0: p1p2=0 vs Ha: p1p2<0.

p-valor=P(ˆp1ˆp2ˆp(1ˆp)(1n1+1n2)25/5625/545/11(15/11)(156+154))=P(Z0.17)=0.4325

Se α=0.05, como p-valor=0.4325 >α=0.05, não temos evidência para rejeitar H0 com nível de significância 0.05.

Valor crítico para α=0.05: -1.64, ou seja, se zobs1.64 temos evidências para rejeitar H0 com nível de significância α=0.05.

Leituras

  • Ross: capítulo 10.
  • OpenIntro: seções 3.2 e 4.3.
  • Magalhães: capítulo 9.

Slides produzidos pelos professores:

  • Samara Kiihl

  • Tatiana Benaglia

  • Benilton Carvalho