Quando dois ou mais atributos são observados para cada elemento amostrado, os dados podem ser simultaneamente classificados com respeito aos nÃveis de ocorrência para cada um dos atributos.
Por exemplo, empregados podem ser classificados de acordo com escolaridade e tipo de ocupação, flores podem ser classificadas com respeito ao tipo de folhagem e tamanho.
Tabela de contingência: enumerar a frequência de obervações da classificação simultânea de duas ou mais caracterÃsticas.
Podemos usar a tabela de contingência para estudar se certa caracterÃstica parece se manifestar independentemente da outra ou se nÃveis de uma caracterÃstica tendem a estar associados com nÃveis da outra.
Uma amostra aleatória de 500 pessoas responde um questionário sobre filiação partidária (partido A ou B) e atitude mediante um programa de racionamento de energia. Os resultados estão apresentados na tabela de contingência a seguir:
Favorável | Indiferente | Contrário | |
---|---|---|---|
A | 138 | 83 | 64 |
B | 64 | 67 | 84 |
Os dados indicam que a opinião sobre racionamento de energia é independente da filiação partidária?
Podemos medir quantitativamente a associaçãoo entre as duas caracterÃsticas?
Primeiramente, consideremos a tabela de um ponto de vista descritivo, transformando as contagens em proporcões.
Favorável | Indiferente | Contrário | Total | |
---|---|---|---|---|
A | 0.28 | 0.17 | 0.13 | 0.57 |
B | 0.13 | 0.13 | 0.17 | 0.43 |
Total | 0.4 | 0.3 | 0.3 | 1.00 |
Primeiramente, consideremos a tabela de um ponto de vista descritivo, transformando as contagens em proporcões.
Favorável | Indiferente | Contrário | Total | |
---|---|---|---|---|
A | 0.48 | 0.29 | 0.22 | 1.00 |
B | 0.3 | 0.31 | 0.39 | 1.00 |
Primeiramente, consideremos a tabela de um ponto de vista descritivo, transformando as contagens em proporcões.
Favorável | Indiferente | Contrário | |
---|---|---|---|
A | 0.68 | 0.55 | 0.43 |
B | 0.32 | 0.45 | 0.57 |
Total | 1.00 | 1.00 | 1.00 |
Através das tabelas de proporções e gráficos de barras, observam-se diferenças aparentes nas distribuições ao longo das linhas, colunas ou das proporções totais das respostas.
Por exemplo, com relação às proporções por linha, observa-se que as proporções diminuem ao longo da primeira linha e aumentam ao longo da segunda.
Podemos usar um teste estatÃstico para avaliar possÃvel associação entre filiação partidária e opinião com relação ao programa de racionamento de energia.
Considere duas caracterÃsticas designadas por A e B e suponha que existem r categorias A1,A2,…,Ar para A e c categorias B1,B2,…,Bc para B.
Suponha que uma amostra de tamanho n é classificada e distribuÃda nas classes de A e B, produzindo uma tabela de contingência em que:
nij= frequência de observações com as caracterÃsticas Ai e Bj conjuntamente.
ni0= total da i-ésima linha, ou frequência de Ai.
n0j= total da j-ésima coluna, ou frequência de Bj.
B1 | B2 | … | Bc | Total da linha | |
---|---|---|---|---|---|
A1 | n11 | n12 | … | n1c | n10 |
A2 | n21 | n22 | … | n2c | n20 |
â‹® | â‹® | â‹® | â‹® | â‹® | â‹® |
Ar | nr1 | nr2 | … | nrc | nr0 |
Total da coluna | n01 | n02 | … | n0c | n |
Podemos usar a população classificada em termos de proporções populacionais e a tabela anterior fica:
B1 | B2 | … | Bc | Total da linha | |
---|---|---|---|---|---|
A1 | p11 | p12 | … | p1c | p10 |
A2 | p21 | p22 | … | p2c | p20 |
â‹® | â‹® | â‹® | â‹® | â‹® | â‹® |
Ar | pr1 | pr2 | … | prc | pr0 |
Total da coluna | p01 | p02 | … | p0c | 1 |
pij=P(Ai∩Bj) é a probabilidade da ocorrência conjunta de Ai e Bj.
pi0=P(Ai) é a probabilidade total da i-ésima linha.
p0j=P(Bj) é a probabilidade total da j-ésima coluna.
Teste de independência: interesse é testar se as classificações nas categorias de A e B são independentes, ou seja, pretende-se avaliar se P(Ai∩Bj)=P(Ai)P(Bj) para todo i=1,2,…,r e j=1,2,…,c
Hipóteses:
H0:pij=pi0p0j para todas as componentes (i,j) (independência)
Ha:pij≠pi0p0j para pelo menos um par (i,j)
O modelo de independência especifica as probabilidades das componentes em termo das probabilidades marginais. Problema: as probabilidades marginais são parâmetros desconhecidos.
Como pi0=P(Ai), um estimador natural é a frequência relativa amostra de Ai,ˆpi0=ni0n
Da mesma forma, p0j=P(Bj) é estimado porˆp0j=n0jn
Usando essas estimativas a probabilidade da componente (i,j) é estimada por ˆpij=ˆpi0ˆp0j=ni0n0jn2
Logo, a frequência relativa esperada sob o modelo de independência é
Eij=nˆpij=ni0n0jn
Portanto, a estatÃstica do teste é dada por:
χ2=∑r×c componentes (Oij−Eij)2Eij=∑r×c componentes (nij−Eij)2Eij
que sob H0 tem distribuição aproximadamente χ2 com (r−1)×(c−1) graus de liberdade, para n grande.
Valor CrÃtico: Para um nÃvel de significância α, encontrar o valor crÃtico χ2crit na tabela Chi-quadrado tal que P(χ2(r−1)(c−1)≥χ2crit)=α.
Conclusão: Rejeitamos H0 se χ2obs≥χ2crit.
Frequências observadas (nij):
Favorável | Indiferente | Contrário | |
---|---|---|---|
A | 138 | 83 | 64 |
B | 64 | 67 | 84 |
Frequências esperadas (Eij), segundo hipótese de independência:
Favorável | Indiferente | Contrário | |
---|---|---|---|
A | 115.14 | 85.5 | 84.36 |
B | 86.86 | 64.5 | 63.64 |
A estatÃstica χ2 tem o valor observado de
χ2obs=4.539+0.073+4.914+6.016+0.097+6.514=22.15H0∼χ22
Usando o nÃvel de significância α=0.05, o valor crÃtico é χ2crit=χ22,0.05=5.99.
Como χ2obs=22.15>5.99=χ2crit, rejeitamos a hipótese nula de indepêndencia.
ConcluÃmos que os dados trazem evidências de associação entre as duas caracterÃsticas (filiação e opinião).
CUIDADO!!! Associação não implica CAUSA.
Não podemos afirmar que existe uma relação de causa e efeito, pois os dados são observacionais, isto é, não aleatorizamos as pessoas para serem do partido A ou B, por exemplo.
Existe associação entre sexo e a carreira escolhida por 200 alunos de Economia e Administração?
Frequências observadas (nij):
Masculino | Feminino | |
---|---|---|
Economia | 85 | 35 |
Administração | 55 | 25 |
Frequências esperadas (Eij), segundo hipótese de independência:
Masculino | Feminino | |
---|---|---|
Economia | 84 | 36 |
Administração | 56 | 24 |
A estatÃstica χ2 tem o valor observado de
χ2obs=(85−84)284+(35−36)236+(55−56)256+(25−24)224=0.099H0∼χ21
Usando o nÃvel de significância α=0.05, o valor crÃtico é χ2crit=χ21,0.05=3.84.
Como χ2obs=0.099<3.84=χ2crit, não rejeitamos a hipótese nula de indepêndencia.
Existe associação entre obter no mÃnimo 5 nos exercÃcios do Moodle e obter no mÃnimo 5 na prova 1 de ME414?
As notas de 453 alunos matriculados nas turmas de ME414 no 2S2015 foram consideradas. Os seguintes resultados foram obtidos:
< 5 na P1 | >= 5 na P1 | Total | |
---|---|---|---|
< 5 no Moodle | 21 | 44 | 65 |
>= 5 no Moodle | 37 | 351 | 388 |
Total | 58 | 395 | 453 |
Tabela de frequências esperadas, segundo a hipótese nula de independência:
Eij=nˆpij=ni0n0jn
< 5 na P1 | >= 5 na P1 | |
---|---|---|
< 5 no Moodle | 8.32 | 56.68 |
>=5 no Moodle | 49.68 | 338.32 |
A estatÃstica χ2 tem o valor observado de
χ2obs=(21−8.32)28.32+(44−56.68)256.68+(37−49.68)249.68+(351−338.32)2338.32=25.86H0∼χ21
Usando o nÃvel de significância α=0.05, o valor crÃtico é χ2crit=χ21,0.05=3.84.
Como χ2obs=25.86>3.84=χ2crit, rejeitamos a hipótese nula de indepêndencia.
Nas situações em que utilizamos os testes de independência, o esquema de amostragem utizado foi baseado numa amostra aleatória de tamanho n que é classificada com respeito a duas caracterÃsticas simultaneamente.
Nesse caso, as frequências marginais totais (totais por linhas e totais por colunas) são variáveis aleatórias, pois a cada nova amostragem, não temos como saber de antemão quais serão os valores dos totais por linhas/colunas.
Se o esquema de amostragem for de dividir a população em duas subpopulações de acordo com as categorias de uma caracterÃstica e selecionar uma amostra de um tamanho pré-determinado para cada subpopulação, então esta será uma situação de tabela de contingência com margens fixas.
Por exemplo, no caso do problema de filiação partidária, poderÃamos selecionar amostras aleatórias de tamanho 200 entre afiliados do partido A e 300 dentre os afiliados do partido B e se classificaria essas amostras de acordo com a atitude (favorável, indiferente ou contrário).
O interesse então é estudar as proporções nessas categorias para determinar se elas são aproximadamente iguais para as diferentes subpopulações. Ou seja, queremos testar se as subpopulações são homogêneas.
Suponha que amostras aleatórias independentes de tamanho n10,…,nr0 são selecionadas de r subpopulações A1,…,Ar respectivamente. Classificando cada amostra em uma das categorias B1,…,Bc, obtemos uma tabela de contigência r×c onde os totais das linhas são tamanhos de amostras fixos.
Tabelas de contingência r×c com totais das linhas fixos:
B1 | B2 | … | Bc | Total da linha | |
---|---|---|---|---|---|
A1 | n11 | n12 | … | n1c | n10 |
A2 | n21 | n22 | … | n2c | n20 |
â‹® | â‹® | â‹® | â‹® | â‹® | â‹® |
Ar | nr1 | nr2 | … | nrc | nr0 |
Total da coluna | n01 | n02 | … | n0c | n |
As probabilidades das várias categorias de B dentro de cada subpopulação de A também são apresentadas a seguir, onde cada w representa uma probabilidade condicional,
wij=P(Bj|Ai)= probabilidade de Bj dentro da população Ai.
Probabilidades das categorias de B dentro de cada subpopulação:
B1 | B2 | … | Bc | Total da linha | |
---|---|---|---|---|---|
A1 | w11 | w12 | … | w1c | 1 |
A2 | w21 | w22 | … | w2c | 1 |
â‹® | â‹® | â‹® | â‹® | â‹® | â‹® |
Ar | wr1 | wr2 | … | wrc | 1 |
A hipótese nula de iqualdade das categorias B para as r subpopulações é:
H0:w1j=w2j=⋯=wrj, para todo j=1,2,…c.
Sob H0, a probabilidade comum da categoria Bj pode ser estimada do conjunto de amostras notando que de um total de n elementos amostrados, n0j possuem a caracterÃstica Bj, daà a probabilidade estimada fica
ˆw1j=ˆw2j=⋯=ˆwrj=n0jn
A frequência esperada estimada na componente (i,j) sob H0 é:
Eij=(Número de Ai amostrados)×(Probabilidade de Bj dentro de Ai)=ni0ˆwij=ni0n0jn
A estatÃstica do teste é dada por:
χ2=∑r×c componentes (nij−Eij)2Eij que sob H0 segue uma distribuição χ2 com (r−1)×(c−1) graus de liberdade.
Pode-se observar que as fórmulas e os graus de liberdade dessa seção são iguais ao da seção anterior, somente o método de amostragem e a formalização da hipótese nula são diferentes.
Valor CrÃtico: Para um nÃvel de significância α, encontrar o valor crÃtico χ2crit na tabela Chi-quadrado tal que P(χ2(r−1)(c−1)≥χ2crit)=α.
Conclusão: Rejeitamos H0 se χ2obs≥χ2crit.
Foi feita uma pesquisa para determinar a incidência de alcoolismo em diferentes grupos profissionais.
Separadamente, um amostra aleatória entre religiosos, educadores, executivos e comerciantes foi coletada.
Os dados são apresentados na tabela:
Alcoólatras | Não Alcoólatras | |
---|---|---|
Religiosos | 32 | 268 |
Educadores | 51 | 199 |
Executivos | 67 | 233 |
Comerciantes | 83 | 267 |
wij=P(Bj|Ai)= probabilidade de Bj dentro da subpopulação Ai.
H0:w1j=w2j=⋯=wrj, para todo j=1,2,…c.
Tabela de contingência de alcoolismo vs profissão: frequência relativa por linha.
Alcoólatras | Não Alcoólatras | |
---|---|---|
Religiosos | 0.11 | 0.89 |
Educadores | 0.20 | 0.80 |
Executivos | 0.22 | 0.78 |
Comerciantes | 0.24 | 0.76 |
Gráfico de barras de alcoolismo vs profissão: frequência relativa por linha.
A frequência esperada estimada na componente (i,j) sob H0 é
Eij=ni0n0jn
Tabela de frequências esperadas, segundo a hipótese nula de homogeneidade:
Alcoólatras | Não Alcoólatras | |
---|---|---|
Religiosos | 58.25 | 241.75 |
Educadores | 48.54 | 201.46 |
Executivos | 58.25 | 241.75 |
Comerciantes | 67.96 | 282.04 |
Representando por p1,p2,p3 e p4 as proporções de alcoólatras na subpopulação de religiosos, educadores, executivos e comerciantes, respectivamente, queremos testar a hipótese:
H0:p1=p2=p3=p4vsHa:pelo menos uma proporção é diferente
A estatÃstica observada é:
χ2obs=(32−58.25)258.25+⋯+(267−282.04)2282.04=20.6H0∼χ23
Usando o nÃvel de significância α=0.05, o valor crÃtico é χ2crit=χ23,0.05=7.81. Como χ2obs=20.6>7.81=χ2crit, rejeitamos a hipótese nula de homogeneidade.
Como a hipótese nula foi rejeitada verificamos que há indÃcios de que a proporção de alcoólatras nas classes profissionais não é homogênea.
O Google está constantemente elaborando experimentos para testar novos algoritmos de busca. Por exemplo, o Google pode estar interessado em testar 3 algoritmos usando uma amostra aleatória para cada um: 5000 buscas feitas com o algoritmo atual foram selecionadas ao acaso, 2500 buscas feitas com o algoritmo teste 1 foram selecionadas ao acaso e 2500 buscas feitas com o algoritmo teste 2 foram selecionadas ao acaso.
Como avaliar qual o melhor algoritmo? É preciso definir alguma medida.
No caso, o Google irá avaliar se o usuário clicou em um dos links da busca e depois não realizou uma nova tentativa de busca ou se ele depois realizou nova tentativa (indicando que a primeira busca não foi bem sucedida).
Objetivo: 3 algoritmos têm a mesma performance, isto é, a proporção de buscas que não são refeitas é a mesma para os três algoritmos?
Suponha que o Google tenha obtido os seguintes resultados:
Atual | Teste 1 | Teste 2 | |
---|---|---|---|
Sem nova busca | 3511 | 1749 | 1818 |
nova busca | 1489 | 751 | 682 |
Tabela de frequências esperadas, segundo a hipótese nula de homogeneidade:
Atual | Teste 1 | Teste 2 | |
---|---|---|---|
Sem nova busca | 3539 | 1769.5 | 1769.5 |
nova busca | 1461 | 730.5 | 730.5 |
A estatÃstica χ2 tem o valor observado de
χ2obs=(3511−3539)23539+(1749−1769.5)21769.5+(1489−1461)21461+(751−730.5)2730.5=6.12H0∼χ22
Usando o nÃvel de significância α=0.01, o valor crÃtico é χ2crit=χ22,0.01=9.21. Como χ2obs=6.12<9.21=χ2crit, não rejeitamos a hipótese nula de homogeneidade.
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho