Sua opinião sobre o comportamento de uma variável muda na presença de informação de uma segunda variável?
A distribuição conjunta das duas variáveis descreve a associação existente entre elas.
Grau de dependência: como uma variável "explica" ou se "associa" a outra.
Temos três casos:
Queremos estudar o comportamento conjunto de duas variáveis: Grau de Instrução (\(X\)) e Região de Procedência (\(Y\)).
Ensino Fundamental | Ensino Médio | Ensino Superior | Total | |
---|---|---|---|---|
Capital | 4 | 5 | 2 | 11 |
Interior | 3 | 7 | 2 | 12 |
Outra | 5 | 6 | 2 | 13 |
Total | 12 | 18 | 6 | 36 |
Podemos considerar também proporções condicionais (frequências relativas):
A proporção condicional escolhida depende do estudo que pretendemos fazer.
Distribuição das frequências relativas ao total da amostra.
Total da amostra é 36.
Ensino Fundamental | Ensino Médio | Ensino Superior | Sum | |
---|---|---|---|---|
Capital | 0.111 | 0.139 | 0.056 | 0.306 |
Interior | 0.083 | 0.194 | 0.056 | 0.333 |
Outra | 0.139 | 0.167 | 0.056 | 0.361 |
Sum | 0.333 | 0.500 | 0.167 | 1.000 |
11% dos funcionários são da capital e possuem ensino fundamental.
Distribuição das frequências relativas ao total de cada coluna.
Ensino Fundamental | Ensino Médio | Ensino Superior | |
---|---|---|---|
Capital | 0.333 | 0.278 | 0.333 |
Interior | 0.250 | 0.389 | 0.333 |
Outra | 0.417 | 0.333 | 0.333 |
Sum | 1.000 | 1.000 | 1.000 |
Entre os funcionários com ensino médio:
\(28\%\) são da capital.
\(39\%\) são do interior.
\(33\%\) são de outros locais.
Permite comparar a distribuição de \(Y\) (procedência) conforme o grau de instrução (\(X\)).
Observando o gráfico e a tabela de proporções parece haver evidências de associação entre o grau de instrução e a procedência do funcionário.
Distribuição das frequências relativas ao total de cada linha.
Ensino Fundamental | Ensino Médio | Ensino Superior | Sum | |
---|---|---|---|---|
Capital | 0.364 | 0.455 | 0.182 | 1 |
Interior | 0.250 | 0.583 | 0.167 | 1 |
Outra | 0.385 | 0.462 | 0.154 | 1 |
Entre os funcionários do interior:
\(25\%\) possuem Ensino Fundamental
\(58\%\) possuem Ensino Médio.
\(17\%\) possuem Ensino Superior.
Permite comparar a distribuição do grau de instrução (\(X\)) conforme a procedência (\(Y\)).
Existe dependência entre o sexo (\(X\)) e a carreira escolhida (\(Y\)) por 200 alunos de Economia e Administração?
Masculino | Feminino | Total | |
---|---|---|---|
Economia | 85 | 35 | 120 |
Administração | 55 | 25 | 80 |
Total | 140 | 60 | 200 |
Se quisermos estudar se a proporção de mulheres escolhendo Economia é similar à proporção de homens que escolhem Economia, devemos avaliar:
Distribuição das frequências relativas ao total de cada coluna?
Distribuição das frequências relativas ao total de cada linha?
Masculino | Feminino | Total | |
---|---|---|---|
Economia | 0.61 | 0.58 | 0.6 |
Administração | 0.39 | 0.42 | 0.4 |
Sum | 1.00 | 1.00 | 1.0 |
Observando o gráfico e a tabela de proporções condicionais parece não haver evidências de associação entre gênero e escolha da carreira.
Uma pesquisa foi feita para investigar a presença de pesticidas em alimentos orgânicos e convencionais.
Pesticida Presente | Pesticida Ausente | Total | |
---|---|---|---|
Orgânico | 29 | 98 | 127 |
Convencional | 19485 | 7086 | 26571 |
Total | 19514 | 7184 | 26698 |
Qual a proporção de alimentos com pesticida?
\(19514/26698=0.731\).
Qual a proporção de alimentos com pesticidas dentre os orgânicos?
\(29/127=0.228\).
Qual a proporção de alimentos com pesticidas dentre os convencionais?
\(19484/26571=0.733\).
Proporção condicional: condicionalmente à informação de uma variável, observamos a proporção da outra variável.
Pesticida Presente | Pesticida Ausente | Sum | |
---|---|---|---|
Orgânico | 0.23 | 0.77 | 1 |
Convencional | 0.73 | 0.27 | 1 |
Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre presença de pesticida e tipo de alimento.
Pesquisa da GSS de 2002.
Você se considera feliz?
Comparando com as demais famÃlias dos EUA, como você considera sua renda familiar?
Renda | Não muito feliz | Feliz | Muito feliz | Total |
---|---|---|---|---|
Acima da média | 17 | 90 | 51 | 158 |
Na média | 45 | 265 | 143 | 453 |
Abaixo da média | 31 | 139 | 71 | 241 |
Total | 93 | 494 | 265 | 852 |
Não muito feliz | Feliz | Muito feliz | Total | |
---|---|---|---|---|
Acima da média | 17 | 90 | 51 | 158 |
Na média | 45 | 265 | 143 | 453 |
Abaixo da média | 31 | 139 | 71 | 241 |
Total | 93 | 494 | 265 | 852 |
No geral, qual a proporção de pessoas diz que está Muito feliz?
\[\frac{265}{852}=0.31\]
Será que o nÃvel de felicidade muda para cada tipo de renda? Como comparar?
Proporções condicionais do nÃvel de felicidade para cada nÃvel de renda:
Não muito feliz | Feliz | Muito feliz | Sum | |
---|---|---|---|---|
Acima da média | 0.11 | 0.57 | 0.32 | 1 |
Na média | 0.10 | 0.58 | 0.32 | 1 |
Abaixo da média | 0.13 | 0.58 | 0.29 | 1 |
Observando o gráfico e a tabela de proporções condicionais parece não haver evidências de associação entre nÃvel de felicidade e nÃvel de renda.
A Escola de Saúde Pública da Harvard fez uma pesquisa com 200 cursos de graduação em 2001.
A pesquisa pergunta aos alunos sobre hábitos relacionados à bebida.
Bebida em excesso - Sim | Bebida em excesso - Não | Total | |
---|---|---|---|
Masculino | 1908 | 2017 | 3925 |
Feminino | 2854 | 4125 | 6979 |
Total | 4762 | 6142 | 10904 |
Qual o número de alunos:
do sexo masculino e beberam em excesso?
do sexo feminino e beberam em excesso?
Usando diretamente a tabela, podemos responder à pergunta: Há diferença entre homens e mulheres na proporção de ocorrência de bebida em excesso?
Proporções condicionais de ocorrência de bebida em excesso por gênero:
Bebida em excesso - Sim | Bebida em excesso - Não | Sum | |
---|---|---|---|
Masculino | 0.49 | 0.51 | 1 |
Feminino | 0.41 | 0.59 | 1 |
Proporção de ocorrência de bebida em excesso entre homens: \(\frac{1908}{3925}=0,49\).
Proporção de ocorrência de bebida em excesso entre mulheres: \(\frac{2854}{4125}=0,41\).
Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre gênero e bebida em excesso.
Associação entre duas variáveis qualitativas: comparar proporções condicionais.
Associação entre duas variáveis quantitativas: comparamos como a mudança de uma variável afeta a outra variável.
Agente | Anos de Serviço (\(X\)) | \(N^{o}\) de Clientes (\(Y\)) |
---|---|---|
A | 2 | 48 |
B | 4 | 56 |
C | 5 | 64 |
D | 6 | 60 |
E | 8 | 72 |
Total | 25 | 300 |
O gráfico indica uma possÃvel dependência linear positiva entre as variáveis anos de serviço e número de clientes.
Renda Mensal Bruta (\(X\))
\(\%\) da Renda gasta com Assistência Médica (\(Y\))
## Familia X Y ## 1 A 12 7.2 ## 2 B 16 7.4 ## 3 C 18 7.0 ## 4 D 20 6.5 ## 5 E 28 6.6 ## 6 F 30 6.7 ## 7 G 40 6.0 ## 8 H 48 5.6 ## 9 I 50 6.0 ## 10 J 54 5.5
Nesse caso, a dependência entre \(X\) e \(Y\) parece ser linear negativa.
Se \(z_{x}\) e \(z_y\) têm o mesmo sinal, estamos somando um termo positivo na expressão da correlação.
Se \(z_{x}\) e \(z_y\) têm sinais opostos, estamos somando um termo negativo na expressão da correlação.
Correlação é a média dos produtos de \(z_x\) e \(z_y\).
Agente | Anos de Serviço (\(X\)) | \(N^{o}\) de Clientes (\(Y\)) |
---|---|---|
A | 2 | 48 |
B | 4 | 56 |
C | 5 | 64 |
D | 6 | 60 |
E | 8 | 72 |
Total | 25 | 300 |
Agente | \(X\) | \(Y\) | \(z_x=\frac{x_{i}-\bar{x}}{s_x}\) | \(z_y=\frac{y_{i}-\bar{y}}{s_y}\) | \(z_x\times z_y\) |
---|---|---|---|---|---|
A | 2 | 48 | -1.34 | -1.34 | 1.8 |
B | 4 | 56 | -0.45 | -0.45 | 0.2 |
C | 5 | 64 | 0 | 0.45 | 0 |
D | 6 | 60 | 0.45 | 0 | 0 |
E | 8 | 72 | 1.34 | 1.34 | 1.8 |
\[Corr(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}z_{x_i}z_{y_i}=\frac{3.8}{5-1}=0.95\]
Número de passos diários foram coletados para uma pessoa usando um durante 297 dias.
Qual é maior? Média ou mediana?
Média é 9154 e mediana é 8597.
Além do total de passos, Fitbit também registra o tempo gasto em cada tipo de atividade.
Há relação entre o total de passos e o tempo gasto em ativiade intensa?
Correlação: 0.76.
Correlação: -0.76.
Baseado na altura, peso e gênero, o Fitbit estima o comprimento de cada passo.
Diagrama de dispersão: número de passos e distância percorrida.
Correlação: 1.
Recebemos, na timeline do Facebook, diversas notÃcias compartilhadas pelos amigos.
Imagina-se que uma notÃcia com grande número de compartilhamentos seja uma leitura interessante, fazendo com que o leitor leia até o final.
Mas será que seu amigo de fato leu a notÃcia toda, antes de sair compartilhando?
Você lê a notÃcia toda para só depois compartilhar?
Dados: 10 mil notÃcias. Para cada notÃcia calcula-se o número de compartilhamentos e o tempo médio gasto pelo leitor naquela notÃcia.
Você fica surpreso com este gráfico? O que ele está mostrando?
Mortalidade: número de mortes de crianças de até 5 anos por mil nascidos vivos.
Analfabetismo: % de analfabetos na população de 18 anos ou mais.
Quais os termos de busca mais se correlacionam a outros?
Variável quantitativa: número de acidentes de carro diários
Variável qualitativa: região de NY
Leitura complementar: Online Dashboards: Eight Helpful Tips You Should Hear From Visualization Experts
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho