No livro Mankind in the Making, de 1903, H.G. Wells escreveu:
… e não estamos muito longe do tempo em que se entenderá que, para exercermos a cidadania de maneira eficiente, será tão necessário saber calcular e pensar em médias, máximos e mÃnimos, quanto é agora necessário saber ler e escrever.
Jornais e revistas estão repletos de informações obtidas através de pesquisas de opinião, pesquisas médicas, estudos econômicos, estudos ambientais.
Números e conclusões tiradas a partir deles são cada vez mais comuns no dia-a-dia.
No meio de tantos dados e informações, o que levar em conta e o que descartar?
Na era da internet e do "Big Data", entender estatÃstica é essencial.
A estatÃstica é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
EstatÃstica é a arte do aprendizado através de dados.
Três aspectos principais da estatÃstica:
Os tópicos de estudo de um certo pesquisador são tão diversos quanto as perguntas de interesse.
No entanto, muitas vezes esses estudos podem ser realizados com técnicas simples de amostragem, análise de dados e conceitos fundamentais de inferência estatÃstica.
Problema comum em medicina: como avaliar a eficácia de um procedimento médico?
Estudo: stents são eficazes no tratamento de pacientes com risco de infarto?
Stents são usados para a recuperação de pacientes que já sofreram infarto.
Os pesquisadores do estudo investigaram se havia benefÃcios também para pacientes com risco de infarto.
O uso de stent reduz o risco de infarto?
Cada paciente foi alocado aleatoriamente em um dos grupos:
Cada paciente foi avaliado em duas ocasiões: primeiros 30 dias e após 1 ano.
Avaliar cada paciente individualmente desta planilha de dados é eficaz?
Como poderÃamos resumir?
33 pacientes do grupo tratamento tiveram um infarto durante os primeiros 30 dias.
Dentre os 224 pacientes do grupo tratamento, 45 sofreram infarto durante o primeiro ano.
Qual a proporção de pacientes do grupo tratamento que sofreram infarto durante o primeiro ano?
\(45/224=0.2 = 20\%\)
Podemos calcular estatÃsticas sumárias a partir da tabela.
EstatÃstica Sumária: número obtido a partir de informações dos dados coletados para resumi-los.
Proporção de pacientes do grupo tratamento que sofreram infarto: \(45/224=0.2 = 20\%\)
Proporção de pacientes do grupo controle que sofreram infarto: \(28/227=0.12 = 12\%\)
No grupo tratamento, temos 8% a mais de pacientes que sofreram de infarto.
Isto está de acordo com a expectativa dos pesquisadores do estudo? (relembre a pergunta de interesse)
8% é uma diferença considerável?
Uma diferença de 8% poderia acontecer ao acaso, mesmo que os dois tratamentos na verdade oferecessem o mesmo risco de infarto?
Utilizando metodologia estatÃstica, os pesquisadores chegaram à conclusão de que stents são prejudiciais para pacientes com risco de infarto.
CUIDADO!
Não podemos generalizar os resultados do estudo para todo tipo de paciente e todo tipo de stent.
EstatÃstica descritiva se refere a métodos para resumir dados.
Gráficos, tabelas, médias, porcentagens,…
É mais simples olharmos gráficos ou 35.723.254 questionários?
Para que possamos resumir os dados, é importante primeiramente entender como eles são organizados e também os diversos tipos de cada variável.
Conjunto de dados: informação de 50 emails recebidos.
Primeiras linhas do conjunto de dados (ou matriz de dados):
spam | num_char | line_breaks | format | number |
---|---|---|---|---|
0 | 21.705 | 551 | 1 | small |
0 | 7.011 | 183 | 1 | big |
1 | 0.631 | 28 | 0 | none |
0 | 2.454 | 61 | 0 | small |
0 | 41.623 | 1088 | 1 | small |
0 | 0.057 | 5 | 0 | small |
0 | 0.809 | 17 | 0 | small |
0 | 5.229 | 88 | 1 | small |
0 | 9.277 | 242 | 1 | small |
0 | 17.170 | 578 | 1 | small |
0 | 64.401 | 1167 | 1 | small |
0 | 10.368 | 198 | 1 | big |
1 | 42.793 | 712 | 1 | big |
1 | 0.451 | 24 | 0 | small |
0 | 29.233 | 604 | 1 | small |
0 | 9.794 | 197 | 1 | small |
0 | 2.139 | 60 | 1 | small |
1 | 0.130 | 5 | 0 | none |
0 | 4.945 | 120 | 1 | small |
0 | 11.533 | 291 | 1 | small |
0 | 5.682 | 87 | 1 | small |
0 | 6.768 | 81 | 1 | small |
0 | 0.086 | 5 | 0 | none |
0 | 3.070 | 65 | 1 | small |
0 | 26.520 | 692 | 1 | big |
0 | 26.255 | 654 | 1 | small |
0 | 5.259 | 140 | 1 | small |
0 | 2.780 | 69 | 0 | small |
0 | 5.864 | 142 | 1 | small |
0 | 9.928 | 219 | 1 | small |
0 | 25.209 | 725 | 1 | small |
0 | 6.563 | 140 | 1 | big |
0 | 24.599 | 621 | 1 | small |
0 | 25.757 | 645 | 1 | small |
0 | 0.409 | 13 | 0 | small |
0 | 11.223 | 512 | 1 | big |
0 | 3.778 | 98 | 1 | small |
0 | 1.493 | 35 | 0 | none |
0 | 10.613 | 225 | 1 | big |
0 | 0.493 | 13 | 1 | none |
0 | 4.415 | 61 | 0 | small |
0 | 14.156 | 300 | 1 | small |
0 | 9.491 | 233 | 1 | small |
0 | 24.837 | 629 | 1 | small |
0 | 0.684 | 17 | 1 | small |
1 | 13.502 | 193 | 0 | none |
0 | 2.789 | 44 | 0 | small |
0 | 1.169 | 35 | 1 | small |
0 | 8.937 | 211 | 1 | small |
0 | 15.829 | 242 | 1 | small |
Cada linha representa um email recebido.
Colunas:
Variável é uma condição ou caracterÃstica de um elemento de estudo.
Pode assumir valores diferentes em diferentes elementos.
Peso, altura, curso, são exemplos de variáveis: para cada pessoa, os valores mudam.
Coletamos três variáveis entre os alunos da classe:
Qual o tipo de cada variável?
O primeiro passo para resumir numericamente os dados de uma variável é olhar para todos os valores possÃveis e contar quantas vezes cada um aparece.
Exemplo: No conjunto de dados
spam
, temos a variável categóricanumber
que indica se no conteúdo do email encontramos números e se eles eram grandes ou pequenos.
Podemos fazer uma Tabela de frequência, ou seja, simplesmente contar quantos foram os emails em cada categoria da variável
number
:
## ## big none small Sum ## 545 549 2827 3921
Qual ator atuou no maior número de episódios da série Doctor Who?
Informações do site IMDB (1963-1989, 2005-2015): tabela de frequências e proporções:
## Ator Frequência Proporção ## 1 William Hartnell 136 0.16 ## 2 Patrick Troughton 127 0.15 ## 3 Jon Pertwee 129 0.15 ## 4 Tom Baker 173 0.20 ## 5 Peter Davison 70 0.08 ## 6 Colin Baker 35 0.04 ## 7 Sylvester McCoy 42 0.05 ## 8 Christopher Ecclestone 20 0.02 ## 9 David Tennant 52 0.06 ## 10 Matt Smith 51 0.06 ## 11 Peter Capaldi 29 0.03
Gráfico de barras das frequências
## Warning: package 'ggplot2' was built under R version 3.2.3
Gráfico de barras das proporções
Como estudar a distribuição de frequências de uma variável quantitativa?
Quantitativa Discreta: listar todos os valores possÃveis nos dados e contar quantas vezes cada valor ocorre.
Exemplo: Licença Médica
Os dados a seguir representam o número de dias de licença médica de 50 funcionários de uma fábrica nas últimas 6 semanas:
## [1] 2 2 0 0 5 8 3 4 1 0 0 7 1 7 1 5 4 0 4 0 1 8 9 7 0 1 7 2 5 5 4 3 3 0 0 ## [36] 2 5 1 3 0 1 0 2 4 5 0 5 7 5 1
Como o número de valores distintos nos dados é pequeno, podemos usar uma tabela para apresentar a frequência de cada valor:
## Dias de licença Frequência Proporção ## 1 0 12 0.24 ## 2 1 8 0.16 ## 3 2 5 0.10 ## 4 3 4 0.08 ## 5 4 5 0.10 ## 6 5 8 0.16 ## 7 7 5 0.10 ## 8 8 2 0.04 ## 9 9 1 0.02
Como estudar a distribuição de frequências de uma variável quantitativa?
Quantitativa ContÃnua: listar todos os valores possÃveis nos dados e contar quantas vezes cada valor ocorre??? É eficiente?
Os dados a seguir representam o QI de 40 crianças de 12 anos de idade:
## [1] 114 122 103 118 99 105 134 125 117 106 109 104 111 127 133 111 117 ## [18] 103 120 98 100 130 141 119 128 106 109 115 113 121 100 130 125 117 ## [35] 119 113 104 108 110 102
Ordenando:
## [1] 98 99 100 100 102 103 103 104 104 105 106 106 108 109 109 110 111 ## [18] 111 113 113 114 115 117 117 117 118 119 119 120 121 122 125 125 127 ## [35] 128 130 130 133 134 141
Dados ordenados:
## [1] 98 99 100 100 102 103 103 104 104 105 106 106 108 109 109 110 111 ## [18] 111 113 113 114 115 117 117 117 118 119 119 120 121 122 125 125 127 ## [35] 128 130 130 133 134 141
Intervalos:
O ramo-e-folhas representa graficamente os dados sem perder nenhuma informação
Cada valor é dividido em duas partes: a primeira (ramo) é colocada à esquerda da linha vertical, e a segunda (folhas) à direita.
Dados:
## [1] 114 122 103 118 99 105 134 125 117 106 109 104 111 127 133 111 117 ## [18] 103 120 98 100 130 141 119 128 106 109 115 113 121 100 130 125 117 ## [35] 119 113 104 108 110 102
Ramo-e-folhas:
## ## The decimal point is 1 digit(s) to the right of the | ## ## 9 | 89 ## 10 | 0023344 ## 10 | 566899 ## 11 | 011334 ## 11 | 5777899 ## 12 | 012 ## 12 | 5578 ## 13 | 0034 ## 13 | ## 14 | 1
Um professor apresenta à classe as notas do exame usando um gráfico de ramo-e-folhas.
## ## The decimal point is 1 digit(s) to the right of the | ## ## 6 | 588 ## 7 | 01136779 ## 8 | 1223334677789 ## 9 | 011234458
Qual o total de alunos?
Qual a menor nota?
Qual a maior nota?
Qual o tipo de informação você obtém através de um gráfico de ramo-e-folhas mas não não através de um histograma?
No link http://wolfr.am/OvitOo você pode obter diversos gráficos descritivos usando informações do seu perfil do Facebook.
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho