A escolha do teste baseia-se em:
- Os tipos de variáveis que está a testar (tanto a “exposição” do seu teste quanto o seu “resultado”)
- Quantitativo: contínuo (idade, peso, altura) versus discreto (número de pacientes)
- Categórico: ordinal (classificações; ex.: notas, tamanho da roupa), nominal (grupos com nomes; ex. estado civil) ou binário (dados com apenas uma resposta “sim/não”; ex., vivo ou morto)
- Se os seus dados cumprem ou não determinados critérios conhecidos como suposições; suposições comuns incluem:
- Os pontos dos dados são todos independentes uns dos outros.
- A variação dentro de um único grupo é semelhante entre todos os grupos.
- Os dados seguem uma distribuição normal (curva em forma de sino).
Deve sempre questionar-se a razoabilidade do modelo. Se o modelo está errado, todo o resto também está.
Tenha cuidado com variáveis que não são verdadeiramente independentes.
Representações gráficas de dados contínuos e categóricos
Imagem por Lecturio. Licença: CC BY-NC-SA 4.0As 3 categorias principais de testes estatísticos são:
- Testes de regressão: avaliam as relações de causa e efeito
- Testes de comparação: comparam as médias de diferentes grupos (requerem dados de resultados quantitativos)
- Testes de correlação: procuram associações entre diferentes variáveis
Como é que uma alteração na variável de previsão/entrada (input) afeta a variável de resultado |
| Como é que o peso (preditor) afeta a esperança de vida (resultado)? |
Como é que as alterações nas combinações de ≥ 2 variáveis preditoras podem prever alterações no resultado |
| Como é que o peso e o status socioeconómico (preditores) afetam a esperança de vida (resultado)? |
Como é que ≥ 1 variáveis preditoras podem afetar um resultado binário |
| Qual é o efeito do peso (preditor) na sobrevivência (resultado binário: morto ou vivo)? |
Compara as médias de 2 grupos da mesma população |
| Comparar os pesos dos bebés (resultado) antes e depois da alimentação (preditor). |
Compara as médias de 2 grupos de diferentes populações |
| Qual é a diferença na altura média (resultado) entre 2 equipas de basquete diferentes (preditor)? |
Compara as médias de > 2 grupos |
| Qual é a diferença nos níveis de glicose no sangue (resultado) 1, 2 e 3 horas após uma refeição (preditores)? |
Testa a força da associação entre 2 variáveis categóricas com um tamanho de amostra maior |
| Comparar se a aceitação na faculdade de medicina (variável 1) é mais provável se o candidato nasceu no Reino Unido (variável 2). |
Testa a força da associação entre 2 variáveis categóricas com um tamanho de amostra menor |
| Igual ao qui-quadrado, mas com tamanhos de amostra menores |
Testa a força da associação entre 2 variáveis contínuas |
| Comparar como o nível plasmático de HbA 1c (variável 1) se relaciona com os níveis plasmáticos de triglicéridos (variável 2) em pacientes diabéticos. |
Teste de qui-quadrado (χ2)
Testes de qui-quadrado são usados frequentemente para analisar dados categóricos e determinar se 2 variáveis categóricas estão relacionadas.
- O que os testes de qui-quadrado conseguem avaliar:
- Se está presente uma associação estatisticamente significativa entre 2 variáveis
- Dados analisados: normalmente dados categóricos “contados”, o que significa que você tem várias categorias nomeadas e os seus pontos de dados são os valores contados para cada categoria.
- Mais preciso em amostras grandes do que o teste exato de Fisher
- O que os testes qui-quadrado não conseguem avaliar:
- A força dessa associação
- Se a relação é causal
Para realizar um teste qui-quadrado são necessárias 2 informações: os graus de liberdade (número de categorias menos 1) e o nível α (que é escolhido pelo investigador e geralmente definido como 0,05). Além disso, os dados devem ser organizados numa tabela.
Exemplo: Se você quisesse ver se os malabaristas eram mais propensos a nascer durante uma determinada estação do ano, os dados poderiam ser registrados na tabela seguinte:
Primavera | 66 |
Verão | 82 |
Outono | 74 |
Inverno | 78 |
Para começar, as frequências esperadas para cada célula na tabela acima precisam de ser determinadas usando a equação:
$$ Frequência\ esperada = np_{0i} $$onde n = o tamanho da amostra e p0i é a proporção hipotética em cada categoria i.
No exemplo acima, n = 300 e p0i é ¼, então a frequência esperada em cada célula é 300 * 0,25 = 75 em cada célula.
A estatística de teste é então calculada pela fórmula padrão do qui-quadrado:
$$ \chi ^{2} = \sum _{todas\ as\ células} \frac{(observado-esperado)^{2}}{esperado} $$onde 𝝌2 é a estatística de teste que está a ser calculada. Para cada “célula” ou categoria, a frequência esperada é subtraída da frequência observada; este valor é elevado ao quadrado e depois dividido pela frequência esperada. Depois de este número ser calculado para cada categoria, os números são somados.
Exemplo de cálculo de 𝝌2: Usando o exemplo acima, a frequência esperada em cada célula é 75, então o teste de 𝝌2 pode ser calculada da seguinte forma:
Primavra | 66 | (66 ‒ 75) 2 / 75 = 1,08 |
Verão | 82 | (82 ‒ 75) 2 / 75 = 0,653 |
Outono | 74 | (74 ‒ 75) 2 / 75 = 0,013 |
Inverno | 78 | (78 ‒ 75) 2 / 75 = 0,12 |
𝝌 2 = 1,08 + 0,653 + 0,013 + 0,12 = 1,866
Determinar se a estatística de teste é ou não estatisticamente significativa:
Para determinar se esta estatística de teste é estatisticamente significativa, a tabela de qui-quadrado é usada para obter o número crítico de qui-quadrado.
- A tabela tem graus de liberdade (número de categorias menos 1) no eixo y e o nível α no eixo x.
- Usando os graus de liberdade e o nível α do estudo, você encontra o número crítico no gráfico (veja o gráfico de exemplo abaixo).
- O número crítico é usado para determinar a significância estatística comparando-o com a estatística de teste.
- Se a estatística de teste > valor crítico:
- As frequências observadas estão longe das frequências esperadas
- Rejeita-se a hipótese nula em favor da hipótese alternativa baseada neste nível α.
- Se a estatística de teste < valor crítico:
- As frequências observadas estavam próximas das frequências esperadas
- Não se rejeita a hipótese nula com base neste nível α.
- Se a estatística de teste > valor crítico:
Exemplo da tabela de valores críticos para o teste de 𝝌2:
No eixo y, V representa os graus de liberdade (ou seja, o número de categorias em estudo menos 1); os níveis de significância (níveis α) são mostrados ao longo do eixo x. Os valores críticos correspondentes são encontrados na tabela e comparados com a estatística de teste calculada.
Exemplo de teste 𝝌2: Os malabaristas são mais propensos a nascer numa determinada estação com um nível de significância de 0,05?
- Existem 4 estações diferentes, então existem 3 graus de liberdade.
- nível α = 0,05
- Usando a tabela acima, o número crítico é 7,81
- Portanto, rejeitaremos nossa hipótese nula se a estatística de teste for > 7,81.
Primavera | 66 | (66 ‒ 75) 2 / 75 = 1,08 |
Verão | 82 | (82 ‒ 75) 2 / 75 = 0,653 |
Outono | 74 | (74 ‒ 75) 2 / 75 = 0,013 |
Inverno | 78 | (78 ‒ 75) 2 / 75 = 0,12 |
𝝌2= 1,08 + 0,653 + 0,013 + 0,12 = 1,866
Como 1,866 é < 7,81 (o nosso valor crítico), precisamos de não rejeitar (ou seja, aceitar) a hipótese nula e concluir que a estação de nascimento não está associada ao malabarismo.
Armadilhas comuns:
- Não usar o qui-quadrado a menos que os dados sejam contados.
- Cuidado com tamanhos de amostra grandes, pois os graus de liberdade não aumentam.
O teste exato de Fisher
Semelhante ao 𝝌2, o teste exato de Fisher é um teste estatístico usado para determinar se existem associações não aleatórias entre 2 variáveis categóricas.
- Usado para analisar dados encontrados em tabelas de contingência e determinar o desvio dos dados em relação à hipótese nula (ou seja, o p-value)
- Por exemplo: comparar 2 possíveis “exposições” (fumar versus não fumar) com 2 resultados possíveis (desenvolver cancro do pulmão versus saudável)
- As tabelas de contingência podem ter > 2 “exposições” ou > 2 resultados
- Mais preciso para conjuntos de dados pequenos
- O teste de Fisher fornece p-values exatos com base na tabela.
- Fórmula complicada para calcular a estatística do teste, normalmente calculada com software.
Monta-se uma tabela de contingência 2 × 2 assim:
A | B | A + B |
C | D | C + D |
A + C | B + D | A + B + C + D (= n ) |
A estatística do teste, p , é calculada a partir desta tabela usando a seguinte fórmula:
$$ p = \frac{(\frac{a+b}{a})(\frac{c+d}{c})}{(\frac{n}{a+c})} = \frac{(\frac{a+b}{b})(\frac{c+d}{d})}{(\frac{n}{b+d})} = \frac{(a+b)! (c+d)! (a+c)! (b+d)!}{a! b! c! d! n!} $$onde p = p-value; A, B, C e D são números das células numa tabela de contingência básica 2 × 2; e n = total de A + B + C + D.