DAG
O Modelo Gráfico Acíclico Direcionado (DAG) é uma ferramenta visual e matemática essencial na inferência causal moderna. Ele é crucial em contextos observacionais, onde experimentos controlados (RCTs) são inviáveis ou antiéticos. Seu propósito principal é explicitar suposições causais, pois permite identificar caminhos de confusão, determinar quais variáveis ajustar e orientar estratégias de identificação.
1. Fundamentos Estruturais
- Nós (Variáveis): Cada nó representa uma variável aleatória. A estrutura é definida pela Independência Condicional. O DAG traduz relações causais em restrições estatísticas testáveis.
Algebricamente, a Probabilidade Condicional
-
Arestas (Relações
): Indicam a direção da causalidade. implica que causa . O DAG foca na Causalidade Regular (graus mensuráveis de influência) em vez da Causalidade Estrita determinística. -
Aciclicidade (Não Cíclico): É a regra fundamental. Não pode haver um ciclo fechado (por exemplo,
e ). Isso impõe uma ordem temporal e causal clara, garantindo que o modelo seja computável para inferência.
2. A Mecânica: D-Separação
A d-separação ("d" de direcional) é o critério gráfico que determina se um fluxo de informação entre duas variáveis está bloqueado ou aberto. Se todas as trilhas entre
Regras de Bloqueio de Caminho:
-
Cadeia (
) ou Garfo ( ): - O caminho está aberto por padrão.
- O caminho é bloqueado se condicionarmos (controlarmos) o nó intermediário
.
-
Colisor (
): - O caminho está bloqueado por padrão (as setas colidem).
- O caminho é aberto se condicionarmos o colisor
(ou qualquer descendente dele). Isso cria uma dependência espúria.
A d-separação teórica (
Uma explicação de correlação parcial pode ser vista via Mastering Mostly Harmless Econometrics - Part 2 a partir de 1:08:30.

Estatística Psicobio II 2024 #24 - DAG II Directed Acyclic Graphs - d' separation; algoritmo PC e IC
3. Identificação e Critério Backdoor
O objetivo final é isolar o efeito causal de
-
Caminho Backdoor (Porta dos Fundos): Qualquer caminho entre
e que começa com uma seta apontando para (ex: ). Isso representa uma causa comum que gera correlação não-causal, que é a variável de confusão. -
Critério Backdoor: Para identificar o efeito causal, devemos selecionar um conjunto de variáveis que, ao serem condicionadas, bloqueiam todos os caminhos backdoor sem abrir novos caminhos (como colisor).
Enquanto o Experimento Randomizado (RCT) elimina vieses pelo design (randomização quebra as setas chegando em
4. Classificação de Variáveis e Seleção de Controles
Classificar a variável corretamente é vital para saber se ela é um "Bom Controle" ou um "Mau Controle".
A. Confounder (Confusão / Causa Comum)
Ancestral comum da exposição (
- Estrutura:
- Problema: Cria um caminho não-causal, enviesando a estimativa.
- Ação: Condicionar (Controlar). Devemos fechar essa porta para limpar o efeito.
B. Mediador
Descendente da exposição e ancestral do desfecho. Está no caminho causal.
- Estrutura:
- Função: Explica como
afeta . - Ação: NÃO Condicionar (se o objetivo é o efeito total). Controlar o mediador bloqueia o fluxo causal legítimo (overcontrol bias).
C. Colisor
Descendente comum da exposição e do desfecho.
- Estrutura:
- Problema: Por natureza, ele já bloqueia o caminho.
- Ação: NÃO Condicionar. Se controlarmos o colisor, abrimos o caminho e criamos o Viés de Seleção (ou Viés de Colisor).
5. Boas Práticas e Leituras
O sucesso da inferência causal depende mais do desenho e das suposições teóricas (o DAG) do que da modelagem estatística em si. Definir "bons" e "maus" controles é a chave para evitar paradoxos estatísticos.
- Causal assumptions: Think first, regress later
- A Crash Course in Good and Bad Controls
- Vídeos de Apoio:
- Mastering Mostly Harmless Econometrics - Part 2 (Minuto 1:08:30 - Correlação Parcial)
- Estatística Psicobio II - d-separation & Algoritmo PC