DAG

O Modelo Gráfico Acíclico Direcionado (DAG) é uma ferramenta visual e matemática essencial na inferência causal moderna. Ele é crucial em contextos observacionais, onde experimentos controlados (RCTs) são inviáveis ou antiéticos. Seu propósito principal é explicitar suposições causais, pois permite identificar caminhos de confusão, determinar quais variáveis ajustar e orientar estratégias de identificação.

1. Fundamentos Estruturais

Note

Algebricamente, a Probabilidade Condicional P(B|A) na teoria dos conjuntos é análoga à correlação parcial r(X,Y)|Z usada em algoritmos de descoberta causal (como o Inductive Causality).

2. A Mecânica: D-Separação

A d-separação ("d" de direcional) é o critério gráfico que determina se um fluxo de informação entre duas variáveis está bloqueado ou aberto. Se todas as trilhas entre D e Y são bloqueadas por um conjunto Z, dizemos que DY|Z.

Regras de Bloqueio de Caminho:

  1. Cadeia (DZY) ou Garfo (DZY):

    • O caminho está aberto por padrão.
    • O caminho é bloqueado se condicionarmos (controlarmos) o nó intermediário Z.
  2. Colisor (DZY):

    • O caminho está bloqueado por padrão (as setas colidem).
    • O caminho é aberto se condicionarmos o colisor Z (ou qualquer descendente dele). Isso cria uma dependência espúria.
Validação com Dados

A d-separação teórica (DY|Z) deve refletir uma independência estatística nos dados. Testamos isso verificando se a correlação parcial entre D e Y dado Z (ρDYZ) é próxima de zero.

Uma explicação de correlação parcial pode ser vista via Mastering Mostly Harmless Econometrics - Part 2 a partir de 1:08:30.

dag_1.png
Estatística Psicobio II 2024 #24 - DAG II Directed Acyclic Graphs - d' separation; algoritmo PC e IC

3. Identificação e Critério Backdoor

O objetivo final é isolar o efeito causal de D em Y, eliminando vieses.

Analogia: DAG vs. RCT

Enquanto o Experimento Randomizado (RCT) elimina vieses pelo design (randomização quebra as setas chegando em D), o DAG permite eliminar vieses na análise, simulando uma intervenção (do(D)) através do ajuste estatístico correto.

4. Classificação de Variáveis e Seleção de Controles

Classificar a variável corretamente é vital para saber se ela é um "Bom Controle" ou um "Mau Controle".

A. Confounder (Confusão / Causa Comum)

Ancestral comum da exposição (D) e do desfecho (Y).

B. Mediador

Descendente da exposição e ancestral do desfecho. Está no caminho causal.

C. Colisor

Descendente comum da exposição e do desfecho.

5. Boas Práticas e Leituras

O sucesso da inferência causal depende mais do desenho e das suposições teóricas (o DAG) do que da modelagem estatística em si. Definir "bons" e "maus" controles é a chave para evitar paradoxos estatísticos.

Leituras Recomendadas