Teorias da Causalidade

A causalidade é um conceito complexo, abordado por pensadores como Aristóteles, David Hume, e Kant, com contribuições mais recentes de economistas como Angus Deaton e estatísticos. Em diversas áreas, há uma variabilidade de definições dela.

Para o contexto da estatística e da modelagem de dados, a abordagem mais relevante é a Causalidade Regular (diferente da Causalidade Estrita de Descartes, que se baseia em leis naturais). A Causalidade Regular foca em eventos probabilísticos em vez de determinísticos, dando um foco grande em probabilidade condicional. Essa linha de pensamento foi inicialmente influenciada por ideias de Hans Reichenbach e John Stuart Mill, evoluindo para o que é hoje reconhecido como a moderna teoria da inferência causal, impulsionada por Judea Pearl e seu trabalho com Modelos Gráficos Acíclicos Direcionados (DAGs). Outros nomes, como Susan Haack e Deborah Mayo, também trouxeram contribuições importantes para a filosofia da causalidade e da estatística.

Neste modelo, a causalidade é definida por aspectos como:

Direcionalidade: A relação de causa e efeito é estruturada graficamente, indicando que o evento A causa o evento B ( $A \to B$ ).
Temporalidade: A causalidade é expressa em termos de probabilidades condicionais – a probabilidade de um evento, dado que o outro já ocorreu. No entanto, o conceito estatístico fundamental aqui é a probabilidade de a causa A ocorrer, dado o efeito B, se e somente se A for a causa. Em termos de probabilidades condicionais, o que é crucial é a comparação entre a probabilidade do efeito B ocorrer na presença da causa A versus na sua ausência.
Reprodutibilidade (ou Invariância): Para ser considerada causal, a relação observada entre os eventos deve ser invariante, ou seja, consistentemente reproduzida sob as mesmas condições e em diferentes contextos relevantes.

Definição de Causalidade, Causação e Associação

Como falei, existe uma definição ampla sobre causalidade, a qual varia conforme a área de atuação. Essa pluralidade de conceitos pode ser representada no artigo The Representation of Causality and Causation with Ontologies: A Systematic Literature Review, que demonstra como as definições mudam ao longo da literatura. Para o escopo probabilístico, adotaremos uma perspectiva mais próxima à de Judea Pearl, aonde a causalidade é a relação direcional e temporal de causa e efeito entre entidades, variáveis ou eventos. Já a causação refere-se ao mecanismo ou ação pela qual a causa produz o efeito. Ambos os conceitos envolvem direcionalidade, temporalidade e influência, ou seja, a ideia de que um elemento efetivamente gera uma alteração no outro.

Citação

Causal inference is the science of inferring causation from association and understanding when and why they differ. - Matheus Facure

Em contraste, a associação é a mera relação estatística entre duas variáveis. Por definição, ela pode incluir vieses, enquanto a causação busca isolar relações diretas. Assim, duas variáveis podem não ter influência direta entre si, mas parecerem relacionadas por serem influenciadas por uma variável externa não observada, ocorrendo o que chamamos de relação espúria. Nesses casos, há associação, mas não há nexo causal direto.

Problema Fundamental da Inferência Causal

O Problema Fundamental da Inferência Causal reside na impossibilidade de observar simultaneamente, na mesma unidade, o resultado factual e o resultado contrafactual .

Para quantificar o efeito causal de um tratamento, seria necessário calcular a diferença entre esses dois resultados. No entanto, uma única unidade (seja um indivíduo, evento ou variável) só pode existir em um único estado (tratado ou não tratado) em um dado momento.

Em essência, a quantificação exata exigiria um universo paralelo onde a unidade pudesse ser observada em condições idênticas, mas sob estados de tratamento opostos. Dado que isso é logisticamente impossível, o problema é considerado o obstáculo central da inferência causal.

Definição Formal

Para formalizar a causalidade, utilizamos a notação de Resultados Potenciais, fundamental para o entendimento do que constitui um efeito causal versus uma associação.

1. Notação Básica

Antes de equacionar o problema, definimos as variáveis para uma unidade $i$ :

$D_{i}$ : A variável de tratamento (Binária: $1$ se tratado, $0$ se controle).
$Y_{i}$ : O outcome observado (o que realmente aconteceu).
$Y_{1 i}$ : O potencial outcome se a unidade tivesse sido tratada.
$Y_{0 i}$ : O potencial outcome se a unidade não tivesse sido tratada.

A Realidade Observada

Devido ao Problema Fundamental da Inferência Causal, nós observamos apenas um dos estados. O resultado observado é definido como:

Y_{i} = D_{i} Y_{1 i} + (1 - D_{i}) Y_{0 i}

2. Decomposição

A equação fundamental é:

\underset{Associação (Diferença Observada)}{\underset{⏟}{E [Y | D = 1] - E [Y | D = 0]}} = \underset{ATT (Efeito Causal)}{\underset{⏟}{E [Y_{1} - Y_{0} | D = 1]}} + \underset{Viés}{\underset{⏟}{{E [Y_{0} | D = 1] - E [Y_{0} | D = 0]}}}

ATT (Average Treatment Effect on the Treated)

Representa o efeito causal para o grupo que foi tratado. É a diferença entre o que aconteceu com eles ( $Y_{1}$ ) e o que teria acontecido se eles não tivessem sido tratados ( $Y_{0}$ , o contrafactual).

Viés:
Este é o termo crítico. Ele compara o estado basal ( $Y_{0}$ ) dos dois grupos. $E [Y_{0} | D = 1] - E [Y_{0} | D = 0]$ Em outras palavras: "Mesmo sem o tratamento, o grupo tratado já seria diferente do grupo de controle?". Se esse termo for diferente de zero, temos um viés.

3. Identificação Causal (Exchangeability)

Para que a Associação seja igual à Causalidade, o termo de Viés deve ser nulo. Isso ocorre quando:

E [Y_{0} | D = 1] = E [Y_{0} | D = 0]

Significa que o resultado do grupo de controle ( $Y_{0} | D = 0$ ) é um substituto perfeito para o contrafactual do grupo tratado ( $Y_{0} | D = 1$ ). Em termos práticos, os grupos devem ser comparáveis antes do tratamento.

Exemplo Intuitivo

Imagine testar um remédio em um hospital ( $D = 1$ ) versus pessoas na rua ( $D = 0$ ).

Associação: As pessoas no hospital têm saúde pior ( $Y$ ) que as da rua.
Viés: O grupo tratado ( $D = 1$ ) já teria uma saúde basal ( $Y_{0}$ ) pior, mesmo sem remédio.
Conclusão: $E [Y_{0} | D = 1] \neq E [Y_{0} | D = 0]$ . O viés de seleção é negativo, mascarando o possível efeito positivo do remédio.

Mastering Mostly Harmless Econometrics - Part 1