Efeitos Heterogêneos

Nas análises anteriores, exploramos o ATE sob uma perspectiva populacional, que nos fornece uma medida agregada do impacto de uma intervenção. Embora essa abordagem seja fundamental para compreendermos o efeito geral, ela oculta as nuances de quem é, de fato, mais suscetível ao tratamento.

A realidade é que as pessoas respondem de forma distinta à mesma intervenção. Um medicamento pode ser eficaz para pacientes com certas características genéticas, mas ineficaz para outros. Uma estratégia de marketing pode converter um segmento demográfico específico enquanto desperdiça recursos em outro. Um programa educacional pode beneficiar estudantes com certos perfis socioeconômicos mais do que outros. Algoritmos de recomendação podem ter mais impacto a uma faixa etária que outra.

Para capturarmos esses efeitos heterogêneos, utilizamos o Efeito Médio de Tratamento Condicional (CATE). O objetivo é fundamentar decisões nas características específicas (X) de cada unidade, mudando a pergunta de "O tratamento funciona?" para:

Identificar subgrupos com alta responsividade permite concentrar esforços onde o retorno é maior, otimizando o investimento e o tempo.

Matematicamente, definimos o CATE como:

τ(x)=E[Yi(1)Yi(0)Xi=x]

Onde:

Modelagem via Regressão Linear com Interação

Uma regressão linear simples (βD) estima apenas o efeito médio. Para flexibilizar o modelo e permitir heterogeneidade, introduzimostermos de interação entre a variável de tratamento (D) e as características (X).

A equação assume a forma:

yi=β0+β1DiEfeito Base+β2Xi+β3(Di×Xi)Interação+ϵi
Intuição Geométrica

Sem interação, as retas de regressão para o grupo Tratado e Controle seriam paralelas (mesma inclinação). O termo de interação β3 permite que as retas tenham inclinações diferentes. Se as retas não são paralelas, o efeito (a distância vertical entre elas) muda conforme X muda.

Derivação do Efeito Marginal

Para isolar o efeito do tratamento, derivamos a equação em relação a D:

yiDi=β1+β3Xi

Isso demonstra matematicamente que o efeito não é mais constante (β1): ele agora é uma função linear das características individuais (β1+β3Xi).

Aproximação por Diferença Finitas

Na prática, como o modelo é linear, essa derivada pode ser calculada exatamente através da diferença entre duas predições. Usamos a definição de derivada onde o incremento (ϵ) é igual a 1 unidade:

δyδDy^(D+1)y^(t)

Onde:


import statsmodels.formula.api as smf

# 1. Definição das covariáveis (características que podem causar heterogeneidade)
X = ["C(month)", "C(weekday)", "is_holiday", "competitors_price"]

# 2. Especificação do modelo com Interação # A sintaxe 'discounts * (X)'
# Isso permite que o efeito do desconto mude conforme o mês, feriado ou preço do concorrente.
regr_cate = smf.ols(f"sales ~ discounts*({'+'.join(X)})",
                    data=data).fit()

# 3. Estimativa do CATE (Efeito Médio de Tratamento Condicional) 
# Calculamos a diferença entre duas realidades hipotéticas para cada unidade: 
# Realidade A: O desconto atual + 1 unidade 
# Realidade B: O desconto atual 
# A diferença entre as predições isola o efeito marginal do desconto naquele contexto específico.
ols_cate_pred = (
    regr_cate.predict(data.assign(discounts=data["discounts"]+1)) 
    -regr_cate.predict(data)
)

Avaliação de Modelos CATE

Diferentemente da previsão tradicional, nunca observamos o efeito real individual, a.k.a. problema fundamental da inferência causal. Como então avaliar a qualidade do modelo?

A premissa fundamental é: Um bom modelo CATE consegue ordenar as unidades das mais responsivas (maior efeito) para as menos responsivas (menor efeito ou efeito negativo)**.

Utilizamos métricas de "Uplift" para validar essa capacidade de ordenação. Para o tema, recomendo fortemente a leitura do capítulo 6 do livro Causal Inference in Python, como os seus exemplos.

1. Efeito por Quantil (Barplot)

Segmentamos a base em quantis (ex: 10 grupos) ordenados pela predição do modelo (τ^). Calculamos o ATE dentro de cada grupo.

2. Curva de Efeito Cumulativo

Ordenamos os dados do maior τ^ para o menor. Calculamos o efeito médio acumulado à medida que incluímos mais pessoas na amostra.

3. Curva de Ganho Cumulativo (Cumulative Gain)

Para corrigir a variância, multiplicamos o efeito acumulado pela fração da população (k/N). Isso é análogo à curva ROC ou curva de Lorenz.

Note

Critério de Escolha (AUUC): O melhor modelo é aquele cuja curva "embarriga" mais para cima, distanciando-se da reta aleatória. Calculamos a Área Sob a Curva de Uplift (AUUC). Quanto maior a área, melhor o modelo consegue priorizar quem responde bem ao tratamento.