Efeitos Heterogêneos

Nas análises anteriores, exploramos o ATE sob uma perspectiva populacional, que nos fornece uma medida agregada do impacto de uma intervenção. Embora essa abordagem seja fundamental para compreendermos o efeito geral, ela oculta as nuances de quem é, de fato, mais suscetível ao tratamento.

A realidade é que as pessoas respondem de forma distinta à mesma intervenção. Um medicamento pode ser eficaz para pacientes com certas características genéticas, mas ineficaz para outros. Uma estratégia de marketing pode converter um segmento demográfico específico enquanto desperdiça recursos em outro. Um programa educacional pode beneficiar estudantes com certos perfis socioeconômicos mais do que outros. Algoritmos de recomendação podem ter mais impacto a uma faixa etária que outra.

Para capturarmos esses efeitos heterogêneos, utilizamos o Efeito Médio de Tratamento Condicional (CATE). O objetivo é fundamentar decisões nas características específicas ( $X$ ) de cada unidade, mudando a pergunta de "O tratamento funciona?" para:

"Para quem o tratamento funciona melhor?"
"Quais características predizem uma resposta positiva?"

Identificar subgrupos com alta responsividade permite concentrar esforços onde o retorno é maior, otimizando o investimento e o tempo.

Matematicamente, definimos o CATE como:

τ (x) = E [Y_{i} (1) - Y_{i} (0) ∣ X_{i} = x]

Onde:

$τ (x)$ é o efeito condicional para indivíduos com características $x$
$Y_{i} (1)$ e $Y_{i} (0)$ são os resultados potenciais com e sem tratamento
$X_{i}$ representa o vetor de características observáveis

Modelagem via Regressão Linear com Interação

Uma regressão linear simples ( $β D$ ) estima apenas o efeito médio. Para flexibilizar o modelo e permitir heterogeneidade, introduzimostermos de interação entre a variável de tratamento ( $D$ ) e as características ( $X$ ).

A equação assume a forma:

y_{i} = β_{0} + \underset{Efeito Base}{\underset{⏟}{β_{1} D_{i}}} + β_{2} X_{i} + \underset{Interação}{\underset{⏟}{β_{3} (D_{i} \times X_{i})}} + ϵ_{i}

Intuição Geométrica

Sem interação, as retas de regressão para o grupo Tratado e Controle seriam paralelas (mesma inclinação). O termo de interação $β_{3}$ permite que as retas tenham inclinações diferentes. Se as retas não são paralelas, o efeito (a distância vertical entre elas) muda conforme $X$ muda.

Derivação do Efeito Marginal

Para isolar o efeito do tratamento, derivamos a equação em relação a $D$ :

\frac{\partial y_{i}}{\partial D_{i}} = β_{1} + β_{3} X_{i}

Isso demonstra matematicamente que o efeito não é mais constante ( $β_{1}$ ): ele agora é uma função linear das características individuais ( $β_{1} + β_{3} X_{i}$ ).

Aproximação por Diferença Finitas

Na prática, como o modelo é linear, essa derivada pode ser calculada exatamente através da diferença entre duas predições. Usamos a definição de derivada onde o incremento ( $ϵ$ ) é igual a 1 unidade:

\frac{δ y}{δ D} \approx \hat{y} (D + 1) - \hat{y} (t)

Onde:

$\hat{y} (D + 1)$ é a predição do modelo incrementando o tratamento original em uma unidade.
$\hat{y} (D)$ é a predição do modelo com os dados originais.

Exemplo (Causal Inference in Python: Applying Causal Inference in the Tech Industry


import statsmodels.formula.api as smf

# 1. Definição das covariáveis (características que podem causar heterogeneidade)
X = ["C(month)", "C(weekday)", "is_holiday", "competitors_price"]

# 2. Especificação do modelo com Interação # A sintaxe 'discounts * (X)'
# Isso permite que o efeito do desconto mude conforme o mês, feriado ou preço do concorrente.
regr_cate = smf.ols(f"sales ~ discounts*({'+'.join(X)})",
                    data=data).fit()

# 3. Estimativa do CATE (Efeito Médio de Tratamento Condicional) 
# Calculamos a diferença entre duas realidades hipotéticas para cada unidade: 
# Realidade A: O desconto atual + 1 unidade 
# Realidade B: O desconto atual 
# A diferença entre as predições isola o efeito marginal do desconto naquele contexto específico.
ols_cate_pred = (
    regr_cate.predict(data.assign(discounts=data["discounts"]+1)) 
    -regr_cate.predict(data)
)

Avaliação de Modelos CATE

Diferentemente da previsão tradicional, nunca observamos o efeito real individual, a.k.a. problema fundamental da inferência causal. Como então avaliar a qualidade do modelo?

A premissa fundamental é: Um bom modelo CATE consegue ordenar as unidades das mais responsivas (maior efeito) para as menos responsivas (menor efeito ou efeito negativo)**.

Utilizamos métricas de "Uplift" para validar essa capacidade de ordenação. Para o tema, recomendo fortemente a leitura do capítulo 6 do livro Causal Inference in Python, como os seus exemplos.

1. Efeito por Quantil (Barplot)

Segmentamos a base em quantis (ex: 10 grupos) ordenados pela predição do modelo ( $\hat{τ}$ ). Calculamos o ATE dentro de cada grupo.

Sinal de Qualidade: Esperamos uma "escada" monotonicamente crescente. O 1º decil deve ter o menor ATE real estimado, e o último decil deve ter o maior.

2. Curva de Efeito Cumulativo

Ordenamos os dados do maior $\hat{τ}$ para o menor. Calculamos o efeito médio acumulado à medida que incluímos mais pessoas na amostra.

Desvantagem: O início da curva tem poucas amostras ( $N$ pequeno), gerando alta variância e ruído ("tremedeira" no começo do gráfico).

3. Curva de Ganho Cumulativo (Cumulative Gain)

Para corrigir a variância, multiplicamos o efeito acumulado pela fração da população ( $k / N$ ). Isso é análogo à curva ROC ou curva de Lorenz.

Eixo X: Porcentagem da população tratada (ordenada pelo modelo).
Eixo Y: Efeito acumulado "Total" (Ganho).
Linha de Base (Random): Uma reta diagonal que liga (0,0) ao ATE total. Representa escolher pessoas aleatoriamente.

Note

Critério de Escolha (AUUC): O melhor modelo é aquele cuja curva "embarriga" mais para cima, distanciando-se da reta aleatória. Calculamos a Área Sob a Curva de Uplift (AUUC). Quanto maior a área, melhor o modelo consegue priorizar quem responde bem ao tratamento.