Efeitos Heterogêneos
Nas análises anteriores, exploramos o ATE sob uma perspectiva populacional, que nos fornece uma medida agregada do impacto de uma intervenção. Embora essa abordagem seja fundamental para compreendermos o efeito geral, ela oculta as nuances de quem é, de fato, mais suscetível ao tratamento.
A realidade é que as pessoas respondem de forma distinta à mesma intervenção. Um medicamento pode ser eficaz para pacientes com certas características genéticas, mas ineficaz para outros. Uma estratégia de marketing pode converter um segmento demográfico específico enquanto desperdiça recursos em outro. Um programa educacional pode beneficiar estudantes com certos perfis socioeconômicos mais do que outros. Algoritmos de recomendação podem ter mais impacto a uma faixa etária que outra.
Para capturarmos esses efeitos heterogêneos, utilizamos o Efeito Médio de Tratamento Condicional (CATE). O objetivo é fundamentar decisões nas características específicas (
-
"Para quem o tratamento funciona melhor?"
-
"Quais características predizem uma resposta positiva?"
Identificar subgrupos com alta responsividade permite concentrar esforços onde o retorno é maior, otimizando o investimento e o tempo.
Matematicamente, definimos o CATE como:
Onde:
é o efeito condicional para indivíduos com características e são os resultados potenciais com e sem tratamento representa o vetor de características observáveis
Modelagem via Regressão Linear com Interação
Uma regressão linear simples (
A equação assume a forma:
Sem interação, as retas de regressão para o grupo Tratado e Controle seriam paralelas (mesma inclinação). O termo de interação
Derivação do Efeito Marginal
Para isolar o efeito do tratamento, derivamos a equação em relação a
Isso demonstra matematicamente que o efeito não é mais constante (
Aproximação por Diferença Finitas
Na prática, como o modelo é linear, essa derivada pode ser calculada exatamente através da diferença entre duas predições. Usamos a definição de derivada onde o incremento (
Onde:
é a predição do modelo incrementando o tratamento original em uma unidade. é a predição do modelo com os dados originais.
Exemplo (Causal Inference in Python: Applying Causal Inference in the Tech Industry
import statsmodels.formula.api as smf
# 1. Definição das covariáveis (características que podem causar heterogeneidade)
X = ["C(month)", "C(weekday)", "is_holiday", "competitors_price"]
# 2. Especificação do modelo com Interação # A sintaxe 'discounts * (X)'
# Isso permite que o efeito do desconto mude conforme o mês, feriado ou preço do concorrente.
regr_cate = smf.ols(f"sales ~ discounts*({'+'.join(X)})",
data=data).fit()
# 3. Estimativa do CATE (Efeito Médio de Tratamento Condicional)
# Calculamos a diferença entre duas realidades hipotéticas para cada unidade:
# Realidade A: O desconto atual + 1 unidade
# Realidade B: O desconto atual
# A diferença entre as predições isola o efeito marginal do desconto naquele contexto específico.
ols_cate_pred = (
regr_cate.predict(data.assign(discounts=data["discounts"]+1))
-regr_cate.predict(data)
)
Avaliação de Modelos CATE
Diferentemente da previsão tradicional, nunca observamos o efeito real individual, a.k.a. problema fundamental da inferência causal. Como então avaliar a qualidade do modelo?
A premissa fundamental é: Um bom modelo CATE consegue ordenar as unidades das mais responsivas (maior efeito) para as menos responsivas (menor efeito ou efeito negativo)**.
Utilizamos métricas de "Uplift" para validar essa capacidade de ordenação. Para o tema, recomendo fortemente a leitura do capítulo 6 do livro Causal Inference in Python, como os seus exemplos.
1. Efeito por Quantil (Barplot)
Segmentamos a base em quantis (ex: 10 grupos) ordenados pela predição do modelo (
- Sinal de Qualidade: Esperamos uma "escada" monotonicamente crescente. O 1º decil deve ter o menor ATE real estimado, e o último decil deve ter o maior.
2. Curva de Efeito Cumulativo
Ordenamos os dados do maior
- Desvantagem: O início da curva tem poucas amostras (
pequeno), gerando alta variância e ruído ("tremedeira" no começo do gráfico).
3. Curva de Ganho Cumulativo (Cumulative Gain)
Para corrigir a variância, multiplicamos o efeito acumulado pela fração da população (
-
Eixo X: Porcentagem da população tratada (ordenada pelo modelo).
-
Eixo Y: Efeito acumulado "Total" (Ganho).
-
Linha de Base (Random): Uma reta diagonal que liga (0,0) ao ATE total. Representa escolher pessoas aleatoriamente.
Critério de Escolha (AUUC): O melhor modelo é aquele cuja curva "embarriga" mais para cima, distanciando-se da reta aleatória. Calculamos a Área Sob a Curva de Uplift (AUUC). Quanto maior a área, melhor o modelo consegue priorizar quem responde bem ao tratamento.