Variável Instrumental
Existem cenários em que é inviável controlar totalmente o viés de variável omitida
-
Confundimento Não Observado: A impossibilidade de coletar ou mensurar todas as variáveis de confusão que afetam tanto o tratamento quanto o resultado.
-
Não-Adesão (Imperfect Compliance): A impossibilidade de garantir que todos os indivíduos designados ao grupo de tratamento efetivamente o recebam.
Nestes cenários, a variável não observada
A solução é utilizar uma Variável Instrumental
A abordagem de IV isola a variação em
Premissas
Para que o estimador de IV seja consistente e identifique o efeito causal, quatro premissas devem ser satisfeitas:
-
Relevância: O instrumento
deve ter uma correlação forte com o tratamento . Se o instrumento for "fraco", as estimativas serão imprecisas e enviesadas. - Como verificar: No Primeiro Estágio, avalia-se a Estatística F. A regra de bolso clássica sugere que
para descartar instrumentos fracos.
- Como verificar: No Primeiro Estágio, avalia-se a Estatística F. A regra de bolso clássica sugere que
-
Exogeneidade / Independência: O instrumento
deve ser "tão bom quanto aleatório". Ele não pode estar correlacionado com nenhuma variável omitida ( ) no modelo do resultado. - Como verificar: Não há teste estatístico direto (pois
não é observado). Depende de argumentação teórica e desenho do estudo.
- Como verificar: Não há teste estatístico direto (pois
-
Restrição de Exclusão: O instrumento
deve afetar o outcome única e exclusivamente através do tratamento . Não pode existir um caminho direto . - Desafio: Requer conhecimento e embasamento no domínio de negócio a ser tratado.
-
Monotonicidade: O instrumento deve afetar todos os indivíduos na mesma direção. No contexto de experimentos, isso significa que não existem "desafiadores" (defiers) — pessoas que fazem exatamente o oposto do que o instrumento sugere.
Aplicações Principais
- Correção de Experimentos (RCTs): Para lidar com imperfect compliance. Quando
é a oferta aleatória do tratamento e é o uso efetivo. Como a oferta é aleatória, ela serve como um instrumento perfeito para o uso.
- Estudos Observacionais: Quando não houve randomização e suspeita-se de endogeneidade. O instrumento funciona como um "experimento natural", introduzindo uma aleatoriedade na atribuição de
que o pesquisador não pôde controlar.
O instrumento provoca um choque exógeno em
Estágios e o Estimador de Wald
O efeito causal Local Average Treatment Effect (LATE) via IV pode ser calculado através da decomposição em dois estágios:
-
Primeiro Estágio (Impacto no Tratamento):
Regredimos o tratamento
no instrumento . O coeficiente representa a taxa de adesão ou a força do instrumento. -
Forma Reduzida (Intenção de Tratar - ITT):
Regredimos o resultado
diretamente no instrumento . O coeficiente mostra o efeito causal da atribuição (oferta) do instrumento sobre o resultado. -
Cálculo do LATE (Estimador de Wald):
O efeito causal do tratamento em quem foi afetado pelo instrumento é a razão entre a Forma Reduzida e o Primeiro Estágio:
import statsmodels.formula.api as smf
# 1. Primeiro Estágio: Efeito de Z em D
# O coeficiente de Z aqui é a taxa de adesão
first_stage = smf.ols('D ~ Z', data=df).fit()
den = first_stage.params['Z']
# 2. Forma Reduzida: Efeito de Z em Y
# O coeficiente de Z aqui é o ITTE
reduced_form = smf.ols('Y ~ Z', data=df).fit()
num = reduced_form.params['Z']
# Cálculo do Wald, ou LATE
wald_estimator_sm = num / den
print(f"Numerador (ITTE): {num}")
print(f"Denominador (Compliance): {den}")
print(f"Efeito Causal (Wald): {wald_estimator_sm}")
Mínimos Quadrados em Dois Estágios (2SLS)
O método 2SLS é a generalização do estimador de Wald para casos com múltiplos instrumentos ou variáveis de controle (
-
Primeiro Estágio (Purificação de
): Projeta-se o tratamento
sobre o instrumento e controles para obter os valores preditos . -
Segundo Estágio (Estimação Causal):
Regride-se
sobre os valores "limpos" e os controles .
A intuição aqui é a decomposição da variância. A variável de tratamento original
- Uma parte endógena, correlacionada com
- Uma parte exógena, induzida pelo instrumento
Ao rodarmos o primeiro estágio e calcularmos
Portanto, o segundo estágio utiliza uma versão "limpa" do tratamento. Ao regredir
from linearmodels.iv import IV2SLS
# Fórmula: Y ~ Controles + [Endogeno ~ Instrumento]
# O "1" representa a constante (intercepto)
formula = 'Y ~ 1 + X + [D ~ Z]'
model = IV2SLS.from_formula(formula, df)
result = model.fit()
print(result)
O 2SLS assume relações lineares entre as covariáveis e o resultado. Se houver não-linearidades complexas, o uso de Double Machine Learning (DML) com variáveis instrumentais é preferível para remover o viés de forma mais robusta.