Variável Instrumental

Existem cenários em que é inviável controlar totalmente o viés de variável omitida U. Nestes casos, problemas comuns incluem:

Nota: Compliance Refere-se à taxa de adesão, ou seja, o percentual de indivíduos que efetivamente seguiram o tratamento conforme a designação inicial.

Nestes cenários, a variável não observada U exerce influência sobre o tratamento D e o resultado Y, enviesando as estimativas de OLS (Mínimos Quadrados Ordinários):

DUY

A solução é utilizar uma Variável Instrumental Z, que atua como uma fonte de variação exógena para D:

ZDUY

A abordagem de IV isola a variação em D que é induzida exclusivamente por Z, "limpando" a influência de U.

Premissas

Para que o estimador de IV seja consistente e identifique o efeito causal, quatro premissas devem ser satisfeitas:

  1. Relevância: O instrumento Z deve ter uma correlação forte com o tratamento D. Se o instrumento for "fraco", as estimativas serão imprecisas e enviesadas.

    • Como verificar: No Primeiro Estágio, avalia-se a Estatística F. A regra de bolso clássica sugere que F>10 para descartar instrumentos fracos.
  2. Exogeneidade / Independência: O instrumento Z deve ser "tão bom quanto aleatório". Ele não pode estar correlacionado com nenhuma variável omitida (U) no modelo do resultado.

    • Como verificar: Não há teste estatístico direto (pois U não é observado). Depende de argumentação teórica e desenho do estudo.
  3. Restrição de Exclusão: O instrumento Z deve afetar o outcome Y única e exclusivamente através do tratamento D. Não pode existir um caminho direto ZY.

    • Desafio: Requer conhecimento e embasamento no domínio de negócio a ser tratado.
  4. Monotonicidade: O instrumento deve afetar todos os indivíduos na mesma direção. No contexto de experimentos, isso significa que não existem "desafiadores" (defiers) — pessoas que fazem exatamente o oposto do que o instrumento sugere.

Assista

Aplicações Principais

  1. Correção de Experimentos (RCTs): Para lidar com imperfect compliance. Quando Z é a oferta aleatória do tratamento e D é o uso efetivo. Como a oferta é aleatória, ela serve como um instrumento perfeito para o uso.
Leitura Recomendada
  1. Estudos Observacionais: Quando não houve randomização e suspeita-se de endogeneidade. O instrumento funciona como um "experimento natural", introduzindo uma aleatoriedade na atribuição de D que o pesquisador não pôde controlar.

O instrumento provoca um choque exógeno em D, gerando uma variação "limpa" (independente de U).

Estágios e o Estimador de Wald

O efeito causal Local Average Treatment Effect (LATE) via IV pode ser calculado através da decomposição em dois estágios:

  1. Primeiro Estágio (Impacto no Tratamento):

    Regredimos o tratamento D no instrumento Z. O coeficiente π representa a taxa de adesão ou a força do instrumento.

    D=α1+πZ+e1
  2. Forma Reduzida (Intenção de Tratar - ITT):

    Regredimos o resultado Y diretamente no instrumento Z. O coeficiente γ mostra o efeito causal da atribuição (oferta) do instrumento sobre o resultado.

    Y=α2+γZ+e2
  3. Cálculo do LATE (Estimador de Wald):

    O efeito causal do tratamento em quem foi afetado pelo instrumento é a razão entre a Forma Reduzida e o Primeiro Estágio:

βIV=Efeito de Z em Y (Forma Reduzida)Efeito de Z em D (Primeiro Estágio)=γπ
import statsmodels.formula.api as smf


# 1. Primeiro Estágio: Efeito de Z em D
# O coeficiente de Z aqui é a taxa de adesão
first_stage = smf.ols('D ~ Z', data=df).fit()
den = first_stage.params['Z']


# 2. Forma Reduzida: Efeito de Z em Y
# O coeficiente de Z aqui é o ITTE
reduced_form = smf.ols('Y ~ Z', data=df).fit()
num = reduced_form.params['Z']

# Cálculo do Wald, ou LATE
wald_estimator_sm = num / den

print(f"Numerador (ITTE): {num}")
print(f"Denominador (Compliance): {den}")
print(f"Efeito Causal (Wald): {wald_estimator_sm}")

Mínimos Quadrados em Dois Estágios (2SLS)

O método 2SLS é a generalização do estimador de Wald para casos com múltiplos instrumentos ou variáveis de controle (X).

  1. Primeiro Estágio (Purificação de D):

    Projeta-se o tratamento D sobre o instrumento Z e controles X para obter os valores preditos D^.

    D^=α^+π^Z+ϕ^X
  2. Segundo Estágio (Estimação Causal):

    Regride-se Y sobre os valores "limpos" D^ e os controles X.

    Y=β0+β2SLSD^+β1X+ε

A intuição aqui é a decomposição da variância. A variável de tratamento original D possui dois componentes de variação:

  1. Uma parte endógena, correlacionada com U
  2. Uma parte exógena, induzida pelo instrumento Z

Ao rodarmos o primeiro estágio e calcularmos D^, estamos isolando apenas a variação em D que é explicada por Z. Como Z é não correlacionado com U, D^ também será independente de U.

Portanto, o segundo estágio utiliza uma versão "limpa" do tratamento. Ao regredir Y em D^, eliminamos a contaminação do viés de seleção, permitindo que o OLS estime o efeito causal verdadeiro.

from linearmodels.iv import IV2SLS

# Fórmula: Y ~ Controles + [Endogeno ~ Instrumento]
# O "1" representa a constante (intercepto)
formula = 'Y ~ 1 + X + [D ~ Z]'

model = IV2SLS.from_formula(formula, df)
result = model.fit()

print(result)
2SLS vs. DoubleML (DML)

O 2SLS assume relações lineares entre as covariáveis e o resultado. Se houver não-linearidades complexas, o uso de Double Machine Learning (DML) com variáveis instrumentais é preferível para remover o viés de forma mais robusta.

Leitura Recomendada