Design de Experimentos

Na introdução ao seu trabalho The Design of Experiments, Ronald Fisher demonstrou preocupação com a falta de clareza e rigor metodológico em experimentos. Ele notou que a ausência de um design experimental robusto poderia levar a:

Experimentos mal projetados resultam em desperdício de recursos (tempo e dinheiro) e em decisões estratégicas equivocadas. Em um cenário de tomada de decisão, é imprescindível sermos cautelosos e rigorosos para manter o controle sobre a inferência.

Fisher propôs um método para trazer facilidade e confiança à experimentação, baseando-se em três pilares:

  1. Randomização: Garante que características não observáveis se distribuam igualmente entre os grupos, eliminando viés de seleção.

  2. Controle: Isola o efeito do tratamento de fatores externos (ruído).

  3. Replicação: Reduz o erro experimental e aumenta a precisão da estimativa.

Por que não utilizar apenas dados observacionais?

A utilização exclusiva de dados históricos ou observacionais para a extração de conclusões de causa e efeito é metodologicamente errada. A mera existência de grandes volumes de dados não supre a necessidade de um desenho experimental rigoroso. Judea Pearl argumenta que os dados, por si só, operam sob a lógica das probabilidades e proporções, sendo "agnósticos" aos mecanismos causais que os geraram, ou seja, eles não explicitam os mecanismos causais neles contidos. Assumir que qualquer dado observacional permite inferir causalidade sem o conhecimento de como o tratamento foi atribuído, de como as características dos grupos se representam ou se as premissas da inferência causal são atendidas, compromete a integridade dos resultados e pode conduzir a conclusões de pesquisa equivocadas.

Citação

The tension starts because they stand on two different rungs of the Ladder of Causation and is aggravated by the fact that human intuition operates under the logic of causation, while data conform to the logic of probabilities and proportions. Paradoxes arise when we misapply the rules we have learned in one realm to the other. - Judea Pearl, The Book of Why

A inferência causal a partir de bases observacionais, sem o devido controle sobre o mecanismo de atribuição do tratamento ou o cumprimento de premissas explícitas, invalida a robustez das conclusões. O risco reside, por exemplo, na impossibilidade de isolar o efeito do tratamento de causas comuns entre o tratamento e o outcome e vieses inerentes à coleta passiva de dados.

Um exemplo clássico desta limitação é o debate histórico sobre a relação entre o tabagismo e a mortalidade, detalhado no capítulo 05 de The Book of Why. Durante anos, a dependência exclusiva de análises estatísticas e dados observacionais, dada a ausência de um framework causal robusto na época, permitiu que correlações fossem utilizadas para contestar a causalidade direta, retardando intervenções de saúde pública.

Embora métodos quasi-experimentais busquem mitigar tais limitações quando a randomização é inviável, eles ainda dependem de premissas rigorosas de identificação. Sem o controle experimental, a transição da correlação para a causalidade permanece um salto metodológico arriscado.

Experimentos Aleatorizados

Para contornar o Problema Fundamental da Inferência Causal, suprir a carência de design de experimentos e controlar o viés de variável omitida, recorre-se a métodos de pesquisa como o Experimento Aleatorizado.

O experimento aleatorizado, ou ensaio clínico randomizado (RCT), é um procedimento no qual as unidades de uma amostra populacional são alocadas de forma aleatória (randomizada) ao grupo de tratamento ou ao grupo de controle.

A randomização é crucial, pois:

Ao garantir que a única diferença sistemática esperada entre os grupos seja a aplicação do tratamento, a randomização permite que a diferença observacional nos resultados seja interpretada como uma estimativa válida do efeito causal médio do tratamento na população.

Lembre-se: O Conceito do Contrafactual

Ao criarmos dois grupos estatisticamente idênticos na média, o grupo de controle representa uma foto do "futuro que não aconteceu" para o grupo tratado. Isso torna plausível responder a perguntas contrafactuais: "O que teria acontecido se não tivéssemos aplicado a mudança?"

rct_1.png
Lecture 3 – The Magic of Randomized Control Trials

rct_2.png
Lecture 3 – The Magic of Randomized Control Trials

Leitura Recomendada

Premissas

Molak, em conversa com Thanos Vlontzos enfatiza que nunca nos livramos totalmente das premissas. Todo modelo, causal ou não, repousa sobre suposições; o objetivo não é eliminá‑las, mas escolher aquelas com as quais podemos conviver e torná‑las explícitas. Segundo ele, o problema não é ter premissas iniciais, e sim esquecê‑las: uma suposição negligenciada pode fazer um projeto parecer perfeito na superfície, mas esconder uma "mancha enorme" que, mais tarde, causará problemas. Isso vale tanto para estudos experimentais quanto especialmente para estudos observacionais. As premissas que devemos respeitar são:

Pontos de Atenção

Análise de Poder Estatístico e Tamanho de Amostra

hypothesis_test_1.png

No contexto de estudos experimentais, a inferência continua sendo probabilística. Ao tomarmos uma decisão sobre rejeitar ou não a Hipótese Nula (H0), estamos sujeitos a cometer erros. O "Poder Estatístico" é, fundamentalmente, uma medida de nossa capacidade de evitar um desses erros: o de não ver algo que realmente existe.

A Matriz de Decisão (Erros Tipo I e II)

A melhor forma de visualizar os riscos é através da matriz de decisão. Imagine que existe uma "Verdade Universal" (que não conhecemos) e uma "Decisão do Cientista" (baseada nos dados).

hypothesis_test_2.png

Os 4 Pilares da Análise de Poder

A Análise de Poder descreve o equilíbrio matemático entre quatro variáveis interdependentes.

  1. Tamanho da Amostra (n): A quantidade de unidades no experimento.

    • Relação: Quanto maior o n, menor o erro padrão e maior o Poder.
  2. Nível de Significância (α): O critério de rigor para o "falso positivo".

    • Relação: Ser mais rigoroso (ex: baixar α de 5% para 1%) torna mais difícil rejeitar a nula, o que diminui o Poder (aumenta o risco de Falso Negativo).
  3. Tamanho do Efeito / MDE (δ): A magnitude da diferença que queremos detectar.

    • Relação: Efeitos grandes são "fáceis" de ver (ex: um aumento de 50% na conversão). Efeitos minúsculos exigem mais amostra.
  4. Poder Estatístico (1β): A sensibilidade do teste.

Poder vs. Significância

Poder é relativo a nossa capacidade de detectar um efeito se ele existir, enquanto a significância é relativa à quantidade real de experimentos caindo dentro do intervalo de confiança. O poder nos diz sobre nossa sensibilidade para detectar efeitos reais, enquanto a significância nos informa sobre a confiança na existência do efeito observado.

A Analogia da Rede de Pesca

Imagine que você quer pescar peixes em um lago.

  • Tamanho do Efeito: É o tamanho do peixe. Peixes grandes são fáceis de pegar; peixes pequenos escapam facilmente.

  • Tamanho da Amostra: É o tamanho da sua rede. Uma rede maior cobre mais área.

  • Significância (α): É a chance de você puxar uma bota velha e achar que é um peixe.

  • Poder: É a probabilidade de, havendo um peixe no lago, ele acabar na sua rede.

Se você quer pegar peixes muito pequenos (MDE baixo) com alta certeza (alto poder), você precisará de uma rede gigantesca (amostra alta).

Efeito Mínimo Detectável (MDE)

Se tratando de poder, o MDE representa a menor mudança que a inferência quer detectar. Ele esta atrelado ao fator da decisão da pesquisa em verificar o impacto do tratamento. Em outras palavras, o quanto você quer verificar que o seu desfecho tenha impacto de negócio, por exemplo implementar uma nova campanha de marketing, com a premissa de um aumento de 5% da receita.

Entretanto, há pontos a serem observados:

Curva de Poder

A Curva de Poder é uma representação gráfica que mostra como o poder estatístico varia em função do tamanho do efeito real. Ela é interessante para compreender as limitações e capacidades do seu experimento, o que facilita comunicar entre as partes em relação a pesquisa. Para bom entendimento, sugiro a leitura recomendada.

Leitura Recomendada

Para fins didáticos, implementei algumas funções para análise de poder e verificar o MDE. Aconselho não apenas veja os resultados do jupyter notebook, mas as funções criadas na minha biblioteca.

Elementos fundamentais do desenho experimental

Leitura Recomendada

Para responder a uma pergunta de pesquisa com objetivo causal, é imperativo definirmos, de forma mensurável, os componentes estruturais do estudo. Esta ausência torna a inferência sujeita a interpretações contraditórias.

1. Tratamento (Di)

Refere-se à intervenção ou exposição que está sendo investigada.

2. Potenciais Outcomes (Yi(0),Yi(1))

Os potenciais outcomes representam os resultados teóricos que a unidade i apresentaria sob cada condição de tratamento.

3. Unidade de Observação (Ui)

Define a entidade fundamental sobre a qual o tratamento é aplicado e o desfecho é medido.

4. Estimand (O parâmetro de interesse)

O Estimand é a quantidade teórica exata que queremos estimar. Ele guia todo o desenho do estudo e o cálculo do tamanho da amostra.

Mecanismo de Atribuição

Citação

I think it's wrong to think any causality comes only in the modeling part. It comes in the entire system building process:

  • From the data collection (thinking about which parameters come into play);
  • Obviously the data modeling;
  • And then to actually making it robust and serving it to the End Customer.

So this is, for example, a very crucial point: Gathering correct data, especially in the medical field, is extremely hard and extremely crucial. - Thanos Vlontzos

O mecanismo de atribuição é o processo (conhecido ou desconhecido) que determina quais unidades recebem o tratamento e quais recebem o controle. Formalmente, ele descreve a lei de probabilidade condicional P(W|X,Y(0),Y(1)) que governa a alocação do tratamento W.

Em um RCT, este mecanismo é controlado e conhecido (ex: moeda, sorteio). Em estudos observacionais, ele é desconhecido e precisa ser estimado. Essa estimativa é justamente o cálculo da probabilidade de receber o tratamento P(W=1|X), valor que chamamos de Escore de Propensão, ao qual nos permite rebalancear os grupos e validar se as premissas de identificação foram respeitadas.

Em outras palavras, quanto mais conhecermos sobre o seus dados e o mecanismo de atribuição, melhor e verdadeira serão suas estimativas. Dentro do contexto causal, não podemos atuar de olhos fechados. Necessitamos conhecer a fundo tudo o que contempla o design de experimento, para aí sim, irmos para algum estudo e inferência.

Problemas com Experimentos Aleatorizados

Em um RCT, os participantes são distribuídos aleatoriamente para o grupo de tratamento ou controle. Essa randomização visa equilibrar todas as variáveis de confusão (tanto as conhecidas quanto as desconhecidas) entre os grupos, permitindo que qualquer diferença observada no resultado seja atribuída, com alta confiança, à intervenção (causa).

Embora seja o padrão de ouro na metodologia experimental, ele não oferece uma garantia absoluta de causalidade, pois a randomização inicial é apenas o primeiro passo. A causalidade pode ser comprometida por vieses pós-randomização que surgem durante a execução do estudo. Problemas como a desigualdade de características entre os participantes, perda ou até abandono podem prejudicar o resultado para uma generalização dos resultados.

Além das limitações metodológicas na condução do estudo, o RCT é inviável ou antiético em inúmeros cenários de pesquisa causal. Existem fenômenos de interesse (como o efeito de eventos raros, exposições de longuíssimo prazo, ou variáveis não manipuláveis, como o status socioeconômico) onde a aleatoriedade é inatingível. Mais gravemente, a randomização é antiética em exposições que são sabidamente prejudiciais. Por exemplo, seria moralmente inaceitável randomizar uma população para forçar um grupo a fumar a fim de analisar as chances de câncer de pulmão.

Portanto, em contextos onde a intervenção não pode ser controlada por um RCT devido a impedimentos éticos ou práticos, os pesquisadores devem recorrer a outras ferramentas, como também é possível aplicar outros tipos de amostragens.

Leitura Recomendada