GenAI e Causal Reasoning
É fundamental salientar que os modelos de linguagem de grande escala (LLMs) não capturam, por si só, relações intrínsecas de causalidade. Existem desafios documentados de raciocínio (reasoning) em modelos não determinísticos e, para fins de inferência causal, essas ferramentas não substituem os conceitos e frameworks consolidados da econometria e estatística.
No episódio do podcast Free Will, LLMs & Intelligence| Judea Pearl Ep 21 | CausalBanditsPodcast.com, Judea Pearl faz uma analogia na qual confiar exclusivamente em um LLM para causalidade é como ler um livro de receitas escrito por alguém que nunca cozinhou, mas que leu todos os livros de culinária existentes. O modelo replica instruções sem compreender a "química" — por exemplo, por que o fermento faz o bolo crescer. Pearl argumenta que os LLMs não aprendem modelos causais diretamente do ambiente, mas sim "copiam" os modelos mentais dos autores dos textos de treinamento. O resultado é o que ele chama de uma "salada de associações" ou "rumores sobre modelos causais", sugerindo que devemos tratar o modelo como uma nova "caixa preta" para experimentação, e não como uma fonte de verdade causal, o que corrobora em seu framework Escada da Causação: O modelo não é capaz de entender o mecanismo causal por trás da associação, estando apenas no primeiro degrau.
Em paralelo, Emre Kıcıman, no episódio Open Source Causal AI & The Generative Revolution | Emre Kıcıman Ep 16, expressa ceticismo sobre a capacidade atual dos LLMs de raciocinar causalmente. Ele observa que, embora seja possível que eventualmente aprendam modelos causais, os LLMs atuais modelam principalmente a linguagem, e não o mundo físico. Kıcıman aponta que, mesmo quando modelos como o Sora parecem simular a física, eles frequentemente realizam simulações locais aproximadas que podem "cortar caminho" para satisfazer um comando criativo, como criar ondas em uma xícara de café onde, logicamente, elas não deveriam existir.
Apesar dessas limitações, Kıcıman argumenta que os LLMs são valiosos para complementar a especialização humana, oferecendo suporte tecnológico ao:
-
Propor mecanismos causais plausíveis que um pesquisador pode ter deixado passar;
-
Criticar suposições e sugerir onde é necessária maior validação;
-
Aliviar o fardo de "começar do zero" para especialistas no domínio.
Exemplos práticos dessa colaboração já existem. O artigo Mining Causality: AI-Assisted Search for Instrumental Variables, por exemplo, propõe agentes que auxiliam na busca de variáveis instrumentais através de etapas estruturadas de prompt e validação. No campo das ferramentas, a biblioteca PyWhyLLM é um projeto experimental desenhado para integrar essas capacidades diretamente no fluxo de trabalho de análise causal, fazendo parte do ecossistema PyWhy (que inclui o DoWhy). Outra iniciativa relevante é o Causal LLM Agent, desenvolvido pelo laboratório Jinesis da Universidade de Toronto.
Caso tenha interesse para linhas de pesquisa como o Causal LLM Agent, sugiro observar o trabalho de Zhijing Jing, sua linha de pesquisa é voltada a este tema.
Atualmente, os LLMs não são capazes em extrair com segurança os mecanismos causais, mas podem ser utilizados como um parceiro colaborativo. Eles ajudam a preencher a lacuna entre o conhecimento de domínio necessário para compreendê-los. Ao usar essas ferramentas, pesquisadores podem tratar o modelo como um instrumento para a descoberta e crítica causal, enquanto deixam a criticidade, estimativa final e a tomada de decisão para o pesquisador. É importante refrisar que eles não devem ser utilizados para terceirizar decisões críticas, nem para substituir o conhecimento de domínio. Seu uso exige rigor, documentação e, crucialmente, revisão por especialistas humanos. Como sugerido pela tradição de Fisher, a interpretação final e a atribuição de efeitos causais são responsabilidades inalienáveis do pesquisador. Quanto maior o impacto da decisão, maior deve ser o rigor da análise humana sobre a saída da máquina.