Cuando los controles no alcanzan

Correlación no es causalidad, y qué problema porque muchas supuestas verdades se aferran de allí como si fueran lo mismo.

En muchas de las investigaciones que se relatan en notas y artículos de internet podemos encontrar respuestas a preguntas interesantes pero que, sin embargo, tienen sutilezas que nos deberían hacer sospechar de lo que leemos. En muchos de esos casos es común encontrar frases del estilo “se controló por” seguidas por el nombre de alguna variable. En los párrafos que siguen se intentará explicar a qué se refiere este tipo de oraciones, cuál es el objetivo que persiguen y cuáles sus limitaciones.

Para la econometría estándar, disciplina que emplea conceptos estadísticos y matemáticos para comprender fenómenos económicos y sociales, uno de los mayores problemas que puede tener una estimación sobre la relación entre dos variables es la de reflejar un número que no se condice con el “verdadero” valor. Este tipo de problemas se conoce como “sesgo”: si mi resultado está sesgado entonces lo que estimo no se comporta, en promedio, como lo hace el valor real.

Una de sus causas es la omisión de una variable que tiene relación con las que puedo llegar a estar analizando, problema conocido en la jerga como “omisión de variables relevantes”.

En las primeras investigaciones sobre el efecto del consumo de tabaco en la probabilidad de muerte, por ejemplo, los resultados daban negativos. Es decir, uno fumaba y tenía menos chances de morir. Por supuesto, estos cálculos generaban desconcierto y se sospechaba que debían tener algún error: ¿cómo un producto con tantas sustancias tóxicas podía aumentar la esperanza de vida?

En efecto, no se estaba teniendo en cuenta a la edad, variable más que relevante, dado que la mayoría de las personas se mueren cuando son viejas (relación entre edad y muerte) y los jóvenes son más propensos a fumar (correlación entre fumar y edad). Se estaba estudiando la relación entre fumar y morir y se había omitido a la edad, la cual se relacionaba con ambas.

En términos generales, cuando se cree que una variable tiene poder para causar, explicar o predecir a otra (supongamos variable X y variable Y respectivamente) se establece que Y es explicada en su totalidad por X. No obstante, dado que en la mayoría de los casos también existen otras cosas que se relacionan con Y, se define que Y es explicada por X y un montón de otras variables más. ¿Cuántas? No importa, dado que se inventa una incógnita más que engloba a todas esas restantes. En particular, Y va a estar explicada por X más un “término de error” que llamaremos E.

Y = X + E.

Esa igualdad se puede interpretar como que todo lo que sucede en Y está explicado por movimientos que suceden en X y/o en E o como que cambios en X y/o en E afectan a Y.

En el ejemplo mencionado, Y sería la probabilidad de morir, X el consumo de tabaco y E “todo lo demás”; en otras palabras, fumar y muchas cosas más inciden en las chances de fallecer.

Cuánto explica X a Y se puede calcular usando datos y ese resultado, recordemos, no estará sesgado si no existe ninguna variable incluida en E relevante (esto es, que se relacione con ambas). Como vimos, al principio se omitía la edad, que se dejaba dentro de E, por lo que se la tuvo que extraer de E y colocar en la ecuación para que en el estudio se corrigiera el sesgo que se desprendía de X.

Se perfeccionó afirmando que Y= X + Z + E, donde Z pasó a ser la edad. Notemos que E permanece en la ecuación, englobando a todas las demás variables que influyen sobre la muerte a excepción de fumar y edad, que ya fueron especificadas. Se pasó de estimar “los efectos del tabaco sobre la probabilidad de morir” a calcular “los efectos del tabaco sobre la probabilidad de morir controlando por edad”. El control replantea la pregunta: ¿cuál es el efecto de fumar sobre la posibilidad de morir dada la edad?

Ese término de error trae muchos problemas, porque por más rica y detallada que sea mi base de datos, si existe ahí, dentro de E, otra variable que explica a “Y” y que además está relacionada con X (que es la variable sobre la cual me interesa conocer el efecto que posee sobre Y), cualquier interpretación que se haga estará sesgada. Por ejemplo, podría argumentar que el nivel de educación influye en la decisión de fumar y también sobre la esperanza de vida, por lo que si no controlo por educación seguiré teniendo un resultado sesgado. Puedo incluir ahora también a la educación, pero algún investigador me podría decir también omití el nivel socio-económico. Y aun incluyendo a esta cuarta variable, podría suceder de nuevo que existe una quinta variable que no se especificó. Como se podrá intuir, siempre habrá razones para afirmar que faltó incluir “algo”.

No existirán problemas, aclaración importante, si la variable omitida no tiene correlación con X. Si estoy estimando el efecto de la educación sobre el salario y se puede afirmar que el sexo no influye en la cantidad de años de educación incorporados, no importa que el salario sea distinto por género que el efecto que se calcule que tiene la educación sobre el ingreso no estará sesgado.

La publicación de este miércoles tiene como protagonista a esta nota, que afirma que leer aumenta la esperanza de vida en dos años y que para llegar a esa conclusión se analizaron los hábitos de lectura de las personas y se les realizó un seguimiento a lo largo del tiempo. Para dejarnos tranquilos nos avisan que se tuvo en cuenta el nivel socioeconómico de cada individuo y el estado de ánimo, entre otras cosas. En los términos anteriormente empleados “se calcularon los efectos de leer sobre la esperanza de vida controlando por nivel socioeconómico, estado de ánimo y etc”.

Pero aun así, no alcanza. A menos que tenga un argumento fuerte para afirmar que leer no se relaciona con ninguna otra variable, no importa por cuanto se controle, siempre puede existir alguna variable que se nos haya escapado que tenga que ver con el hábito de leer y la esperanza de vida. De ser así, el cálculo de un impacto de dos años está sesgado.

El mundo es complejo y muchas veces se dan relaciones que no imaginábamos, de manera tal que no importa cuánto esfuerzo empleemos en incluir variables relevantes que siempre la probabilidad de haber omitido alguna será alta.  La única manera de salvarnos de ese problema es si incluimos muchas variables (¿infinitas?).

Es importante aclarar que esto no quiere decir que nunca se puedan obtener estimaciones insesgadas sobre la relación entre dos variables. Existen contextos en los que es posible pero detallarlos no es el objetivo de este post.

En el término de error está todo lo demás. Es un lugar incontrolable, desconocido. Y por más que estemos seguros de que ya tuvimos en cuenta todo lo que hay que considerar, no alcanza, porque en el terreno de lo incontrolable no existe el control total.

Así, cada vez que leamos un estudio que encontró una relación causal entre una variable y otra, por más que nos aseguren que se controló por muchos indicadores, lo más acertado será decir que no alcanza y que los resultados están, en primera instancia, bajo sospecha.

 

Referencias

http://pijamasurf.com/2016/08/leer-puede-extender-tu-esperanza-de-vida-por-lo-menos-2-anos/

 

Deja un comentario

Tu dirección de correo electrónico no será publicada.