“Twelve angry men” y los test de hipótesis

Twelve angry men (Doce hombres en pugna en su título en español, Sydney Lumet, 1957) es una película notable, aunque resulta necesario dejar de lado los prejuicios de imagen en blanco y negro y el año de producción antes de verla.

Se trata simplemente de noventa minutos de diálogo en una habitación. La idea es muy simple: doce hombres son citados para conformar un jurado que debe evaluar si un joven de 18 años es culpable de haber asesinado a su padre, en cuyo caso se aplica la pena de muerte. Es importante aclarar que la decisión debe ser unánime.

El film comienza con la primera votación que hacen a mano alzada en el recinto. Luego de escuchar el testimonio de los testigos y las posiciones del fiscal y del abogado defensor, votan por culpable o inocente. El saldo da once a uno respectivamente. Que comience la película.

No está claro si los que tienen la carga de la prueba son los once que opinan que hay que sentenciar al acusado o el único que se atrevió votar en contra. Lo primero que dice este hombre, y es una postura que sostendrá durante mucho tiempo (tranqui que no te estoy spoileando nada) es que no tiene certezas para decir que el muchacho es culpable. Afirma que tiene una “duda razonable”, que sí, que la historia cierra, que probablemente había una razón para que matara a su padre, que se le encontró un cuchillo, que todo encaja pero que aun así los datos no le dan seguridad para definir la muerte del juzgado.

Y esto inevitablemente me remitió a los test de hipótesis y a los niveles de significación estadística, conceptos que intentaré explicar paso a paso. 

Supongamos (uf, que economistas que nos pusimos) que queremos testear la eficacia de una droga para calmar una enfermedad. Puede que la vacuna sea exitosa y lo verifiquemos, o que no lo sea y en consecuencia podamos notarlo. En ambos casos acertamos (si había efecto o no, lo pudimos observar con evidencia científica y acertamos). Pero existen dos casos más, dos errores. Tal vez la droga en realidad no funcione pero en el estudio se determine que sí (Error Tipo I) o puede suceder que la vacuna sea útil pero los resultados indiquen que no (Error tipo II).

Los errores tipo I y tipo II nos acompañan a todos lados. Algunos hasta afirman que la vida se trata de ir esquivando y minimizando la probabilidad de caer en errores del primer tipo.

Para evaluar hipótesis se recurre a los datos y se intenta recolectar la mayor cantidad de información posible a fin de entender mejor lo que está sucediendo. El problema es que los investigadores tienen muestras acotadas, con suerte representativas, y por  es que se acude al test de hipótesis.

Wikipedia lo define como “un procedimiento para juzgar si una propiedad que se supone en una población estadística es compatible con lo observado en una muestra de dicha población”. Opa, traducción: el test de hipótesis da información acerca de si lo que yo observo en la muestra se puede trasladar a lo que sucede con la población. Es una regla de decisión. La investigación (la que lleva a cabo algún científico) pretende obtener conclusiones y es el test de hipótesis el que me informa sobre qué tipo de ellas puedo hablar, bajo qué condiciones y con qué seguridad.

En el test se definen dos hipótesis: la nula y la alternativa. La nula sería la de default, aquella que si tengo suficiente evidencia estadística podré decir que es falsa. Ojo, podré decir que “tengo evidencia estadística para afirmar que la hipótesis nula no se cumple”. Si no encuentro evidencia diré que “no se puede rechazar la hipótesis nula”.

En la película, y dado que la justicia norteamericana establece que toda persona es inocente hasta que se demuestre lo contrario, la hipótesis nula es que el muchacho no asesinó a su padre. Entonces, con lo recolectado en el juicio se debe dictaminar si existe suficiente evidencia para rechazar esta hipótesis nula y hacer valer la alternativa, esto es, declararlo culpable.

Repasemos: si el chico fue quien mató a su padre y se lo declara culpable o si fue otra persona y se lo declara inocente, diremos que el jurado acertó. Si no fue y lo sentencian a muerte, caeremos en el error tipo I, y si efectivamente es culpable pero se lo manda a su casa, en el error tipo II.

De este tipo de análisis se desprende otro concepto, el de nivel de significación estadística, que consiste en la probabilidad de cometer un error de tipo I. Cuál es ese valor lo define todo y se lo suele llamar alfa. En las investigaciones científicas se suele poner énfasis en evitar este tipo de error, por lo que esa probabilidad se requiere que sea lo más baja posible. A partir de los datos disponibles se computa un estadístico (un numerito, que en cada investigación es distinta – llamado “p-valor”) y se lo compara con ese valor alfa. Si es menor, se puede rechazar la hipótesis nula. En las investigaciones de economía ese umbral está establecido en el 5%. Para decir que se encontró evidencia a favor de una nueva hipótesis los datos tienen que tener un p-valor menor a un nivel de significatividad del 5%.

Ahora, nuestro protagonista es mucho más exigente que las revistas académicas de economía. Sabe que si se comete el error de tipo I (se lo declara culpable cuando en realidad era inocente) se envía injustamente a una persona a la silla eléctrica. Quiere evitar ese tipo de error a toda costa, por lo que exige que el p-valor de los datos sea muy bajo, de tal manera que sólo rechazará la hipótesis nula si ese p-valor es menor a un nivel de significancia ínfimo. Es decir, a menos que tenga mucha evidencia encontra lo declarará inocente. Para otros solo alcanza con saber que el chico estuvo en el edificio esa noche y que él y su padre habían discutido para afirmar con toda certeza que es el asesino (un nivel de significatividad estadística alto).

Pero hay más. El protagonistas no solo aplica estas nociones de error de tipo I sino que nunca deja de aclarar que el test de hipótesis tampoco nos da la certeza absoluta. Que la evidencia no alcance para declararlo culpable no implica que sea inocente: son esos datos los que no permiten dictaminar una cosa, pero insiste siempre con el “puede ser”, “es probable” y el “no lo sé”.

Porque sí, los datos ayudan a entender mejor la realidad y el comportamiento de distintas variables, pero existen límites para actuar como si los resultados que se obtienen en un artículo científico fueran la verdad revelada. 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada.