Autor: Ted Goertzel
Traducción: Alexander Reed
Publicado en The Skeptical Inquirer, Volumen 26, No 1, Enero/Febrero 2002, pp. 19-23.
Traducido al castellano como “El Modelo Econométrico Como Ciencia Basura,” en Psicología Política, No 24 (Valencia, España).
¿Crees que cada vez que se ejecuta a un prisionero en los Estados Unidos, se evitan ocho futuros asesinatos? ¿Crees que un aumento del 1% en el número de ciudadanos con licencia para llevar armas causa una disminución del 3.3% en la tasa de asesinatos del estado? ¿Crees que de un 10 a un 20% de la disminución de la tasa de criminalidad en los 90 fue causa de un aumento en los abortos en los 70? ¿O que la tasa de asesinatos se habría incrementado en un 250% desde 1974 si los Estados Unidos no hubiesen construido tantas prisiones nuevas?
Si ha sido engañado por cualquiera de estos estudios, puede haber caído en una perniciosa forma de ciencia basura: el uso de modelos matemáticos sin una capacidad predictiva demostrada para sacar conclusiones políticas. Estos estudios son increíblemente superficiales. Escritos por reputados científicos sociales de prestigiosas instituciones, a menudo aparecen en valoraciones de compañeros en revistas científicas. Rellenas de complejos cálculos estadísticas, dan precisos “hechos” numéricos que pueden usarse como puntos de debajo en argumentos de políticas. Pero estos “hechos” son nimiedades. Antes de que la tinta de un estudio se haya secado, aparece otro con “hechos” completamente diferentes. A pesar de su apariencia científica, estos modelos no cumplen con los criterios fundamentales para un modelo matemático útil: la capacidad de realizar predicciones que sean mejores que una decisión aleatoria.
Aunque los economistas son los practicantes líderes de este arte arcano, los sociólogos, criminólogos y otros científicos sociales también tienen sus propias versiones. Se conoce por varios nombres, incluyendo “modelos econométricos,” “modelos de ecuaciones estructurales,” y “rutas de análisis.” Todas ellas son maneras de usar las correlaciones entre las variables para generar inferencias casuales. El problema con ello, es que cualquiera que tenga conocimientos estadísticos sabe que, la correlación no es una causa. La correlación entre dos variables a menudo es “falsa” porque son causa de una tercera variable. Los creadores de modelos econométricos intentan superar este problema incluyendo todas las variables relevantes en sus análisis, usando una técnica estadística llamada “regresión múltiple.” Si alguien tuviese medidas perfectas de todas las variables causales, esto podría funcionar. Pero los datos nunca van a ser suficientemente buenos. Los esfuerzos repetidos para usar la regresión múltiple para conseguir respuestas definitivas a las preguntas de políticas públicas han fallado.
Pero muchos científicos sociales son reticentes a admitir el fallo. Han dedicado años a aprender y enseñar el modelo de regresión y continúan usando la regresión para realizar debates causales que se ven justificados con sus datos. Llamo a estos argumentos los mitos de la regresión múltiple, y me gustaría usar cuatro estudios de tasas de homicidios como ejemplos.
Mito Uno: Más Armas, Menos Crimen.
John Lott, un economista de la Universidad de Yale, usó un modelo econométrico para debatir que “permitir a los ciudadanos llevar armas ocultas evita los crímenes violentos, sin aumentar las muertes accidentales.” En análisis de Lott tenía que ver con las leyes que “debían emitirse” que requerían que las autoridades locales emitiesen un permiso de armas ocultas para que cualquier ciudadano de pleno derecho pudiese pedir una. Lott estimó que cada aumento del uno por ciento en la propiedad de armas en la población causa una disminución del 3.3% en las tasas de homicidios. Lott y su co-autor, David Mustard publicaron la primera versión de su estudio en Internet en 1997 y decenas de miles de personas lo descargaron. Fue el tema de foros políticos, columnas de periódicos, y a menudo debates muy sofisticados en la World Wide Web. En un libro con el pegadizo título Más Armas, Menos Crimen, Lott se burló de sus críticos, acusándoles de colocar las ideologías por delante de la ciencia.
El trabajo de Lott es un ejemplo de imposición estadística. Tiene más datos y más análisis complejos que cualquier otro estudio de este tema. Pide que cualquier que quiera poner a prueba sus argumentos se vuelva involucrado en un debate estadístico muy complejo, basado en cálculos tan difíciles que no se pueden hacer con ordenadores de escritorio tradicionales. Reta a cualquiera que no esté de acuerdo con él a descargar su paquete de datos y que re-haga sus cálculos, pero la mayoría de los científicos sociales no creen que valga la pena replicar estudios usando métodos que han fallado de manera repetida. La mayoría de investigadores del control de armas simplemente ignoraron las afirmaciones de Lott y Mustards y continuaron con sus trabajos. Dos investigadores de justicia criminales altamente respetados, Frank Zimring y Gordon Hawkins (1997) escribieron un artículo que explicaba lo siguiente:
Al igual que Messrs. Lott y Mustard pueden, con un modelo de determinantes de homicidios, producir residuales estadísticos que sugieren que las leyes que se ‘deben emitir’ reducen los homicidios, esperamos que un econometrista tan determinado pueda producir un tratamiento de los mismos períodos históricos con diferentes modelos y efectos opuestos. El modelo econométrico es una espada de doble filo en su capacidad de facilitar descubrimientos estadísticos para calmar los corazones de los verdaderos creyentes de cualquier tipo.
Zimring y Hawkins tenían razón. Antes de que pasase un año, dos determinados econometristas, Dan Black y Daniel Nagin (1998) publicaron un estudio que mostraba que si cambiaban un poco el modelo estadístico, o lo aplicaban a diferentes segmentos de los datos, los descubrimientos de Lott y Mustard desaparecían. Black y Nagin descubrieron que cuando Florida se eliminaba de la muestra “no había un impacto detectable en las leyes de derecho a llevar armas y la tasa de violaciones y homicidios.” Concluyeron que la “inherencia basada en el modelo de Lott y Mustard no era apropiada, y sus resultados no se podían usar de manera responsable para formular políticas públicas.”
Sin embargo, John Lott discutió su análisis y continuó promocionando el suyo. Lott había recogido datos para todos los condados de América de cada año, desde 1977 hasta 1992. El problema con esto, es que los condados de América varían de manera tremenda en tamaño y características sociales. Unos pocos grandes, que contienen ciudades importantes, cuentan con un porcentaje muy grande de los asesinatos en los Estados Unidos. Como suele ocurrir, ninguno de estos grandes condados tiene leyes de control de armas “que se deban expedir”. Esto significa que el enorme paquete de datos de Lott simplemente no era apropiado para esta tarea. No tenía ninguna variación en su variable causal clave – leyes de “deber de emisión” – en los lugares donde más asesinatos ocurrían.
No mencionó esta limitación en su libro o artículos. Cuando descubrí la falta de leyes de “deber de emisión” en las ciudades importantes cuando examiné yo mismo sus datos, le pregunté sobre ello. No le hizo mucho caso, dijo que había “controlado” el tamaño de la población en su análisis. Pero presentar un control estadístico en el análisis matemático no arregló el hecho de que simplemente no tenía datos para las ciudades importantes dónde el problema de homicidios era más pronunciado.
Tardé algo de tiempo en encontrar este problema en sus datos, ya que no estaba familiarizado con el tema del control de armas. Pero Zimring y Hawkins lo ningunearon inmediatamente porque sabían que las leyes de “deber de emisión” se aplicaban en estados donde la Asociación Nacional del Rifle era poderosa, en mayor medida en el Sur, el Oeste y las regiones rurales. Estos eran estados que ya tenían algunas restricciones sobre las armas. Observaron que este historial legislativo frustraba “nuestra capacidad de comparar tendencias en estados de ‘deber de emisión’ con tendencias en otros estados. Porque los estados que cambiaban la legislación son diferentes en ubicación y constitución de los estados que no lo hacían, la comparación entre las categorías legislativas siempre arriesgan a confundir las influencias demográficas y regionales con el impacto en el comportamiento o diferentes regímenes legales.” Zimring y Hawkins observaron eso con mayor detalle:
Lott y Mustard, por supuesto que son conscientes de este problema. Su solución, una técnica econométrica estándar, generar un modelo estadístico que controle todas las diferencias entre Idaho y la Ciudad de Nueva York que tengan influencia en las tasas de criminalidad y homicidios, otras además de las leyes de “deber de emisión”. Si alguien puede “especificar” las influencias más importantes en los homicidios, violaciones, robos y robos de coches en nuestro modelo, entonces podemos eliminar la influencia de estos factores en las diferentes tendencias. Lott y Mustard crearon modelos que estimaban los efectos de los datos demográficos, datos económicos y los castigos criminales según varias causas. Estos modelos son lo último de las chapuzas estadísticas caseras que se crean para este paquete de datos por estos autores y sólo se prueba sobre los datos que se usarán en la evaluación de los impactos de derecho-a-llevar-armas.
Lott y Mustard compararon tendencias Idaho y Virginia Occidental y Mississippi con tendencias en Washington, D.C. y la Ciudad de Nueva York. Lo que en realidad ocurrió es que hubo un gran aumento de homicidios relacionados con el crack en las ciudades importantes de la costa este en los 80 y principios de los 90. Todo el argumento de Lott se redujo a decir que los estados grandes y rurales con “deber de emisión” no tuvieron la epidemia de homicidios relacionados con el crack por sus leyes de “deber de emisión”. Esto nunca se hubiese tomado en serio si no hubiese sido oscurecido por un laberinto de ecuaciones.
Mito Dos: Encarcelar Más Gente Disminuye el Crimen
El caso de Lott y Mustard sólo fue excepcional por la cantidad de atención pública que recibió. Es muy común, incluso típico, que estudios rivales se publiquen usando métodos econométricos para llegar a conclusiones opuestas sobre el mismo tema. A menudo, no hay nada que se haya hecho mal en ninguno de los análisis. Simplemente usan paquetes de datos ligeramente diferentes o técnicas diferentes para llegar a resultados diferentes. Parece que los modelos de regresión pueden llegar a cualquier resultado que quieren sin violar las reglas de los análisis de regresión de ninguna manera. En una declaración excepcionalmente franca con este asunto, dos criminólogos altamente respectados, Thomas Marvell y Carlisle Moody (1997: 221), informaron sobre la recepción de un estudio que hicieron sobre el efecto del encarcelamiento en las tasas de homicidios. Informaron que:
[sus] descubrimientos ampliamente distribuidos, junto con los datos usados, hasta colegas que se especializan en análisis cuantitativos. La respuesta más frecuente es que se niegan a creer los resultados, sin importar lo bueno que sea el análisis estadístico. Detrás de esa disputa está la idea, a menudo discutida de manera informal pero raramente publicada, que los científicos sociales pueden obtener cualquier resultado deseado manipulando los procedimientos usados. De hecho, la amplia variedad de estimaciones relacionadas con el impacto de la población de las cárceles se toman como buenas evidencias de la maleabilidad de la investigación. La implicación, incluso entre muchos que publican estudios cuantitativos de manera regular, es que no importa como de extenso sea el análisis, los resultados no son creíbles a no ser que cumplen con las expectaciones anteriores. Una disciplina de investigación no puede tener éxito en ese tipo de infraestructura.
A su gran mérito, Marvell y Moody reconocieron sinceramente los problemas con la regresión múltiple e hicieron algunas sugerencias para mejorar. Desafortunadamente, algunos econometristas estaban tan encerrados en sus modelos que perdieron la noción de lo arbitrarios que son. Llegan a creer que sus modelos son más reales, más válidos, que la desordenada, recalcitrante y “descontrolada” realidad que pretenden explicar.
Mito Tres: Ejecutar Gente Disminuye el Crimen
En 1975 The American Economic Review publicó un artículo de un importante economista, Isaac Ehrlich de la Universidad de Michigran, que estimó que cada ejecución evitaba ocho homicidios. Antes de Ehrlich, el especialista más conocido sobre la efectividad de la pena capital era Thorsten Sellen, que usó un método de análisis mucho más simple. Sellen preparó gráficos que comparaban tendencias en diferentes estados. Encontró poca o ninguna diferencia entre estados con o sin pena de muerte, así que concluyó que la pena de muerte no marcaba ninguna diferencia. Ehrlich, en un acto de imposición estadística, aclamó que su análisis era más válido porque controló todos los factores que influenciaban las tasas de homicidios.
Incluso antes de que fuese publicado, el trabajo de Ehrlich fue citado por el Procurador General de los Estados Unidos en un discurso amicus curiae en el Tribunal Supremo de los Estados Unidos en defensa de la pena de muerte. Afortunadamente, el Tribunal decidió no apoyarse sobre las evidencias de Ehrlich porque en un año o dos, otros investigadores publicarían un análisis econométrico igualmente sofisticado que mostraría que la pena de muerte no tiene ningún efecto de prevención.
La controversia sobre el trabajo de Ehrlich fue tan importante que el Consejo de Investigación Nacional convocó un panel de franja azul de expertos para que lo revisasen. Después de una valoración muy detallada, el panel decidió que el problema no era sólo con el modelo de Ehrlich, sino con la idea de usar métodos econométricos para resolver controversias sobre políticas de justicia criminal. Ellos, (Manski, 1978: 422) concluyeron que:
como los datos propensos a estar disponibles para este tipo de análisis tienen limitaciones y como el comportamiento criminal puede ser tan complejo, no se debe contemplar la aparición de un estudio definitivo del comportamiento que busca eliminar toda la controversia sobre los efectos de las políticas disuasorias en el comportamiento de la población.
Ahora, la mayoría de expertos creen que Sellen tenía razón, la pena capital no tiene un efecto demostrable sobre la tasa de homicidios. Pero Ehrlich no había sido persuadido. Ahora es un solitario creyente de la validez de su modelo. En una entrevista reciente (Bonner y Fessendren, 2000) insistió en que “si las variables como el desempleo, la desigualdad de ingresos, la propensión o aprensión y disposición a usar la pena de muerte se incluyen, la pena de muerte muestra un significativo efecto disuasorio.”
Mito Cuatro: La Legalización de los Abortos Causó un Descenso en el Crimen en los 90.
En 1999, John Donohue y Steven Levitt publicaron un estudio con una nueva explicación al agudo descenso en las tasas de homicidios en los 90. Discutieron que la legalización de los abortos por el Tribunal Supremo de los EE. UU. en 1973 causaron un descenso en los nacimientos de niños no deseados, un número desproporcionado de ellos habrían crecido y se habrían convertido en criminales. El problema con este argumento es que la legalización de los abortos, fue un evento histórico y ese tipo de eventos únicos no proporcionan suficientes datos para un análisis de regresión válido. Es verdad que los abortos fueron legalizados antes en unos estados que en otros, y Donohue y Levitt usaron este hecho. Pero todos estos estados iban a pasar por los mismos procesos históricos, y había otras muchas cosas ocurriendo en el mismo período histórico que tenían un efecto en la tasa de homicidios. Un análisis de regresión válido tendría que capturar todas estas variables, y evaluarlas bajo un amplio rango de variables. Los datos existentes no lo permiten, así que, los resultados de un análisis de regresión variarán dependiendo de qué datos se seleccionan para el análisis.
En este caso, Donohue y Levitt decidieron centrarse en cambiar sobre un período temporal de doce años, ignorando las fluctuaciones de esos años. Al hacer esto, como James Fox (2000: 303) dijo, “se perdieron la mayoría de los cambios en el crimen durante este período – la tendencia creciente durante el final de la era del crack de los 80 y la corrección descendiente de los años post-crack. Esto es algo parecido a estudiar los efectos de las fases lunares en las mareas de los océanos pero sólo registrando datos en períodos de marea baja.”
Cuando estaba escribiendo este artículo, incluí una frase que decía “pronto otro analista de regresión probablemente reanalice los mismos datos y llegue a conclusiones diferentes.” Unos pocos días después, mi esposa me pasó un periódico sobre un estudio así. El autor no era otro que John Lott de Yale, junto con John Whitley de la Universidad de Adelaide. Usaron los mismos números y concluyeron que la “legalización del aborto aumentó las tasas de homicidios alrededor de un 0.5 al 7 por ciento” (Lott y Whitely, 2001).
¿Por qué esos resultados tan marcadamente diferentes? Cada grupo de autores simplemente seleccionaron una manera diferente para realizar un cuerpo de datos inadecuado. La econometría no puede generar una ley general válida a través del hecho histórico de que los abortos fueron legalizados en los 70 y el crimen descendió en los 90. Necesitaríamos al menos una docena de experiencias históricas similares para realizar una prueba estadística válida.
Conclusiones.
La prueba ácida en el modelo estadística es una predicción. Una predicción no tiene que ser perfecta. Si un modelo puede predecir significativamente mejor que una suposición aleatoria, es útil. Por ejemplo, si un modelo puede predecir precios de acciones incluso ligeramente mejor que una suposición aleatoria, haría a sus dueños muy ricos. Así que se tiene que realizar un gran esfuerzo para probar y evaluar modelos de precios de acciones. Desafortunadamente, los investigadores que usan técnicas econométricas para evaluar políticas sociales muy raramente realizan pruebas predictivas a sus modelos. Su excusa es que se tarda demasiado para conocer los resultados. No se consiguen datos nuevos sobre pobreza, abortos u homicidios cada pocos minutos como ocurre con los precios de las acciones. Pero los investigadores pueden hacer pruebas predictivas de otras maneras. Pueden desarrollar un modelo que use datos de una jurisdicción o período temporal, luego usarlo para predecir datos de otros momentos o lugares. Pero la mayoría de los investigadores simplemente no lo hacen, o si lo hacen, los modelos fallan y los resultados nunca son publicados.
Las revistas que publican estudios econométricos de asuntos de políticas públicas no requieren pruebas predictivas, lo que muestra que los editores y críticos tienen expectativas bajas para sus campos. Así, los investigadores recogen los datos de un período de tiempo fijado y se dedican a ajustar y personalizar sus modelos hasta que puedan “explicar” tendencias que ya han ocurrido. Siempre hay una gran cantidad de maneras de hacer esto, y con los ordenadores modernos no es nada difícil seguir probando hasta que encuentres algo que te sirva. En ese momento, el investigador se detiene, escribe sus descubrimientos y envía el papel para la publicación. Luego, otro investigador podrá ajustar el modelo para obtener un resultado diferente. Esto rellena las páginas de las revistas especializadas, y todos pretenden no notar que no se hace ningún progreso o uno muy pequeño. Pero no estamos más cerca de tener un modelo econométrico válido de las tasas de homicidios hoy de lo que estábamos cuando Isaac Ehrlich publicó el primer modelo en 1975.
La comunidad científica no tiene buenos procedimientos para reconocer el fallo de un método de investigación muy extendido. Los métodos que están arraigados en programas de grados en universidades de prestigios y se publican en prestigiosas revistas tienden a ser perpetuados. Muchos profanos asumen que si un estudio ha sido publicado en una revista especializada revisada, es válido. Los casos que hemos examinado muestran que este no siempre es el caso. Las críticas de compañeros aseguran que se han seguido las prácticas establecidas, pero es de poca ayuda cuando esas mismas prácticas son defectuosas.
En 1991, David Freedman, un distinguido sociólogo en la Universidad de California en Berkeley y el autor de libros de texto sobre métodos de investigación cuantitativa, sacudió los fundamentos de los modelos de regresión cuando dijo de manera franca “No creo que la regresión pueda llevar mucha de la carga de un argumento causal. Ni hacer ecuaciones de regresión, por sí mismas, da mucha ayuda para controlar variables confundidas” (Freedman, 1991: 292). El artículo de Freedman provocó una gran cantidad de reacciones potentes. Richard Berk (1991: 315) dijo del argumento de Freedman “sería muy difícil para la mayoría de sociólogos cuantitativos aceptarlo. Va hasta el corazón de sus iniciativas empíricas y al hacerlo, pone sus carreras profesionales en un completo peligro.”
Afrontando críticas de los que quieren algunas pruebas de que pueden predecir tendencias, los desarrolladores de modelos de regresión a menudo caen en una imposición estadística. Hacen argumentos tan complejos que sólo otro analista de regresión altamente formado podrá entender y menos refutarles. A menudo, esta técnica funciona. Las críticas potenciales simplemente se rinden llenas de frustración. En The Philadelphia Inquirer’s David Boldt (1999), después de escuchar a John Lott hablar sobre las armas ocultas y las tasas de homicidios y evaluar con otros expertos, lamentó que “intentar preparar los argumentos académicos es casi el recado de un tonto. Puedes ahogarte en disputas sobre t-statistics, variables dummy y métodos de análisis de datos ‘Poisson’ vs. ‘mínimos cuadrados’.”
Boldt tenía razón en sospechar que había sido atraído a una misión estúpida. De hecho, no hay descubrimientos importantes en sociología o criminología que no puedan ser comunicados a periodistas y creadores de políticas que no tengan grados en econometría. Es momento de admitir que el emperador no tiene ropas. Cuando se presenta con un modelo econométrico, los consumidores deben insistir en las pruebas de que puede predecir tendencias en datos además de los datos usados para crearlo. Los modelos que fallan este test son ciencia basura, sin importar lo complejo que sea el análisis.
REFERENCIAS
Berk, Richard.A. 1991. Toward a methodology for mere mortals,” Sociological Methodology 21: 315-324.
Boldt, David. 1999. “Study evidence on guns,” Philadelphia Inquirer, December 14. Downloaded on May17, 2000 from: http://www.phillynews.com/inquirer/99/Dec/14/opinion/BOLDT14.htm.
Black, Dan. and Daniel Nagin 1998. Do right-to-carry laws deter violent crime? Journal of Legal Studies 27: 209-219.
Bonner, Raymond and Ford Fessendren. 2000. States with no death penalty share lower homicide rates,” New York Times, September 22. Downloaded from: http://www.nytimes.com/2000/09/22/national/22DEAT.html.
Donohue, John and Steven Levitt. 1999. Legalized Abortion and Crime. Stanford University Law School. Downloaded in August, 2000 from: http://papers.ssrn.com/paper.taf?ABSTRACT_ID=174508.
Fox, James. 2000. Demographics and U.S. homicide, In A. Blumstein and J. Wallman (eds.), The Crime Drop in America, Cambridge University Press, New York, pp. 288-317.
Freedman, David 1991. Statistical models and shoe leather. Sociological Methodology 21: 291-313.
Lott, John. 2000. More Guns, Less Crime: Understanding Crime and Gun Control Laws. University of Chicago Press, second edition with additional analyses.
Lott, John. and John Whitley. 2001. Abortion and crime: Unwanted children and out-of-wedlock births,” Yale Law & Economics Research Paper No. 254. Downloaded on July 9, 2001 from: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=270126.
Marvell, Thomas and Carlisle Moody, C. 1997. The impact of prison growth on homicide. Homicide Studies 1: 205-233.
Zimring, Frank and Gordon Hawkins. 1997. Concealed handguns: the counterfeit deterrent, The Responsive Community 7: 46-60.