Perversión académica

Como instructor, me he dedicado a promulgar un tipo único de política de evaluación para mis alumnos. Específicamente, todas las pruebas son de estilo ensayo corto y se permiten revisiones después de que se haya recibido una calificación. Esto asegura que los estudiantes siempre tengan alguna motivación para descubrir lo que obtuvieron y mejorarlo. En otras palabras, diseño mi evaluación para incentivar el aprendizaje. Desde el punto de vista de una perspectiva abstracta sobre el valor de la educación, esta parece ser una perspectiva razonable para adoptar (al menos para mí, aunque no he oído a ninguno de mis colegas discutir el método). También es, a falta de una palabra mejor, algo estúpido para mí, desde una perspectiva profesional. Lo que quiero decir aquí es que, en el mercado de trabajo, mi capacidad para lograr que los estudiantes aprendan con éxito no está exactamente incentivada, o al menos esa es la impresión que me han transmitido otras personas con más conocimiento. No solo las personas en los comités de contratación no están particularmente interesadas en cuánto tiempo estoy dispuesto a dedicar a que mis alumnos aprendan (no es lo primero que ven, o incluso entre los 3 primeros, creo), sino el momento en que lo hago invertir en este método de evaluación es tiempo de no gastar en otras cosas que valoran, como buscar subvenciones o tratar de publicar tantos documentos como pueda en los medios más prestigiosos disponibles.

Explosm.net
"Si eres tan inteligente, ¿cómo es que no eres rico?"
Fuente: Explosm.net

Y mi método de evaluación implica bastante tiempo. Cuando cada examen dura de 5 a 10 minutos para calificar y hacer comentarios y está mirando una clase de alrededor de 100 estudiantes, algunas matemáticas rápidas le dicen que cada ronda de calificación tomará aproximadamente de 8 a 16 horas. Por el contrario, podría ofrecer a mis alumnos una prueba de opción múltiple que podría calificarse de manera casi automática, reduciendo mi inversión de tiempo a solo unos minutos. En el transcurso de un semestre, entonces, podría dedicar de 24 a 48 horas a ayudar a los estudiantes a aprender (en tres pruebas) o en su lugar podría proporcionar calificaciones para ellos en aproximadamente 15 minutos usando otros métodos. Por lo que cualquier miembro de un comité de contratación podrá decir, esas dos opciones son efectivamente equivalentes. Claro, uno ayuda a los estudiantes a aprender mejor, pero ser bueno para lograr que los estudiantes aprendan no está exactamente incentivado a nivel profesional . Esas 24 a 48 horas podrían haberse gastado buscando fondos de becas o escribiendo documentos y, lo que es más importante, eso es por cada 100 estudiantes; si estás enseñando tres o más clases por semestre, ese número aumenta.

Estos incentivos no solo se extienden a las pruebas y calificaciones. Si los comités de contratación no están tan preocupados por los resultados de aprendizaje de mis estudiantes, eso tiene implicaciones en cuanto a cuánto tiempo debería dedicarme a diseñar el material de mi clase. Digamos que me enfrenté a la tarea de enseñar a mis alumnos información con la que no estaba muy familiarizado, ya sea el tema de la clase como un todo o una pieza de información novedosa dentro de ese tema que, de otro modo, sería familiar. Podría tomar la ruta que consume mucho tiempo y familiarizarme con la información primero, buscar fuentes primarias relevantes, leerlas en profundidad, evaluar sus fortalezas y debilidades, así como buscar investigaciones de seguimiento sobre el asunto. También podría tomar la ruta rápida y simplemente leer la sección de resumen / discusión del documento o simplemente informar sobre el resumen de la investigación provista por escritores de libros de texto o materiales del editor.

Si su objetivo es preparar aproximadamente 12 semanas de material de clase, está bastante claro qué método ahorra más tiempo. Si no se incentivan adecuadamente los cursos bien investigados y llenos de información en los que es experto, ¿por qué esperaríamos que los profesores siguieran el último camino? Orgullo, tal vez, muchos profesores quieren ser buenos en su trabajo y útiles para sus estudiantes, pero parece que hay otros incentivos que impiden dedicar tiempo a la educación de calidad si uno busca hacerse una atractiva contratación *. He escuchado la enseñanza referida como una distracción por parte de más de un instructor, lo que sugiere fuertemente dónde perciben que existen incentivos.

Las implicaciones de estas preocupaciones sobre los incentivos van más allá de cualquier frustración personal que pueda tener y están comenzando a tener una mayor participación en el centro de atención. Uno de los eventos más recientes que destacó este tema fue la llamada crisis de replicación, donde muchos hallazgos publicados no aparecieron nuevamente cuando los equipos de investigación independientes los buscaron. Esta tampoco era una minoría apreciable; en psicología era más del 50% de ellos. Hay pocas dudas de que una buena parte de este estado de cosas se debe a que los investigadores utilizan deliberadamente métodos cuestionables para encontrar resultados publicables, pero ¿por qué lo harían en primer lugar? ¿Por qué están tan motivados para encontrar estos resultados? De nuevo, los factores de orgullo en la ecuación pero, como suele ser el caso, otra parte de esa respuesta gira en torno a la estructura de incentivos de la academia: si los académicos son juzgados, contratados, promovidos y financiados por su capacidad de publicar resultados, entonces son incentivados publicar tantos de esos resultados como sea posible, incluso si los resultados en sí mismos no son particularmente confiables (también se los desincentiva de intentar publicar resultados negativos, en muchos casos, lo que causa otros problemas).

Un nuevo documento ha estado circulando sobre estos incentivos en la academia (Edwards y Roy, 2017), que comienza con una premisa simple: los investigadores académicos son humanos. Al igual que otros humanos, tendemos a responder a incentivos particulares. Si bien las estructuras de incentivos dentro de la academia podrían haber sido creadas con buenas intenciones en mente, siempre hay una amenaza inminente de la ley de consecuencias involuntarias. En este caso, esas consecuencias involuntarias como la llamada ley de Goodhart, que pueden expresarse como tales: " Cualquier regularidad estadística observada tenderá a colapsar una vez que se ejerza presión sobre ella para fines de control ", o " cuando una medida se convierta en objetivo" , deja de ser una buena medida . "En esencia, esta idea significa que las personas seguirán la letra de la ley, en lugar del espíritu.

Flickr/alan schoolar
Fuente: Flickr / alan schoolar

Poniendo eso en un ejemplo académico, una universidad puede querer contratar profesores inteligentes y perspicaces. Sin embargo, la evaluación de la inteligencia y la comprensión son difíciles de hacer, por lo que, en lugar de evaluar esos rasgos, la universidad evalúa las medidas de proxy de ellos; algo que tiende a asociarse con la inteligencia y la perspicacia, pero no es en sí mismo ninguna de esas cosas. En este caso, se puede notar que los profesores inteligentes y perspicaces tienden a publicar más trabajos que sus compañeros. Debido a que la cantidad de documentos que publica es mucho más fácil de medir, la universidad simplemente mide esa variable en lugar de determinar a quién contratar y promover. Si bien los registros de publicación son inicialmente buenos predictores del desempeño, una vez que se convierten en el objetivo de la evaluación, esa correlación comienza a disminuir. A medida que los documentos de publicación en sí se convirtieron en el comportamiento objetivo al que se evalúa a las personas, comienzan a maximizar esa variable en lugar de lo que se pretendía medir en primer lugar . En lugar de publicar menos documentos de calidad llenos de perspicacia, publican muchos artículos que hacen un trabajo peor al ayudarnos a comprender el mundo.

En la misma línea, las calificaciones de los estudiantes en una prueba estandarizada pueden ser una buena medida de la efectividad de un maestro; los maestros más efectivos tienden a producir estudiantes que aprenden más y, posteriormente, obtienen mejores resultados en la prueba. Sin embargo, si a los profesores pobres se les penaliza y se les ordena que mejoren su rendimiento o encuentren un nuevo trabajo, los profesores podrían intentar jugar con el sistema. Ahora, en lugar de enseñar a sus alumnos sobre una materia de una manera holística que da como resultado un aprendizaje real, simplemente comienzan a enseñar a la prueba. En lugar de que se les enseñe, digamos, química, los estudiantes comienzan a aprender a tomar una prueba de química , y los dos definitivamente no son lo mismo. Siempre que los maestros solo sean evaluados en las calificaciones de sus estudiantes que rinden esos exámenes, esta es la estructura de incentivos que termina por crearse.

Flickr/biologycorner
Fuente: Flickr / biologycorner

Más allá de solo impactar la cantidad de documentos que los académicos podrían publicar, se discuten otras posibles consecuencias no intencionales de las estructuras de incentivos. Uno de los cuales implica medidas de la calidad del trabajo publicado. Podríamos esperar que los artículos teórica y empíricamente significativos reciban más citas que un trabajo más débil. Sin embargo, debido a que la importancia de un artículo no se puede evaluar directamente, consideramos las medidas de proxy, como el recuento de citas (con qué frecuencia un artículo es citado por otros artículos o autores). ¿La consecuencia? Las personas que citan su propio trabajo con más frecuencia y los revisores que solicitan su trabajo son citados por personas que buscan publicar en el campo. El número de citas inútiles está inflado. También hay incentivos para publicar en revistas "buenas" o prestigiosas; aquellos que se piensa que publican preferentemente un trabajo significativo. De nuevo, no podemos simplemente evaluar qué tan "buena" es una revista, entonces usamos otras métricas, como la frecuencia con la que se citan los artículos de esa revista. El resultado neto aquí es muy similar, donde las revistas preferirían publicar artículos que citan documentos que han publicado previamente. Yendo un paso más allá, cuando las universidades se clasifican en ciertas métricas, se les incentiva a jugar esas métricas o simplemente a informarlas incorrectamente. Aparentemente, varias universidades han sido atrapadas solo en ese frente para subir su clasificación, mientras que otras pueden mejorar sus clasificaciones sin realmente mejorar su institución.

Hay muchos ejemplos de este tipo que podríamos ejecutar (y recomiendo que revises el documento en sí por ese mismo motivo), pero el punto más importante sobre el que quería hablar es qué significa todo esto en una escala más amplia. En la medida en que aquellos que estén más dispuestos a engañar al sistema sean recompensados ​​por su comportamiento, aquellos que estén menos dispuestos a hacer trampas serán eliminados, y allí tenemos un problema real en nuestras manos. Para tener una perspectiva, Fanelli (2009) informa que el 2% de los científicos admite que fabrica datos y el 10% informa que realiza prácticas menos explícitas, pero aún cuestionables, en promedio; también informa que cuando se les pregunta si conocen algún caso de sus compañeros que hagan tales cosas , esas cifras rondan el 14% y el 30%, respectivamente. Si bien esos números no son fáciles de interpretar (es posible que algunas personas engañen mucho, varias personas conocen los mismos casos, o que uno podría estar dispuesto a hacer trampa si se presenta la oportunidad, incluso si aún no lo ha hecho, por ejemplo ), deben tomarse muy en serio como motivo de preocupación.

(También vale la pena señalar que Edwards y Roy informan erróneamente los hallazgos de Fanelli citando sus límites superiores como si fueran el promedio, lo que hace que el problema de mala conducta académica parezca lo peor posible. Esto es solo un error, pero resalta la posibilidad Es probable que los errores también sigan a la estructura de incentivos, no solo a las trampas. Del mismo modo que los investigadores tienen incentivos para exagerar sus propios hallazgos, también tienen incentivos para exagerar los hallazgos de otros para ayudar a expresar sus puntos de manera convincente.

Flickr/Jacob
Lo cual es irónico para un periódico quejándose de incentivos para exagerar los resultados.
Fuente: Flickr / Jacob

Cuando no es solo el caso de que un puñado de manzanas podridas dentro de la academia estén contribuyendo a un problema de, por ejemplo, hacer trampa con sus datos, sino una minoría apreciable de ellos, esto tiene el potencial de tener al menos dos consecuencias principales. Primero, puede alentar a más no engañadores a convertirse en tramposos. Si tuviera que observar a mis colegas engañando al sistema y obteniendo recompensas por ello, me animaría a engañarme a mí mismo solo para mantenerme al día cuando tenga oportunidades (muy) limitadas de empleo o financiación. Parallels puede ser atraído por el uso de esteroides en los deportes, donde aquellos que inicialmente no quieran usar esteroides pueden ser alentados si hay suficientes competidores.

La segunda consecuencia es que, a medida que más personas toman parte en ese tipo de cultura, la fe pública en las universidades, y tal vez en la investigación científica en general, se erosiona. Con la erosión de la fe pública se reduce la financiación y el escepticismo hacia los resultados de la investigación; Ambas respuestas están justificadas (¿por qué financiarías a investigadores en los que no puedes confiar?) y preocupantes, ya que hay problemas importantes que la investigación puede ayudar a resolver, pero solo si las personas están dispuestas a escuchar.

* Para ser justos, no es que mi capacidad como docente sea completamente irrelevante para los comités de contratación; es que esta capacidad no solo es secundaria a otras inquietudes (es decir, que mi capacidad docente solo se puede ver después de reducir la búsqueda mediante fondos y publicaciones), pero mi capacidad docente en sí misma no se evalúa en realidad. Lo que se evalúa son las evaluaciones de mis alumnos y eso definitivamente no es lo mismo.

Referencias

Edwards, M. & Roy, S. (2017). Investigación académica en el siglo XXI: mantenimiento de la integridad científica en un clima de incentivos perversos e hipercompetición. Environmental Engineering Science, 34, 51-61.

Fanelli, D. (2009). ¿Cuántos científicos fabrican y falsifican investigaciones? Una revisión sistemática y metaanálisis de datos de encuestas. Más uno. 4, e5738