Pensamiento crítico sobre la medición del pensamiento crítico

Una lista de medidas de pensamiento crítico.

En mi última publicación, discutí la naturaleza de involucrarme en el proceso de pensamiento crítico (CT) y mencioné a las personas que sacan una conclusión y terminan siendo correctas. Pero, solo porque tienen razón, no significa que usaron la TC para llegar allí. Lo ejemplifiqué a través de una observación realizada en los últimos años con respecto a las medidas existentes de TC, muchas de las cuales evalúan la TC mediante preguntas de opción múltiple. En el caso de CT MCQ, puede adivinar la respuesta “correcta” 20-25% del tiempo, sin necesidad de CT. Entonces, la pregunta es, ¿estas medidas de CT realmente están midiendo CT?

Como lo explicaron mis artículos anteriores, CT es un proceso metacognitivo que consiste en una serie de subcapacidades y disposiciones que, cuando se aplican a través de un juicio reflexivo, autorregulador y con propósito, aumentan las posibilidades de producir una solución lógica a un problema o una validez conclusión de un argumento (Dwyer, 2017; Dwyer, Hogan y Stewart, 2014). La mayoría de las definiciones, aunque expresadas de manera diferente, tienden a estar de acuerdo con esta perspectiva: consiste en ciertas disposiciones, habilidades específicas y una sensibilidad reflexiva que rige la aplicación de estas habilidades. Así es como está definido; sin embargo, no es necesariamente cómo se ha definido operativamente .

Definir operacionalmente algo se refiere a definir los términos del proceso o medida requerida para determinar la naturaleza y las propiedades de un fenómeno. Simplemente, define el concepto con respecto a cómo se puede hacer, evaluar o medir. Si la manera en que mides algo no concuerda, o evalúas los parámetros establecidos en la forma en que la defines, entonces no has tenido éxito en definirla operativamente .

Aunque la mayoría de las definiciones teóricas de CT son similares, la manera en que varían a menudo impide la construcción de una explicación teórica integrada sobre la mejor manera de medir las habilidades de CT. Como resultado, los investigadores y educadores deben considerar la amplia gama de medidas de CT disponibles, con el fin de identificar las mejores y más adecuadas medidas, basadas en la conceptualización de TC utilizada para la capacitación. Existen varias medidas de CT existentes, las más populares entre ellas incluyen la Evaluación de pensamiento crítico de Watson-Glaser (WGCTA, Watson y Glaser, 1980), la Prueba de pensamiento crítico de Cornell (CCTT, Ennis, Millman y Tomko, 1985), la crítica de California. Thinking Skills Test (CCTST; Facione, 1990a), el Ennis-Weir Critical Thinking Essay Test (EWCTET; Ennis y Weir, 1985) y el Halpern Critical Thinking Assessment (Halpern, 2010).

Algunos comentaristas han notado que estas diferentes medidas de la capacidad de CT pueden no ser directamente comparables (Abrami et al., 2008). Por ejemplo, el WGCTA consta de 80 MCQ que miden la capacidad de sacar inferencias; reconocer suposiciones; evaluar argumentos; y usan la interpretación lógica y el razonamiento deductivo (Watson y Glaser, 1980). El CCTT consta de 52 MCQ que miden las habilidades del pensamiento crítico asociado con la inducción; deducción; observación y credibilidad; definición e identificación de supuestos; y significado y falacias. Finalmente, el CCTST consiste en 34 preguntas de opción múltiple (MCQ) y mide el CT según las habilidades básicas de análisis, evaluación e inferencia, así como el razonamiento inductivo y deductivo.

Como se mencionó anteriormente, el formato MCQ de estas tres evaluaciones es menos que ideal, incluso problemático, porque les permite a los examinadores simplemente adivinar cuándo no conocen la respuesta correcta, en lugar de demostrar su capacidad para analizar críticamente y evaluar problemas y inferir soluciones a esos problemas (Ku, 2009). Además, como argumenta Halpern (2003), el formato MCQ hace que la evaluación sea una prueba de conocimiento verbal y cuantitativo en lugar de CT (es decir, porque se selecciona de una lista de posibles respuestas en lugar de determinar los propios criterios para desarrollar una respuesta). La medición de CT a través de MCQ también es problemática dada la posible incompatibilidad entre la conceptualización de CT que da forma a la construcción de prueba y su evaluación utilizando MCQ. Es decir, las pruebas de MCQ evalúan las capacidades cognitivas asociadas con la identificación de respuestas únicas correctas o incorrectas y, como resultado, este enfoque de las pruebas no puede proporcionar una medida directa del uso de procesos metacognitivos por parte de los candidatos, como el juicio reflexivo, y disposición hacia CT.

En lugar de usar elementos MCQ, una mejor medida de CT podría hacer preguntas abiertas, lo que les permitiría a los examinados demostrar si usan espontáneamente o no una habilidad CT específica. Una evaluación comúnmente utilizada de CT, mencionada anteriormente, que emplea un formato abierto es la prueba de Ensayo de pensamiento crítico Ennis-Weir (EWCTET, Ennis y Weir, 1985). El EWCTET es una evaluación basada en ensayos de la capacidad del examinado para analizar, evaluar y responder a argumentos y debates en situaciones del mundo real (Ennis y Weir, 1985; ver Ku, 2009 para una discusión). Los autores de la EWCTET brindan lo que llaman una “lista aproximada, un tanto superpuesta de áreas de competencia de pensamiento crítico”, medida por su prueba (Ennis y Weir, 1985, p.1). Sin embargo, esta prueba también ha sido criticada por su naturaleza específica de dominio (Taube, 1997), la subjetividad de su protocolo de puntuación y su parcialidad a favor de los que dominan la escritura (Adams, Whitlow, Stover & Johnson, 1996). .

Otra evaluación CT más reciente que utiliza un formato abierto es la Evaluación de pensamiento crítico de Halpern (HCTA, Halpern, 2010). El HCTA consta de 25 preguntas abiertas basadas en situaciones creíbles y cotidianas, seguidas de 25 preguntas específicas que investigan el razonamiento detrás de cada respuesta. La naturaleza de varias partes de las preguntas permite evaluar la capacidad de usar habilidades específicas de TC cuando se proporciona el aviso (Ku, 2009). El protocolo de puntuación de la HCTA también proporciona instrucciones comprensibles e inequívocas sobre cómo evaluar las respuestas dividiéndolas en componentes claros y mensurables. Las preguntas sobre el HCTA representan cinco categorías de aplicación de CT: comprobación de hipótesis (por ejemplo, comprensión de los límites del razonamiento correlacional y cómo saber cuándo no se pueden hacer afirmaciones causales), razonamiento verbal (por ejemplo, reconocimiento del uso de lenguaje generalizado o engañoso), argumentación (p. Ej. reconocer la estructura de los argumentos, cómo examinar la credibilidad de una fuente y cómo juzgar los propios argumentos), juzgar la probabilidad e incertidumbre (por ejemplo, aplicar principios relevantes de probabilidad, cómo evitar el exceso de confianza en ciertas situaciones) y resolver problemas (por ejemplo, identificar el objetivo del problema, generar y seleccionar soluciones entre alternativas).

Hasta el desarrollo de la HCTA, habría recomendado el CCTST para medir la TC, a pesar de sus limitaciones. Lo bueno de CCTST es que evalúa las tres habilidades básicas de CT: análisis, evaluación e inferencia, que otras escalas no (explícitamente). Por lo tanto, si estuviera interesado en evaluar la capacidad de subcapacidades de los estudiantes, sería útil. Sin embargo, como sabemos, aunque el rendimiento de la habilidad de CT es una secuencia, también es una recopilación de estas habilidades, lo que significa que para cualquier problema o tema determinado, cada habilidad es necesaria. Al administrar un problema de análisis, un problema de evaluación y un problema de inferencia, en el que el alumno obtiene las mejores notas en los tres, no garantiza que el alumno aplique estos tres a un problema más amplio que requiera los tres. Es decir, estas preguntas no miden la capacidad de habilidad de CT per se, sino la habilidad de análisis, la habilidad de evaluación y la habilidad de inferencia de forma aislada. Simplemente, los puntajes pueden predecir el rendimiento de las habilidades de CT, pero no lo miden.

Lo que puede ser un mejor indicador del rendimiento de la TC es la evaluación de la aplicación de la TC. Como se mencionó anteriormente, hay cinco aplicaciones generales de CT: pruebas de hipótesis, razonamiento verbal, argumentación, resolución de problemas y juicio de verosimilitud e incertidumbre, todas las cuales requieren una recopilación de análisis, evaluación e inferencia. Aunque las subcapacidades de análisis, evaluación e inferencia no se miden directamente en este caso, su colación se mide a través de cinco aplicaciones distintas; y, como lo veo, proporciona una evaluación “más verdadera” de CT. Además de evaluar la TC a través de un formato abierto de respuesta corta, la HCTA mide la TC de acuerdo con las cinco aplicaciones de la TC; por lo tanto, recomiendo su uso para medir CT.

Sin embargo, eso no quiere decir que el HCTA sea perfecto. Aunque consta de 25 preguntas abiertas, seguidas de 25 preguntas específicas que investigan el razonamiento detrás de cada respuesta, cuando lo utilicé por primera vez para evaluar una muestra de estudiantes, descubrí que al configurar mi archivo de datos, en realidad había 165 oportunidades para calificar a través de la prueba. Investigaciones anteriores recomiendan que la evaluación tome aproximadamente entre 45 y 60 minutos para completarse. Sin embargo, muchos de mis participantes informaron que requería más de dos horas (a veces más). Es una evaluación larga, completa, pero larga. Afortunadamente, ahora hay disponibles versiones adaptadas y abreviadas, y es una versión adaptada que administro actualmente para evaluar CT. Otra limitación es que, a pesar del razonamiento anterior, sería bueno tener algún indicio de cómo los participantes continúan con las subcapacidades de análisis, evaluación e inferencia, ya que creo que hay un elemento predictivo potencial en la relación entre los habilidades individuales y las aplicaciones. Con eso, supongo que es factible administrar tanto el HCTA como el CCTST para evaluar tales hipótesis.

Aunque obviamente es importante considerar cómo las evaluaciones realmente miden la TC y la naturaleza en la que cada una es limitada, el macroproblema más amplio aún requiere reflexión. Así como las conceptualizaciones de la TC varían, también lo hace la fiabilidad y validez de las diferentes medidas de TC, lo que ha llevado a Abrami y colegas (2008, p.1104) a preguntar: “¿Cómo sabremos si una intervención es más beneficiosa que otra si “Abrami y sus colegas añaden que, incluso cuando los investigadores declaran explícitamente que están evaluando la TC, sigue existiendo el gran desafío de garantizar que los resultados medidos estén relacionados, de alguna manera significativa, con la incertidumbre sobre la validez y confiabilidad de las medidas de resultado”. a la conceptualización y definición operativa de TC que informaron la práctica docente en casos de investigación intervencionista. A menudo, la relación entre los conceptos de TC que se enseñan y los que se evalúan no está clara, y una gran mayoría de los estudios en esta área no incluyen ninguna teoría para ayudar a dilucidar estas relaciones.

En conclusión, resolver el problema de la coherencia a través de la conceptualización, capacitación y medida de CT no es una tarea fácil. Creo que los avances recientes en el desarrollo de la escala CT (por ejemplo, el desarrollo de la HCTA y sus versiones adaptadas) han aliviado el problema, dado que ahora cubren la brecha entre la teoría actual y la evaluación práctica. Sin embargo, tales avances deben hacerse más claros para las poblaciones interesadas. Como siempre, estoy muy interesado en escuchar a los lectores que puedan tener alguna idea o sugerencia.

Referencias

Abrami, PC, Bernard, RM, Borokhovski, E., Wade, A., Surkes, MA, Tamim, R., y Zhang, D. (2008). Las intervenciones educativas que afectan las habilidades y disposiciones de pensamiento crítico: un metaanálisis de etapa 1. Revisión de Educational Research, 78 (4), 1102-1134.

Adams, MH, Whitlow, JF, Stover, LM y Johnson, KW (1996). Pensamiento crítico como resultado educativo: una evaluación de las herramientas de medición actuales. Enfermera Educadora, 21, 23-32.

Dwyer, CP (2017). Pensamiento crítico: perspectivas conceptuales y pautas prácticas. Cambridge, Reino Unido: Cambridge University Press.

Dwyer, CP, Hogan, MJ y Stewart, I. (2014). Un marco de pensamiento crítico integrado para el siglo XXI. Destrezas de pensamiento y creatividad, 12, 43-52.

Ennis, RH, Millman, J., y Tomko, TN (1985). Pruebas de pensamiento crítico de Cornell. CA: Critical Thinking Co.

Ennis, RH, y Weir, E. (1985). La prueba de ensayo de pensamiento crítico Ennis-Weir. Pacific Grove, CA: Midwest Publications.

Facione, PA (1990a). Prueba de habilidades de pensamiento crítico de California (CCTST): Formularios A y B; El manual de prueba de CCTST. Millbrae, CA: prensa académica de California.

Facione, PA (1990b). El informe Delphi: Comité de filosofía preuniversitaria. Millbrae, CA: prensa académica de California.

Halpern, DF (2003b). El “cómo” y “por qué” de la evaluación del pensamiento crítico. En D. Fasko (Ed.), Pensamiento crítico y razonamiento: investigación actual, teoría y práctica. Cresskill, NJ: Hampton Press.

Halpern, DF (2010). La evaluación del pensamiento crítico de Halpern: Manual. Viena: Schuhfried.

Ku, KYL (2009). Evaluar el rendimiento del pensamiento crítico de los estudiantes: instar a las mediciones utilizando el formato de respuesta múltiple. Destrezas de pensamiento y creatividad, 4, 1, 70-76.

Taube, KT (1997). Capacidad de pensamiento crítico y disposición como factores de rendimiento en una prueba escrita de pensamiento crítico. Revista de Educación General, 46, 129-164.

Watson, G., y Glaser, EM (1980). Evaluación de pensamiento crítico de Watson-Glaser. Nueva York: Corporación Psicológica.