Donde el condicionamiento operante salió mal

El condicionamiento operante es el nombre de BF Skinner para el aprendizaje instrumental: aprender por las consecuencias. No es una idea nueva, por supuesto. La humanidad siempre ha sabido cómo enseñar a los niños y los animales por medio de la recompensa y el castigo. Lo que le dio la etiqueta a Skinner fue su invención de un método brillante para estudiar este tipo de aprendizaje en organismos individuales. La caja Skinner y la grabadora acumulativa eran un dúo invencible.

JS image
Fuente: imagen JS

El condicionamiento operante avanzó rápidamente al principio. El descubrimiento de los horarios de refuerzo reveló regularidades insospechadas. Cada nuevo cronograma de refuerzo produjo un nuevo patrón de registro acumulativo: el "intervalo" de intervalo fijo, la respuesta constante en el intervalo variable y el break-and-run en los programas de relación fija. Los patrones eran confiables y podrían recuperarse después de que el organismo cambiara a un nuevo procedimiento. Los datos permitieron la explotación total del método experimental dentro del organismo: la comparación del comportamiento de un solo animal expuesto de forma reversible a dos procedimientos diferentes, en lugar de comparar dos grupos de animales. Los resultados grupales se aplican a grupos; pueden o no pueden aplicarse a las personas que componen un grupo. En 2016, el 52% de los británicos aprobó Brexit; pero cada individuo fue 100% por o 100% en contra. Con demasiada frecuencia, los investigadores asumieron que los datos del grupo que mostraban una curva de aprendizaje suave significaban que los sujetos individuales también aprenden gradualmente. Ellos no.

El siguiente paso natural habría sido desentrañar los procesos detrás del orden revelado por los registros acumulativos. ¿Qué está pasando en esta interacción entre el procedimiento del cronograma y el organismo individual que da lugar a estas llamativas regularidades? En otras palabras, ¿qué está aprendiendo el organismo y cómo está aprendiendo? ¿Cuál es el proceso?

El campo no dio este paso. En esta nota intentaré y explicaré por qué.

Tres cosas han impedido que el condicionamiento operante se desarrolle como ciencia: una limitación del método, sobrevaloración del orden y desconfianza de la teoría.

El método. El registro acumulativo fue un descubrimiento fantástico en un aspecto: permitió estudiar el comportamiento de un solo animal en tiempo real. Hasta Skinner, los datos de la psicología animal consistían en gran medida en promedios grupales: cuántos animales del grupo X o Y giraban hacia la izquierda y hacia la derecha en el laberinto, por ejemplo. No solo se perdieron animales individuales en el grupo, también lo fueron los tiempos reales: ¿cuánto tiempo tardó la rata en el laberinto para decidir qué tan rápido corría? ¿Qué exploró antes de decidir?

Pero la configuración de Skinner-box también está limitada: a una o a algunas respuestas predefinidas y a cambios en su tasa de incidencia. De hecho, el condicionamiento operante implica la selección de un repertorio de actividades: el período de prueba de prueba y error. El método de Skinner-box fomenta el estudio de solo una o dos respuestas ya aprendidas. Del repertorio, ese conjunto de posibles respuestas emitidas (en palabras de Skinner) "por otras razones" -de todos los posibles modos de comportamiento que acechan por debajo del umbral pero disponibles para ser seleccionados- de esas respuestas encubiertas , tan esenciales para el aprendizaje instrumental, hay sin mención.

Demasiado orden? El segundo problema es un respeto no examinado por datos ordenados: curvas suaves que pueden medir propiedades de comportamiento simples y ateóricas. Fred Skinner citaba con frecuencia a Pavlov: "controla tus condiciones y verás orden". ¿Pero orden en qué? ¿Vale la pena conseguir cualquier orden? ¿O hay algunos resultados ordenados quizás más informativos que otros?

La forma más fácil de obtener el orden, para reducir la variación, es tomar un promedio . Los experimentos Skinnerian involucran animales individuales, por lo que el método desalienta el promedio entre animales. Pero, ¿por qué no promediar todos esos picotazos o prensas de palanca? El mismo Skinner parecía proporcionar una razón de ser. En una de sus pocas excursiones teóricas, propuso que las respuestas tienen una fuerza equivalente a la probabilidad de respuesta . Nunca justificó realmente la idea, pero es tan plausible que parece que se necesita poca justificación.

El siguiente paso fue crucial: ¿cómo medir la probabilidad de respuesta? La tasa de respuesta es un candidato obvio. Pero los registros acumulativos muestran que la tasa de respuesta varía de momento a momento en la mayoría de los programas de refuerzo. En el intervalo fijo, por ejemplo, los sujetos dejan de responder inmediatamente después de cada refuerzo y luego aceleran lentamente hasta un máximo cuando se acerca el siguiente refuerzo. Un horario de intervalo fijo (FI) arregla que la primera respuesta después de un tiempo fijo, llámela I , se refuerza. El tiempo posterior al refuerzo es una indicación confiable de cuándo estará disponible la próxima recompensa. Los organismos se adaptan en consecuencia, esperando una fracción fija de tiempo antes de comenzar a responder.

Pero en otro horario, intervalo variable (VI), el tiempo es variable. Si es completamente aleatorio de momento a momento y el organismo responde a un ritmo constante, el tiempo de reincorporación no brinda información sobre la probabilidad de que la próxima respuesta sea recompensada. Los organismos se adaptan a la falta de información respondiendo a una tasa invariable en horarios de intervalo variable. Esta propiedad de VI lo convirtió en una herramienta obvia. La tasa de respuesta constante que produce parece proporcionar una manera simple de medir la fuerza de respuesta de Skinner. Por lo tanto, el dato más ampliamente utilizado en la psicología operante es la tasa de respuesta sostenida por un programa VI. La frecuencia se mide generalmente por la cantidad de respuestas que ocurren en un período de minutos u horas.

Otra forma de reducir la variabilidad es la retroalimentación negativa. Un sistema de climatización controlado termostáticamente se calienta cuando la temperatura interior cae por debajo de un nivel preestablecido, y se enfría cuando se eleva por encima. De esta forma, reduce la variación en la temperatura de la casa que de otro modo ocurriría a medida que la temperatura exterior varía. Cualquier tipo de retroalimentación negativa reducirá la variación en la variable controlada. Desafortunadamente, cuanto más efectiva sea la retroalimentación, menor será la variación en la variable dependiente y menor podremos aprender sobre el mecanismo de retroalimentación en sí mismo. Un proceso de retroalimentación negativa perfecto es invisible.

El condicionamiento operante, por definición, involucra retroalimentación ya que la recompensa recibida depende de las respuestas hechas. Cuanto más responda el organismo, más recompensa obtendrá, sujeto a las restricciones de cualquier programa de refuerzo que esté en vigor. Esta es una retroalimentación positiva. Pero el procedimiento de elección operante más estudiado, el programa de intervalo variable concurrente, también involucra retroalimentación negativa . Cuando la elección es entre dos programas de intervalos variables, cuanto más tiempo se gasta en una elección, mayor es la probabilidad de pago para cambiar a la otra. Así que no importa la diferencia en las tasas de pago de las opciones, el organismo nunca se fijará en una sola. El resultado es una relación muy regular entre la preferencia de elección y el pago relativo: la ley de concordancia . (Para la historia técnica completa, echa un vistazo a Adaptive Behavior and Learning, 2016)

A medida que avanzó la tecnología, estas dos cosas convergieron: el deseo de orden, habilitado por el promedio y la retroalimentación negativa, y la idea de Skinner de que la probabilidad de respuesta es una variable dependiente apropiada y apropiada. Los programas de intervalos variables, ya sea en forma individual o en situaciones de dos opciones, se convirtieron en una especie de dispositivo de medición. La tasa de respuesta en VI es estable: sin esperas, pausas o picos repentinos. Parecía ofrecer una forma simple y directa de medir la probabilidad de respuesta. Desde la tasa de respuesta como la probabilidad de respuesta a la idea teórica de la tasa como algo equivalente a la fuerza de respuesta fue un pequeño paso. Por lo tanto, la ley de correspondencia pasó a ser considerada como un principio general. Los investigadores comenzaron a verlo como subyacente no solo en la elección de los animales, sino también en el comportamiento de elección de los seres humanos en situaciones de la vida real.

La fuerza de respuesta de la teoría es una construcción teórica. Va más allá de la tasa de respuesta o, de hecho, de cualquier otra cantidad directamente medible. Desafortunadamente, la mayoría de las personas piensan que saben lo que quieren decir con "fuerza". La tradición skinneriana hizo difícil ver que se necesita más.

Un estudio histórico de 1961 de George Reynolds ilustra el problema (aunque George nunca lo vio de esta manera). Aquí hay una versión simplificada: imagine dos condiciones experimentales y dos palomas idénticas. Cada condición se ejecuta para varias sesiones diarias. En la condición A, la paloma A picotea una llave roja para la recompensa de comida entregada en un horario de VI 30-s. En la Condición B, la paloma B picotea una llave verde para recompensa de comida entregada en un horario de VI 15-s. Debido a que ambas tasas de alimentos son relativamente altas, después de una exposición prolongada al procedimiento, las palomas estarán picoteando a una tasa alta en ambos casos: las tasas de respuesta, de ahí las "fortalezas", serán aproximadamente las mismas. Ahora cambie el procedimiento para ambas palomas. En lugar de un solo horario, se alternan dos horarios, por un minuto cada uno, en una sesión experimental de una hora. El segundo horario agregado es el mismo para ambas palomas: VI 15 s, señalado con una tecla amarilla (alternar dos horarios señalados de esta manera se denomina programa múltiple). Por lo tanto, la paloma A se encuentra en un mult VI 30 VI 15 (estímulos rojo y amarillo) y la paloma B en un mult VI 15 VI 15 (estímulos verde y amarillo). En resumen, las dos condiciones experimentales son (colores de estímulo en ()):

Experimento A: VI 30 (rojo); mult VI 30 (rojo) VI 15 (amarillo)

Experimento B: VI 15 (verde); mult VI 15 (verde) VI 15 (amarillo)

Ahora mira la segunda condición para cada paloma. Como era de esperar, la tasa de respuesta de B en verde no cambiará. Todo lo que ha cambiado para él es el color clave, desde verde todo el tiempo hasta verde y amarillo alternando, ambos con la misma recompensa. Pero la tasa de respuesta de A en rojo, el estímulo VI 30, estará muy deprimida, y la tasa de respuesta en amarillo para A será considerablemente más alta que la tasa de respuesta amarilla de B, aunque el calendario de VI 15 es el mismo en ambos. El efecto de responder en el estímulo amarillo por paloma A, un aumento en la tasa de respuesta cuando un horario dado se alternó con uno más delgado, se llama contraste conductual positivo y la disminución de velocidad en el programa más magro para paloma A es un contraste negativo.

La respuesta de And B en presencia de los estímulos rojo y verde en la primera condición es muy similar y también debería ser la fuerza de las dos respuestas. Pero el efecto muy diferente de agregar el estímulo amarillo alternativo, pagado en el horario más rico, en los dos animales en la segunda condición muestra que no es así.

El consenso de que la tasa de respuesta es una medida adecuada de la "fuerza" de una respuesta operante es incorrecta. La tasa constante mantenida por los esquemas de IP es engañosa. Parece una simple medida de fuerza. Debido al énfasis de Skinner en el orden, debido a que el cronograma de intervalo variable concurrente de respuesta promedio y rico en retroalimentación parecía proporcionarlo y porque era fácil equiparar la probabilidad de respuesta con la tasa de respuesta, la idea echó raíces. Sin embargo, incluso en la década de 1950, era bien sabido que la tasa de respuesta por sí misma podía ser manipulada, por ejemplo, mediante los llamados programas de refuerzo diferencial de baja tasa (DRL).

Conclusión Dos factores -el método de un solo organismo de Skinner y el deseo de orden- conspiraron para dar a la tasa de respuesta un papel principal en el condicionamiento operante. Se supuso que la tasa era una medida de la fuerza de respuesta. Pero un tercer factor, el desdén por la teoría, significaba que este vínculo nunca fue muy analizado. Por supuesto, es falso: la tasa de respuesta no es igual a la fuerza de respuesta. De hecho, el concepto de fuerza en sí mismo está mal definido. Por lo tanto, el énfasis del campo en la tasa de respuesta como la variable dependiente es probablemente un error. Si la idea de la fuerza es sobrevivir a la desaparición de la velocidad como su mejor medida, se necesita algo más: una teoría sobre los factores que controlan una respuesta operante. Pero debido a que Skinner había proclamado exitosamente que las teorías del aprendizaje no son necesarias , una teoría adecuada no apareció por muchos años (ver The New Behaviorism, 2014, para más información sobre la historia de la teoría Skinnerian).