Busca y encontrarás: ¿Cómo se relaciona la imprevisibilidad con la exploración?

Hace un tiempo, escribí una publicación sobre la imprevisibilidad en el comportamiento humano. Discutí el concepto de coincidencia de probabilidad en la elección. Un simple caso de coincidencia de probabilidad es uno en el que se le da la opción de elegir entre dos tazas, de las cuales solo una tendrá un M & M. Si el M & M está en la taza izquierda el 80% del tiempo, y la copa correcta el 20% del tiempo, puede maximizar la cantidad de M & M que probablemente recibirá al seleccionar siempre la copa izquierda. De esta forma, obtendrás M & Ms el 80% del tiempo. Las personas (y la mayoría de los otros animales) tienden a no hacer esta respuesta óptima. En cambio, tendemos a emparejar la probabilidad. Es decir, si la taza izquierda tiene el M & M el 80% del tiempo, entonces escogemos la copa izquierda el 80% del tiempo.

Hay muchas razones por las que llevamos a cabo este comportamiento, y un documento de Wolfgang Gaissmaier y Lael Schooler en la edición de diciembre de 2008 de Cognition sugiere una nueva razón. Encuentran que las personas que tienden a igualar la probabilidad son más capaces de detectar cambios en el entorno que las personas que encuentran la opción más altamente recompensada y la siguen.

Una forma de pensar sobre esto es que siempre hay una compensación entre explorar el mundo y explotarlo. La exploración es el proceso de búsqueda de cosas nuevas. El beneficio potencial de la exploración es que puede descubrir nuevas fuentes de recompensa. El peligro de la exploración es que puede gastar mucho tiempo y energía y venir con las manos vacías. La explotación es el proceso de extraer recompensas del mundo en lugares conocidos. El beneficio de la explotación es que tiene una buena idea de lo que va a obtener. El peligro es que puede perder otras oportunidades que son más gratificantes que la que está explotando actualmente.

Este intercambio de explotación de exploración ocurre en casi todas las facetas de nuestras vidas. Si ves el mismo programa de televisión de manera rutinaria, estás explotando ese programa. Si muestras diferentes restaurantes en la ciudad donde vives, estás explorando. Si tocas un instrumento musical y te apegas al mismo conjunto de canciones que ya aprendiste, estás explotando. Si programa sus vacaciones deliberadamente para que siempre visite lugares nuevos, está explorando.

Siempre ha sido un tanto desconcertante que la gente siguiera explorando en experimentos que demostraban la coincidencia de probabilidades. El comportamiento óptimo es explotar la opción que vale la pena más a menudo. Y estrictamente dentro del contexto del experimento, es cierto que explotar la mejor opción en el estudio es lo mejor que se puede hacer. Sin embargo, el mundo es dinámico. Las cosas en el mundo cambian. Un restaurante que solía ser terrible podría tener un nuevo chef y de repente ser excelente. Un programa de televisión que comenzó con tendencias radicales puede caer en la mediocridad.

Si evalúa el mundo de una vez y luego explota después de eso, corre el riesgo de perder cambios en el mundo. El sistema cognitivo está estructurado para encontrar una forma razonable de resolver el compromiso entre la exploración y la explotación. Si hay una opción que es muy superior a todas las otras, entonces tenderá a elegirla la mayor parte del tiempo y seleccionar otras opciones de vez en cuando, solo para asegurarse de que el mundo no haya cambiado radicalmente. Si una opción es solo ligeramente mejor que otra, entonces muestre la mejor opción solo un poco más a menudo que la peor. Ese comportamiento es útil, porque una pequeña disminución en la calidad de la mejor opción (o un aumento en la calidad de la peor opción) podría cambiar la bondad relativa de las opciones. Y porque está haciendo un buen trabajo gestionando la compensación entre exploración y explotación, lo notará. Entonces, la imprevisibilidad del comportamiento humano realmente es una virtud.