Teoría del refuerzo

Foto de: Gabi Moisa

La teoría del refuerzo es el proceso de moldear el comportamiento mediante el control de las consecuencias del mismo. En la teoría del refuerzo se utiliza una combinación de recompensas y/o castigos para reforzar el comportamiento deseado o extinguir el comportamiento no deseado. Cualquier comportamiento que provoque una consecuencia se denomina comportamiento operante, porque el individuo opera sobre su entorno. La teoría del refuerzo se concentra en la relación entre la conducta operante y las consecuencias asociadas, y a veces se denomina condicionamiento operante.

ANTECEDENTES Y DESARROLLO DE LA TEORÍA DEL REFUERZO

Las teorías conductuales del aprendizaje y la motivación se centran en el efecto que las consecuencias de la conducta pasada tienen sobre la conducta futura. Esto contrasta con el condicionamiento clásico, que se centra en las respuestas desencadenadas por los estímulos de forma casi automática. La teoría del refuerzo sugiere que los individuos pueden elegir entre varias respuestas a un determinado estímulo y que, por lo general, seleccionarán la respuesta que se haya asociado con resultados positivos en el pasado. E.L. Thorndike articuló esta idea en 1911, en lo que se conoce como la ley del efecto. La ley del efecto establece básicamente que, en igualdad de condiciones, las respuestas a los estímulos que van seguidas de satisfacción se verán reforzadas, pero las respuestas que van seguidas de malestar se debilitarán.

B.F. Skinner fue un contribuyente clave en el desarrollo de las ideas modernas sobre la teoría del refuerzo. Skinner argumentó que las necesidades e impulsos internos de los individuos pueden ser ignorados porque las personas aprenden a exhibir ciertos comportamientos en función de lo que les sucede como resultado de su conducta. Esta escuela de pensamiento se ha denominado escuela conductista, o conductista radical.

REFUERZO, CASTIGO Y EXTINCIÓN

El principio más importante de la teoría del refuerzo es, por supuesto, el refuerzo. En general, hay dos tipos de refuerzo: positivo y negativo. El refuerzo positivo resulta cuando la ocurrencia de una consecuencia conductual valorada tiene el efecto de fortalecer la probabilidad de que la conducta se repita. La consecuencia conductual específica se denomina reforzador. Un ejemplo de refuerzo positivo podría ser el de un vendedor que se esfuerza más para alcanzar una cuota de ventas (comportamiento) y que luego es recompensado con una bonificación (reforzador positivo). La administración del reforzador positivo debería hacer más probable que el vendedor continúe ejerciendo el esfuerzo necesario en el futuro.

El refuerzo negativo se produce cuando se retiene una consecuencia conductual no deseada, con el efecto de reforzar la probabilidad de que la conducta se repita. El refuerzo negativo se confunde a menudo con el castigo, pero no son lo mismo. El castigo intenta disminuir la probabilidad de comportamientos específicos; el refuerzo negativo intenta aumentar el comportamiento deseado. Por lo tanto, tanto el refuerzo positivo como el negativo tienen el efecto de aumentar la probabilidad de que se aprenda y se repita un comportamiento concreto. Un ejemplo de refuerzo negativo podría ser el de un vendedor que se esfuerza por aumentar las ventas en su territorio de ventas (comportamiento), al que sigue la decisión de no reasignar al vendedor a una ruta de ventas no deseada (reforzador negativo). La administración del reforzador negativo debería hacer más probable que el vendedor siga ejerciendo el esfuerzo necesario en el futuro.

Como se mencionó anteriormente, el castigo intenta disminuir la probabilidad de que se exhiban conductas específicas. El castigo es la administración de una consecuencia conductual indeseable con el fin de reducir la ocurrencia de la conducta no deseada. El castigo es una de las estrategias de la teoría del refuerzo más utilizadas, pero muchos expertos en aprendizaje sugieren que sólo debería utilizarse si no se puede utilizar el refuerzo positivo y negativo o si ha fallado previamente, debido a los efectos secundarios potencialmente negativos del castigo. Un ejemplo de castigo podría ser degradar a un empleado que no cumple con los objetivos de rendimiento o suspender a un empleado sin sueldo por violar las normas de trabajo.

La extinción es similar al castigo en el sentido de que su propósito es reducir el comportamiento no deseado. El proceso de extinción comienza cuando se retiene una consecuencia conductual valorada con el fin de disminuir la probabilidad de que un comportamiento aprendido continúe. Con el tiempo, es probable que esto resulte en el cese de ese comportamiento. La extinción puede servir alternativamente para reducir un comportamiento deseado, como cuando se deja de ofrecer un reforzador positivo cuando se produce un comportamiento deseable. Por ejemplo, si a un empleado se le elogia continuamente por la rapidez con la que termina su trabajo durante varios meses, pero no recibe ningún elogio en los meses siguientes por ese comportamiento, sus conductas deseables pueden disminuir. Por lo tanto, para evitar la extinción no deseada, los gerentes pueden tener que seguir ofreciendo consecuencias conductuales positivas.

PROGRAMAS DE REFUERZO

El calendario de las consecuencias conductuales que siguen a una determinada conducta se denomina programa de refuerzo. Básicamente, hay dos grandes tipos de horarios de refuerzo: continuo e intermitente. Si un comportamiento se refuerza cada vez que ocurre, se llama refuerzo continuo. Las investigaciones sugieren que el refuerzo continuo es la forma más rápida de establecer nuevos comportamientos o de eliminar comportamientos no deseados. Sin embargo, este tipo de refuerzo no suele ser práctico en un entorno organizativo. Por lo tanto, se suelen emplear programas intermitentes. El refuerzo intermitente significa que cada instancia de un comportamiento deseado no se refuerza. Hay al menos cuatro tipos de programas de refuerzo intermitente: intervalo fijo, proporción fija, intervalo variable y proporción variable.

Los programas de refuerzo de intervalo fijo ocurren cuando las conductas deseadas se refuerzan después de períodos de tiempo establecidos. El ejemplo más simple de un programa de intervalo fijo es un cheque de pago semanal. Un programa de refuerzo de intervalo fijo no parece ser una manera particularmente fuerte de provocar la conducta deseada, y la conducta aprendida de esta manera puede estar sujeta a una rápida extinción. El programa de refuerzo de proporción fija aplica el reforzador después de un número determinado de ocurrencias de las conductas deseadas. Un ejemplo organizativo de este esquema es una comisión de ventas basada en el número de unidades vendidas. Al igual que el programa de intervalo fijo, el programa de proporción fija puede no producir un cambio conductual consistente y duradero.

Los programas de refuerzo de intervalo variable se emplean cuando los comportamientos deseados se refuerzan después de períodos variables de tiempo. Ejemplos de programas de intervalo variable serían el reconocimiento especial por un desempeño exitoso y los ascensos a puestos de mayor nivel. Este esquema de refuerzo parece provocar un cambio de comportamiento deseado que es resistente a la extinción.

Por último, el esquema de refuerzo de proporción variable aplica el reforzador después de que se haya producido un número de conductas deseadas, con un número que cambia de una situación a otra. El ejemplo más común de este esquema de refuerzo es la máquina tragaperras de un casino, en la que se requiere un número diferente y desconocido de conductas deseadas (es decir, introducir una moneda en la máquina) antes de obtener la recompensa (es decir, un bote). Los ejemplos organizativos de programas de proporción variable son las bonificaciones o los premios especiales que se aplican tras un número variable de comportamientos deseados. Los programas de proporción variable parecen producir un cambio de comportamiento deseado que es consistente y muy resistente a la extinción.

TEORÍA DEL REFUERZO APLICADA A LOS ENTORNOS ORGANIZATIVOS

Probablemente la aplicación más conocida de los principios de la teoría del refuerzo a los entornos organizativos se llama modificación de la conducta, o gestión de contingencias conductuales. Normalmente, un programa de modificación de conducta consta de cuatro pasos:

  1. Especificar el comportamiento deseado de la forma más objetiva posible.
  2. Medir la incidencia actual del comportamiento deseado.
  3. Proporcionar consecuencias conductuales que refuercen la conducta deseada.
  4. Determinar la eficacia del programa evaluando sistemáticamente el cambio de comportamiento.
    1. La teoría del refuerzo es una importante explicación de cómo las personas aprenden el comportamiento. A menudo se aplica a los entornos organizativos en el contexto de un programa de modificación de la conducta. Aunque los supuestos de la teoría del refuerzo son a menudo criticados, sus principios siguen ofreciendo importantes conocimientos sobre el aprendizaje y la motivación individual.

      Tim Barnett

      Revisado por Marcia Simmering

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *