La théorie du renforcement est le processus de façonnement du comportement en contrôlant les conséquences du comportement. Dans la théorie du renforcement, une combinaison de récompenses et/ou de punitions est utilisée pour renforcer le comportement souhaité ou éteindre le comportement indésirable. Tout comportement qui suscite une conséquence est appelé comportement opérant, car l’individu agit sur son environnement. La théorie du renforcement se concentre sur la relation entre le comportement opérant et les conséquences associées, et est parfois appelée conditionnement opérant.
CONTEXTE ET DÉVELOPPEMENT DE LA THÉORIE DU RENFORCEMENT
Les théories comportementales de l’apprentissage et de la motivation se concentrent sur l’effet que les conséquences d’un comportement passé ont sur le comportement futur. Cela s’oppose au conditionnement classique, qui se concentre sur les réponses qui sont déclenchées par des stimuli de manière presque automatique. La théorie du renforcement suggère que les individus peuvent choisir entre plusieurs réponses à un stimulus donné et qu’ils sélectionneront généralement la réponse qui a été associée à des résultats positifs dans le passé. E.L. Thorndike a formulé cette idée en 1911, dans ce que l’on appelle aujourd’hui la loi de l’effet. La loi de l’effet stipule essentiellement que, toutes choses égales par ailleurs, les réponses aux stimuli qui sont suivis d’une satisfaction seront renforcées, mais les réponses qui sont suivies d’un inconfort seront affaiblies.
B.F. Skinner a été un contributeur clé au développement des idées modernes sur la théorie du renforcement. Skinner a soutenu que les besoins et les pulsions internes des individus peuvent être ignorés parce que les gens apprennent à présenter certains comportements en fonction de ce qui leur arrive à la suite de leur comportement. Cette école de pensée a été appelée l’école behavioriste, ou behavioriste radicale.
REINFORCEMENT, PUNITION ET EXTINCTION
Le principe le plus important de la théorie du renforcement est, bien sûr, le renforcement. D’une manière générale, il existe deux types de renforcement : positif et négatif. Le renforcement positif se produit lorsque l’apparition d’une conséquence comportementale valorisée a pour effet de renforcer la probabilité de répétition du comportement. La conséquence comportementale spécifique est appelée un renforçateur. Un exemple de renforcement positif peut être celui d’un vendeur qui fait des efforts supplémentaires pour atteindre un quota de vente (comportement) et qui est ensuite récompensé par une prime (renforçateur positif). L’administration du renforçateur positif devrait rendre plus probable le fait que le vendeur continue à fournir l’effort nécessaire à l’avenir.
Le renforcement négatif résulte de la rétention d’une conséquence comportementale indésirable, avec pour effet de renforcer la probabilité de répétition du comportement. Le renforcement négatif est souvent confondu avec la punition, mais ils ne sont pas les mêmes. La punition vise à réduire la probabilité de comportements spécifiques ; le renforcement négatif vise à augmenter le comportement souhaité. Ainsi, le renforcement positif et le renforcement négatif ont tous deux pour effet d’augmenter la probabilité qu’un comportement particulier soit appris et répété. Un exemple de renforcement négatif est celui d’un vendeur qui s’efforce d’augmenter les ventes sur son territoire de vente (comportement), suivi de la décision de ne pas réaffecter le vendeur à un itinéraire de vente indésirable (renforçateur négatif). L’administration du renforçateur négatif devrait rendre plus probable le fait que le vendeur continue à exercer l’effort nécessaire à l’avenir.
Comme mentionné ci-dessus, la punition tente de diminuer la probabilité que des comportements spécifiques soient exhibés. La punition est l’administration d’une conséquence comportementale indésirable afin de réduire l’occurrence du comportement indésirable. La punition est l’une des stratégies les plus couramment utilisées dans le cadre de la théorie du renforcement, mais de nombreux experts en apprentissage suggèrent qu’elle ne devrait être utilisée que si le renforcement positif et négatif ne peut être utilisé ou a déjà échoué, en raison des effets secondaires potentiellement négatifs de la punition. Un exemple de punition pourrait être la rétrogradation d’un employé qui n’atteint pas les objectifs de performance ou la suspension sans salaire d’un employé qui viole les règles de travail.
L’extinction est similaire à la punition dans la mesure où son objectif est de réduire le comportement indésirable. Le processus d’extinction commence lorsqu’une conséquence comportementale appréciée est retenue afin de diminuer la probabilité qu’un comportement appris se poursuive. Avec le temps, ce processus est susceptible d’aboutir à la cessation de ce comportement. L’extinction peut également servir à réduire un comportement souhaité, par exemple lorsqu’un renforçateur positif n’est plus offert lorsqu’un comportement souhaitable se produit. Par exemple, si un employé est continuellement félicité pour la rapidité avec laquelle il termine son travail pendant plusieurs mois, mais qu’il ne reçoit aucune félicitation pour ce comportement les mois suivants, ses comportements souhaitables peuvent diminuer. Ainsi, pour éviter une extinction non désirée, les managers peuvent avoir à continuer à offrir des conséquences comportementales positives.
SCHÉMAS DE RENFORCEMENT
Le calendrier des conséquences comportementales qui suivent un comportement donné est appelé le calendrier de renforcement. Fondamentalement, il existe deux grands types de calendriers de renforcement : continu et intermittent. Si un comportement est renforcé chaque fois qu’il se produit, on parle de renforcement continu. Les recherches suggèrent que le renforcement continu est le moyen le plus rapide d’établir de nouveaux comportements ou d’éliminer les comportements indésirables. Cependant, ce type de renforcement n’est généralement pas pratique dans un contexte organisationnel. C’est pourquoi on utilise habituellement des programmes intermittents. Le renforcement intermittent signifie que chaque instance d’un comportement souhaité n’est pas renforcée. Il existe au moins quatre types de programmes de renforcement intermittent : l’intervalle fixe, le rapport fixe, l’intervalle variable et le rapport variable.
Les schémas de renforcement à intervalle fixe se produisent lorsque les comportements souhaités sont renforcés après des périodes de temps déterminées. L’exemple le plus simple d’un calendrier à intervalle fixe est un chèque de paie hebdomadaire. Un calendrier de renforcement à intervalle fixe ne semble pas être un moyen particulièrement fort pour susciter le comportement souhaité, et le comportement appris de cette façon peut être sujet à une extinction rapide. Le schéma de renforcement à ratio fixe applique le renforçateur après un nombre déterminé d’occurrences des comportements souhaités. Un exemple organisationnel de ce schéma est une commission de vente basée sur le nombre d’unités vendues. Comme le calendrier à intervalle fixe, le calendrier à ratio fixe peut ne pas produire un changement de comportement cohérent et durable.
Les programmes de renforcement à intervalles variables sont employés lorsque les comportements souhaités sont renforcés après des périodes de temps variables. Des exemples de schémas à intervalles variables seraient une reconnaissance spéciale pour des performances réussies et des promotions à des postes de niveau supérieur. Ce calendrier de renforcement semble susciter un changement de comportement souhaité qui résiste à l’extinction.
Enfin, le calendrier de renforcement à ratio variable applique l’agent renforçateur après qu’un certain nombre de comportements souhaités se soient produits, ce nombre variant d’une situation à l’autre. L’exemple le plus courant de ce schéma de renforcement est la machine à sous d’un casino, dans laquelle un nombre différent et inconnu de comportements désirés (c’est-à-dire alimenter la machine avec une pièce de 25 cents) est requis avant que la récompense (c’est-à-dire un jackpot) soit réalisée. Les exemples organisationnels de programmes à ratio variable sont des primes ou des récompenses spéciales qui sont appliquées après un nombre variable de comportements souhaités. Les horaires à ratio variable semblent produire un changement de comportement souhaité qui est cohérent et très résistant à l’extinction.
LA THÉORIE DU RENFORCEMENT APPLIQUÉE AUX MILIEUX ORGANISATIONNELS
L’application probablement la plus connue des principes de la théorie du renforcement aux milieux organisationnels est appelée modification comportementale, ou gestion des contingences comportementales. Généralement, un programme de modification comportementale comporte quatre étapes :
- Spécifier le comportement souhaité de manière aussi objective que possible.
- Mesurer l’incidence actuelle du comportement souhaité.
- Fournir des conséquences comportementales qui renforcent le comportement souhaité.
- Déterminer l’efficacité du programme en évaluant systématiquement le changement de comportement.
La théorie du renforcement est une explication importante de la façon dont les gens apprennent un comportement. Elle est souvent appliquée aux milieux organisationnels dans le contexte d’un programme de modification du comportement. Bien que les hypothèses de la théorie du renforcement soient souvent critiquées, ses principes continuent d’offrir des perspectives importantes sur l’apprentissage et la motivation des individus.
Tim Barnett
Révisé par Marcia Simmering
.