Condicionamento operante - John Finnie education

O que vai aprender a fazer: explicar o condicionamento operante, o reforço e a punição
Reforço
- Ligação à aprendizagem
Punição
- Experimentar
Modelação
- Ligação à aprendizagem
- Experimentar
Reforços primários e secundários

O que vai aprender a fazer: explicar o condicionamento operante, o reforço e a punição

Já aprendeu sobre o condicionamento clássico, ou condicionamento por associação. Esta secção centra-se no condicionamento operante, que enfatiza o reforço de comportamentos. No condicionamento operante, a motivação para um comportamento acontece após Um animal ou um ser humano recebe uma consequência (reforçador ou castigador) depois de realizar um comportamento específico. Aprenderá que todos os tipos de reforço (positivo ou negativo) aumentar a probabilidade de uma resposta comportamental, enquanto todos os tipos de castigo diminuir Veja este vídeo para uma revisão do condicionamento clássico e uma introdução ao condicionamento operante para o ajudar a distinguir entre os dois tipos de aprendizagem:

Objectivos de aprendizagem

Definir e dar exemplos de condicionamento operante
Explicar a diferença entre reforço e castigo (incluindo reforço positivo e negativo e castigo positivo e negativo)
Definir modelação
Distinguir entre reforços primários e secundários

A secção anterior deste módulo centrou-se no tipo de aprendizagem associativa conhecida como condicionamento clássico. Lembre-se que no condicionamento clássico, algo no ambiente desencadeia um reflexo automaticamente e os investigadores treinam o organismo para reagir a um estímulo diferente. Agora passamos ao segundo tipo de aprendizagem associativa, o condicionamento operante. condicionamento operante Uma consequência agradável faz com que seja mais provável que esse comportamento se repita no futuro. Por exemplo, Spirit, um golfinho do Aquário Nacional de Baltimore, dá uma cambalhota no ar quando o seu treinador apita. A consequência é que recebe um peixe.

Tabela 1: Comparação entre o condicionamento clássico e o condicionamento operante

Condicionamento Clássico	Condicionamento operante
Abordagem de condicionamento	Um estímulo incondicionado (como a comida) é emparelhado com um estímulo neutro (como uma campainha). O estímulo neutro acaba por se tornar o estímulo condicionado, o que provoca a resposta condicionada (salivação).	O comportamento-alvo é seguido de um reforço ou de um castigo para o reforçar ou enfraquecer, de modo a que o aprendente tenha mais probabilidades de apresentar o comportamento desejado no futuro.
Calendário dos estímulos	O estímulo ocorre imediatamente antes da resposta.	O estímulo (reforço ou punição) ocorre logo após a resposta.

Experimentar

O psicólogo B. F. Skinner percebeu que o condicionamento clássico se limita a comportamentos existentes que são provocados reflexivamente e não dá conta de novos comportamentos, como andar de bicicleta. Ele propôs uma teoria sobre como esses comportamentos surgem. Skinner acreditava que o comportamento é motivado pelas consequências que recebemos pelo comportamento: os reforços e punições. Sua ideia de que a aprendizagem éo resultado das consequências baseia-se na lei do efeito De acordo com a lei do efeito, os comportamentos que são seguidos por consequências que satisfazem o organismo têm maior probabilidade de se repetirem, e os comportamentos que são seguidos por consequências desagradáveis têm menor probabilidade de se repetirem (Thorndike, 1911). Essencialmente, se um organismo faz algo que produz um resultado desejado, oSe um organismo faz algo que não produz o resultado desejado, é menos provável que o volte a fazer. Um exemplo da lei do efeito é o emprego. Uma das razões (e muitas vezes a principal razão) para aparecermos no trabalho é porque somos pagos para o fazer. Se deixarmos de ser pagos, é provável que deixemos de aparecer - mesmo que gostemos do nosso trabalho.

Trabalhando com a lei do efeito de Thorndike como sua base, Skinner começou a realizar experiências científicas em animais (principalmente ratos e pombos) para determinar como os organismos aprendem através do condicionamento operante (Skinner, 1938). Ele colocou esses animais dentro de uma câmara de condicionamento operante, que passou a ser conhecida como "caixa de Skinner" (Figura 1). Uma caixa de Skinner contém uma alavanca (para ratos) ou um disco (paraOs altifalantes e as luzes podem ser associados a determinados comportamentos. Um registador conta o número de respostas dadas pelo animal.

Figura 1. (a) B. F. Skinner desenvolveu o condicionamento operante para o estudo sistemático da forma como os comportamentos são reforçados ou enfraquecidos de acordo com as suas consequências. (b) Numa caixa de Skinner, um rato carrega numa alavanca numa câmara de condicionamento operante para receber uma recompensa alimentar. (crédito a: modificação do trabalho de "Silly rabbit"/Wikimedia Commons)

Ligação à aprendizagem

Veja o seguinte vídeo para saber mais sobre o condicionamento operante e para assistir a uma entrevista com Skinner sobre o condicionamento dos pombos.

Experimentar

Ao discutirmos o condicionamento operante, utilizamos várias palavras do quotidiano - positivo, negativo, reforço e castigo - de uma forma especializada. No condicionamento operante, positivo e negativo não significam bom e mau. Pelo contrário, positivo significa que está a acrescentar algo, e negativo significa que se está a tirar algo. Reforço significa que está a aumentar um comportamento, e punição O reforço pode ser positivo ou negativo, e o castigo também pode ser positivo ou negativo. Todos os reforços (positivos ou negativos) aumentar todos os castigadores (positivos ou negativos) diminuir Agora vamos combinar estes quatro termos: reforço positivo, reforço negativo, punição positiva e punição negativa (Tabela 1).

Quadro 1: Reforço positivo e negativo e punição

	Reforço	Punição
Positivo	Algo é acrescentado para aumentar a probabilidade de um comportamento.	Algo é acrescentado para diminuir a probabilidade de um comportamento.
Negativo	Algo é removido para aumentar a probabilidade de um comportamento.	Algo é removido para diminuir a probabilidade de um comportamento.

Reforço

A forma mais eficaz de ensinar um novo comportamento a uma pessoa ou a um animal é através do reforço positivo. reforço positivo Quando um estímulo desejável é adicionado para aumentar um comportamento.

Por exemplo, você diz ao seu filho de cinco anos, Jerónimo, que se ele limpar o quarto, receberá um brinquedo. Jerónimo limpa rapidamente o quarto porque quer um novo conjunto de arte. Façamos uma pausa por um momento. Algumas pessoas poderão dizer: "Porque é que hei-de recompensar o meu filho por fazer o que é esperado?" Mas, na verdade, somos constantemente e consistentemente recompensados nas nossas vidas. Os nossos ordenados são recompensas, tal como as notas altas eO reforço positivo como ferramenta de aprendizagem é extremamente eficaz. Verificou-se que uma das formas mais eficazes de aumentar os resultados em distritos escolares com resultados de leitura abaixo da média era pagar às crianças para lerem. Especificamente, os alunos do segundo ano em DallasO resultado foi um aumento significativo na compreensão da leitura (Fryer, 2010). O que pensa deste programa? Se Skinner fosse vivo hoje, provavelmente acharia que esta era uma óptima ideia. Ele era um forte defensor da utilização dos princípios do condicionamento operante para influenciar o comportamento dos alunos na escola. De facto, emPara além da caixa de Skinner, inventou também aquilo a que chamou uma máquina de ensinar, concebida para recompensar pequenos passos na aprendizagem (Skinner, 1961) - um dos primeiros precursores da aprendizagem assistida por computador. A sua máquina de ensinar testava os conhecimentos dos alunos à medida que estes avançavam em várias disciplinas escolares. Se os alunos respondessem corretamente às perguntas, recebiam imediatamente um reforço positivo e podiamA ideia era que os alunos passassem mais tempo a estudar a matéria para aumentar as suas hipóteses de serem reforçados da próxima vez (Skinner, 1961).

Em reforço negativo Por exemplo, os fabricantes de automóveis utilizam os princípios do reforço negativo nos seus sistemas de cintos de segurança, que fazem "bip, bip, bip" até o utilizador apertar o cinto de segurança. O som irritante pára quando o utilizador apresenta o comportamento desejado, aumentando a probabilidade de o utilizador apertar o cinto no futuro. O reforço negativo também é utilizado frequentementeOs cavaleiros aplicam pressão - puxando as rédeas ou apertando as pernas - e depois retiram a pressão quando o cavalo executa o comportamento desejado, como virar ou acelerar. A pressão é o estímulo negativo que o cavalo quer remover.

Ligação à aprendizagem

Veja este clip de A Teoria do Big Bang para ver Sheldon Cooper explicar os termos comummente confundidos de reforço negativo e castigo.

Punição

Muitas pessoas confundem reforço negativo com punição no condicionamento operante, mas são dois mecanismos muito diferentes. Lembre-se de que o reforço, mesmo quando é negativo, sempre aumenta um comportamento, punição Na punição positiva, adiciona-se um estímulo indesejável para diminuir um comportamento. Um exemplo de punição positiva Neste caso, é adicionado um estímulo (a repreensão) para diminuir o comportamento (enviar mensagens de texto na aula). punição negativa Por exemplo, quando uma criança se comporta mal, um pai pode tirar-lhe o seu brinquedo preferido. Neste caso, retira-se um estímulo (o brinquedo) para diminuir o comportamento.

O castigo, especialmente quando é imediato, é uma forma de diminuir o comportamento indesejável. Por exemplo, imagine que o seu filho de quatro anos, Brandon, bateu no seu irmão mais novo. Peça ao Brandon que escreva 50 vezes "Não vou bater no meu irmão" (castigo positivo). É provável que ele não repita este comportamento. Embora estratégias como esta sejam comuns hoje em dia, no passado as crianças eram frequentemente sujeitas aÉ importante estar ciente de algumas das desvantagens do uso de castigos físicos nas crianças. Em primeiro lugar, o castigo pode ensinar o medo. Brandon pode ficar com medo de bater, mas também pode ficar com medo da pessoa que o castigou - você, seu pai. Da mesma forma, as crianças que são castigadas pelos professores podem vir a temer o professor e tentar evitar a escola(Em segundo lugar, o castigo pode fazer com que as crianças se tornem mais agressivas e propensas a comportamentos anti-sociais e à delinquência (Gershoff, 2002). As crianças vêem os seus pais recorrerem às palmadas quando ficam zangados e frustrados, pelo que, por sua vez, podem adotar esse mesmo comportamento quando ficam zangados e frustrados.frustrado. Por exemplo, como bate na Margot quando está zangado com ela por se ter portado mal, ela pode começar a bater nos amigos quando eles não partilham os brinquedos.

Embora o castigo positivo possa ser eficaz em alguns casos, Skinner sugeriu que o uso do castigo deve ser ponderado em relação aos possíveis efeitos negativos. Atualmente, os psicólogos e especialistas em educação favorecem o reforço em vez do castigo - recomendam que apanhe o seu filho a fazer algo de bom e o recompense por isso.

Certifica-te de que compreendes a distinção entre reforço negativo e castigo no vídeo que se segue:

Assista ao pequeno clip que se segue para ver outro exemplo e explicar o reforço positivo e negativo, bem como o castigo positivo e negativo.

Experimentar

Modelação

Nas suas experiências de condicionamento operante, Skinner utilizou frequentemente uma abordagem designada por modelação. Em vez de recompensar apenas o comportamento alvo, em modelação Para que o reforço funcione, é necessário que o organismo apresente primeiro o comportamento. A modelação é necessária porque é extremamente improvável que um organismo apresente espontaneamente apenas o mais simples dos comportamentos. Na modelação, os comportamentos são divididos em muitas etapas pequenas e exequíveis.Os passos utilizados no processo são os seguintes: Reforçar qualquer resposta que se assemelhe ao comportamento desejado. Em seguida, reforçar a resposta que se assemelha mais ao comportamento desejado. Deixará de reforçar a resposta anteriormente reforçada. Em seguida, começar a reforçar a resposta que se assemelha ainda mais ao comportamento desejado. Continuar a reforçar aproximações cada vez maiores do comportamento desejado.Finalmente, reforçar apenas o comportamento desejado.

A modelação é frequentemente utilizada para ensinar um comportamento complexo ou uma cadeia de comportamentos. Skinner utilizou a modelação para ensinar aos pombos não só comportamentos relativamente simples, como bicar um disco numa caixa de Skinner, mas também muitos comportamentos invulgares e divertidos, como girar em círculos, andar em oitos e até jogar pingue-pongue; esta técnica é atualmente utilizada com frequência pelos treinadores de animais. Uma parte importanteA discriminação de estímulos é uma das formas de modelação. Lembre-se dos cães de Pavlov - ele treinou-os para responderem ao som de um sino e não a sons ou tons semelhantes. Esta discriminação também é importante no condicionamento operante e na modelação do comportamento.

Ligação à aprendizagem

Aqui está um breve vídeo dos pombos de Skinner a jogar pingue-pongue.

É fácil ver como a modelação é eficaz no ensino de comportamentos aos animais, mas como é que a modelação funciona com os seres humanos? Consideremos os pais cujo objetivo é fazer com que o seu filho aprenda a limpar o quarto. Utilizam a modelação para o ajudar a dominar os passos em direção ao objetivo. Em vez de executarem a tarefa completa, estabelecem esses passos e reforçam cada um deles. Primeiro, ele limpa um brinquedo. Segundo, limpa cincoEm terceiro lugar, escolhe se quer apanhar dez brinquedos ou arrumar os livros e a roupa. Em quarto lugar, limpa tudo exceto dois brinquedos. Finalmente, limpa o quarto todo.

Experimentar

Reforços primários e secundários

Recompensas como autocolantes, elogios, dinheiro, brinquedos, etc., podem ser utilizadas para reforçar a aprendizagem. Voltemos aos ratos de Skinner. Como é que os ratos aprenderam a carregar na alavanca da caixa de Skinner? Eram recompensados com comida de cada vez que carregavam na alavanca. Para os animais, a comida seria um reforço óbvio.

O que seria um bom reforço para os seres humanos? Para a sua filha Sydney, era a promessa de um brinquedo se ela limpasse o quarto. E o Joaquim, o jogador de futebol? Se desse ao Joaquim um rebuçado sempre que ele marcasse um golo, estaria a utilizar um reforço primário. Os reforços primários são reforços que têm qualidades de reforço inatas. Este tipo de reforços não se aprende. Água, comida,sono, abrigo, sexo e toque, entre outros, são reforços primários Para a maior parte das pessoas, saltar para um lago fresco num dia de muito calor seria um reforço e o lago fresco seria um reforço inato - a água refrescaria a pessoa (uma necessidade física), além de proporcionar prazer.

A reforço secundário O elogio, ligado ao afeto, é um exemplo de um reforçador secundário, como quando se gritava "Grande remate!" sempre que o Joaquim marcava um golo. Outro exemplo, o dinheiro, só tem valor quando se pode usá-lo para comprar outras coisas - ou coisas que satisfazem necessidades básicas (comida, água, abrigo - todas elas primáriasSe estivesse numa ilha remota no meio do Oceano Pacífico e tivesse montes de dinheiro, o dinheiro não seria útil se não o pudesse gastar. E os autocolantes na tabela de comportamento? Também são reforços secundários.

Por vezes, em vez de autocolantes numa tabela de autocolantes, utiliza-se uma ficha. As fichas, que também são reforçadores secundários, podem ser trocadas por recompensas e prémios. Sistemas inteiros de gestão do comportamento, conhecidos como economias de fichas, são construídos em torno da utilização deste tipo de reforçadores de fichas. Verificou-se que as economias de fichas são muito eficazes na modificação do comportamento numa variedade de contextos, como as escolas,Por exemplo, um estudo realizado por Cangi e Daly (2013) descobriu que o uso de uma economia de fichas aumentou os comportamentos sociais adequados e reduziu os comportamentos inadequados num grupo de crianças autistas em idade escolar. As crianças autistas tendem a apresentar comportamentos disruptivos, como beliscar e bater. Quando as crianças no estudo apresentaram um comportamento adequado (não bater ou beliscar),Quando batiam ou beliscavam, perdiam uma ficha. As crianças podiam então trocar quantidades específicas de fichas por minutos de recreio.