Тема 7. Феномены оперантного обусловливания

1. Типы подкреплений оперантного поведения.

2. Режимы подкрепления.

3. Виды подкрепления.

4. Контроль поведения посредством аверсивных стимулов.

1. Типы подкреплений оперантного поведения

Одним из примечательных идей скинеровской теории обусловливания является понятие подкрепления. Уже первые исследования в «скиннеровском ящике» с нажатием рычага продемонстрировали значение подкрепления для оперантного поведения.

Подкрепление (punishment[223] ) – это любое событие (стимул), которое следует за реакцией и увеличивает вероятность ее появления. Когда крыса, например, нажимает на рычажок, то это поведение является оперантным, и если оно сопровождается подкреплением, таким, как еда, то вероятность нажатия на рычажок возрастает. В соответствии с этим взглядом, подкрепление усиливает то поведение, за которым следует.

Очень важным является то, что стимулы, которые изначально не являются подкреплениями, могут превратиться в таковые благодаря ассоциированию с другими подкреплениями. Некоторые стимулы, такие, как деньги, становятся генерализованным[224] подкреплением[225], поскольку они обеспечивают доступ к множеству других видов подкрепления. Культура - альтернатива.

Здесь важно понимать, что подкрепление определяется через его воздействие на поведение – а именно через рост вероятности поведенческой реакции. Часто трудно точно определить, что может послужить таким подкреплением, так как оно варьирует от индивида к индивиду, от организма к организму.

Выделяют также два типа подкрепления — первичное и вторичное. [226] Первичное подкрепление — это любое событие или объект, сами по себе обладающие подкрепляющими свойствами. Таким образом, они не требуют предварительной ассоциации с другими подкреплениями, чтобы удовлетворить биологическую потребность. Первичные подкрепляющие стимулы для людей — это пища, вода, физический комфорт и секс. Их ценностное значение для организма не зависит от научения[227]. Вторичное, или усвоеное подкрепление, – это любое событие или объект, которые приобретают свойство осуществлять подкрепление посредством тесной ассоциации с первичным подкреплением, обусловленным прошлым опытом организма. Примерами общих вторичных подкрепляющих стимулов у людей являются деньги, культура, внимание, привязанности и хорошие оценки.[228]

Логическим расширением принципа подкрепления является то, что поведение, усиленное в одной ситуации, с большой долей вероятности повторится, когда организм столкнется с другими ситуациями, напоминающими ее.

Генерализация[229] стимулов[230], В теории Б.Ф. Скиннера, тенденция подкрепленного поведения, кторая распространяться на множество схожих ситуаций.Обобщение стимула может быть результатом неприятного жизненного опыта. Характерным для условного подкрепления является то, что оно генерализуется, если объединяется с более чем одним первичным подкреплением. Следует рассмотреть некоторые из наиболее часто встречающихся генерализованных подкреплений в человеческой жизни.

Деньги[231]. Особенно показательный пример, поскольку сама по себе «кучка бумажек» не может удовлетворить какое-либо из первичных человеческих потребностей. Однако, благодаря системе культурного обмена деньги являются мощным и сильным фактором для получения множества благ и удовольствий. Например, деньги позволяют человеку покупать пищу, одежду, машины, получать медицинскую помощь и образование.

Социальные подкрепляющие стимулы[232]. Это особый класс генерализованных условных подкрепляющих стимулов, определяющих сложную систему межличностных отношений. Это могут быть лесть, внимание, похвала, социальное одобрение, привязанности, подчинение себе других и пр. Эти стимулы часто действуют очень сложно и едва уловимо, но они существенны для человеческого поведения в разнообразных ситуациях. Например, внимание и одобрение значимого другого – родителей, учителя, начальника, возлюбленного – для многих людей особенно эффективный генерализованный условный стимул, который может содействовать ярко выраженному поведению привлечения внимания.

Б.Ф. Скиннер полагал, что условные подкрепляющие стимулы очень важны в контроле поведения человека. Он также отмечал, что каждый человек проходит уникальную науку научения, и вряд ли всеми людьми управляют одни и те же подкрепляющие стимулы. Возможные вариации в поведении, поддержанные как позитивными, так и негативными условными подкрепляющими стимулами, бесконечны.

Различение[233] стимулов[234]. Различение стимула, составная часть обобщения, – это процесс научения реагировать адекватным образом в различных ситуациях окружения. Способность к различению приобретается через подкрепление реакций в присутствии одних стимулов и неподкрепление их в присутствии других стимулов. Различительные стимулы таким образом предоставляют человеку возможность предвидеть вероятные результаты, связанные с изъявлением особой оперантной реакции в различных социальных ситуациях. Вместе с тем, индивидуальные вариации различительной способности зависят от уникального прошлого опыта различных подкреплений.

Угасание[235] реакций[236]. Когда подкрепление больше не поступает, реакция становится все менее и менее частой; этот процесс получил название «оперантного[237] угашения[238] ».

Б.Ф. Скиннер предположил, что здоровое личностное развитие происходит в результате взаимодействия генерализирующей и различительной способностей, с помощью которых человек регулирует свое поведение так, чтобы максимизировать позитивное подкрепление и минимизировать наказание.

2. Режимы подкрепления

Для Б.Ф. Скиннера подкрепить поведение означает осуществить манипуляцию, меняющую вероятность такого поведения в будущем. Поэтому его особый интерес был сосредоточен в основном на изучении особенностей (реакций и их связей с процентами подкреплений) и интервалами между ними, т.е. на изучении режимов подкрепления.

Как уже отмечалось, суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение[239]

неподкрепленное или аверсивное имеет тенденцию не повторяться или подавляться.

Поведение становится понятным, если его можно контролировать, внося определенные изменения в условия среды. Понять поведение – значит управлять им. Управление поведением, осуществляется через выбор типа реакции, которую необходимо подкрепить, и определения степени вероятности ее повторного появления. Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления.

Режим подкрепления — правило, устанавливающее вероятность, с которой подкрепление будет происходить[240]. Режим подкрепления можно построить, опираясь на два параметра: задавая определенный временной интервал или определенный интервал реакций.

Режимы подкрепления изучались Б.Ф. Скиннером в экспериментах на голубях в специально оборудованной камере («ящике»). Самым простым правилом, относящимся к первому параметру, является предъявление подкрепления каждый раз, когда организм дает желаемую реакцию. Это называется режимом непрерывного подкрепления[241] и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию.

В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. В большинстве случаев социальное поведение человека подкрепляется только иногда. Например, ребенок плачет неоднократно, прежде чем добьется внимания матери. Ученый много раз ошибается, прежде чем приходит к правильному решению трудной проблемы. В обоих этих примерах неподкрепленные реакции встречаются до тех пор, пока одна из них не будет подкреплена.

В случае если задается интервал времени или реакций, т.е. определенное соотношение времени и реакций или подкреплений и реакций, подкрепления появляются после того, как прошло какое–то время или выполнено определенное число реакций (например, нажатий на рычаг или на ключ) – режим интервального подкрепления[242].

Таким образом, подкрепления не обязательно следуют после каждого ответа, а могут подаваться лишь время от времени. Более того, подкрепления могут подаваться в регулярном, или фиксированном, режиме – всегда через определенный интервал времени или всегда после определенного количества реакций, либо их можно подавать в переменном режиме – то через одну минуту, то через две, то после пары реакций, то после серии реакций. Каждая схема, или режим подкрепления, как правило, стабилизирует поведение по-разному.

Б.Ф. Скиннер тщательно изучал, как режим прерывистого, или частичного, подкрепления влияет на оперантное поведение. Хотя возможны многие различные режимы подкрепления, их все можно классифицировать в соответствии с двумя названными основными параметрами:

1) подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыдущего подкрепления (так называемый режим временного подкрепления),

2) подкрепление может иметь место только после того, как с момента подкрепления было получено определенное или случайное количество реакций (режим пропорционального подкрепления).

В соответствии с этими двумя параметрами выделяют четыре основных режима подкрепления[243]:

1. Режим подкрепления с фиксированной пропорцией[244] (ФП). В данном режиме организм подкрепляется по наличию заранее определенного или «постоянного» числа соответствующих реакций. Если это число составляет 5, то это значит, что подкрепление последует по совершении 5 реакций, если оно равно 50, потребуется совершить 50 реакций, и т. д. Было установлено, что, чем выше пропорция, тем с большей частотой организм реагирует, особенно если его первоначально тренировали при относительно низком коэффициенте, а затем непрерывно увеличивали коэффициент до величины 100. Пожалуй, самая примечательная особенность поведения при режиме с ФП состоит в том, что сразу после очередного подкрепления в росте реакций наступает пауза (рисунок 8). Трудно начать совершать какие–то действия сразу после того, как сделано их достаточно, чтобы получить вознаграждение.

Режим ФП обычно устанавливает чрезвычайно высокий оперантный уровень, так как чем чаще организм реагирует, тем большее подкрепление он получает. Считается, что этот режим лучший.

2. Режим подкрепления с фиксированным интервалом [245] (ФИ). В режиме подкрепления с постоянным интервалом организм подкрепляется после того, как твердо установленный или «постоянный» временной интервал проходит с момента предыдущего подкрепления. Например, при данном режиме подкрепление дается только по истечении 5 минут после последней подкрепленной реакции; реакции в течение этого пятиминутного интервала проходят без последствий (рисунок 9). Любопытно, что режим ФИ дает низкую скорость реагирования сразу после того, как получено подкрепление – феномен, названный паузой после подкрепления. Это показательно для студентов, испытывающих трудности при обучении в середине семестра (предполагается, что они сдали экзамен хорошо), так как следующий экзамен будет еще нескоро. Они буквально делают перерыв в обучении. Примечательно, что эта пауза, возникающая сразу после подкрепления, может быть даже длиннее, чем пауза при режиме ФП.

Еще одна особенность реагирования при режиме ФИ – это возрастание частоты реакций по мере приближения окончания периода. Например,

еженедельная выдача денег ребенку на карманные расходы образует ФИ форму подкрепления. Университеты обычно работают в соответствии с временным режимом ФИ. Экзамены устанавливаются на регулярной основе и отчеты об академической успеваемости издаются в установленные сроки.

3. Режим подкрепления с вариативной пропорцие[246] й (ВП). В этом режиме организм подкрепляется на основе какого-то в среднем предопределенного, но не предсказуемого числа реакций. Этот режим считается наиболее эффективным, если необходимо поддерживать поведение в течении длительного времени. Так, при режиме ВП количество реакций, требуемых для подкрепления, иногда составляет 1, иногда 10, а в среднем 5. В отличие от поведения при режиме с ФП, при режиме с ВП не наблюдается пауз в росте реакций (рисунок 10), предположительно потому, что у организма нет возможности определить, что подкрепление появится нескоро.

4. Режим подкрепления с вариативным интервалом[247] (ВИ). В этом режиме организм получает подкрепление после того, как проходит неопределенный временной интервал, длительность которого непредсказуема. Подобно режиму ФИ, подкрепление при этом условии зависит от времени. Однако время между подкреплениями по режиму ВИ варьирует вокруг какой-то средней величины, а не является точно установленным. Как правило, скорость реагирования при режиме ВИ является прямой функцией примененной длины интервала: короткие интервалы порождают высокую скорость, а длинные интервалы порождают низкую скорость. Также при подкреплении в режиме ВИ организм стремится установить постоянную скорость реагирования, и при отсутствии подкрепления реакции угасают медленно. В конечном итоге, организм не может точно предвидеть, когда будет следующее подкрепление,

В повседневной жизни режим ВИ встречается нечасто, хотя несколько его вариантов можно наблюдать. В качестве примера режима в повседневной жизни можно привести дозванивание по занятому номер[248] у. Чтобы получить подкрепление (дозвониться), надо подождать какое-то время после последней реакции (набора номера); сколько придется ждать в целом

— непредсказуемо. Родитель, например, может хвалить поведение ребенка довольно произвольно, рассчитывая, что ребенок будет продолжать вести себя соответствующим образом и в неподкрепленные интервалы времени. Подобно этому, преподаватели, которые дают «неожиданные» контрольные работы, частота которых варьирует от одной в три дня до одной в три недели, в среднем одна в две недели, используют режим ВИ. При этих условиях от студентов можно ожидать сохранения относительно высокого уровня прилежания, так как они никогда не знают, в какой момент будет следующая контрольная работа.

Как правило, режим ВИ порождает более высокую скорость реагирования и большую сопротивляемость угасанию, чем режим ПИ.

Кроме того, в результате экспериментов Б.Ф. Скиннер выявил целый ряд закономерностей:

- чем короче временной интервал между подкреплениями, тем чаще животное проявляет обусловленную реакцию и, наоборот, по мере того, как увеличивается интервал между подкреплениями, частота реакции снижается;

- проявление условной реакции угасает с большей скоростью, если имело место непрерывное подкрепление, которое затем резко было прекращено, чем в том случае, когда подкрепление выдавалось с перерывами (например, некоторые голуби демонстрировали до десяти тысяч реакций без подкрепления, если исходно у них был сформирован условный рефлекс па основе периодичного, прерывистого подкрепления);

- животные, получающие поощрение по схеме с фиксированной частотой, реагируют намного интенсивнее, чем те, которые получают подкрепление по схеме с фиксированным интервалом.

По сути, теория оперантного научения представляет собой изощренную формулировку основных принципов дрессировки животных. Сложное поведение формируется через процесс последовательных приближений, т.е. сложные действия вырабатываются благодаря подкреплению тех элементов поведения, которые соответствуют той, почти любого поведения в том наборе, которым располагал человек. Эта методика, названная методом успешного приближения, или формированием поведения, состоит из подкрепления поведения, наиболее близкого к желаемому оперантному поведению. К этому приближаются шаг за шагом, и поэтому одна реакция подкрепляется, а затем подменяется другой, более близкой к желаемому результату.

3. Виды подкрепления[249]

Как отмечалось ранее, под подкреплением понимается какое–либо действие, призванное усилить определенную реакцию. Хотя оперантное обусловливание опирается в первую очередь на использование подкрепления

с положительной валентностью, основанных на приближении организма к, такого, как пища, деньги или похвала, последователи Б.Ф. Скиннера подчеркивают также важность подкреплений, основанных на бегстве организма от, или на избегании им отвращающих (неприятных) стимулов. В таких случаях реакции подкрепляются устранением неприятных стимулов или возможностью их избежать, а не появлением приятных стимулов. Во всех этих случаях результатом должно быть сохранение или усиление реакции. В связи с этим различают два вида подкреплений:

Позитивное подкрепление[250] – это приятный стимул, который следуя за желательной реакцией, усиливает ее или поддерживает на том же уровне, т.е. повышает вероятность ее повторения.

Негативное подкрепление[251] – это неприятный стимул, устранение которого усиливает желательную реакцию.

Вместе с тем существует и множество самих способов подкрепления. К наиболее распространенным относятся поощрение (предъявление приятных стимулов) и наказание (предъявление неприятных стимулов).

Следует указать на различия между терминами «поощрение» и «наказание», с одной стороны, и «позитивное» и «негативное подкрепление»,

с другой. Термин «поощрение» может использоваться синонимично с термином «позитивный подкрепляющий фактор», т.е. событие, которое увеличивает вероятность той или иной формы поведения, если оно следует за данной формой поведения. Однако наказание – это не то же самое, что негативный подкрепляющий фактор. Термин «негативное подкрепление» означает прекращение наступления нежелательных событий, следующих за той или иной формой поведения; как и позитивное подкрепление, оно увеличивает вероятность соответствующей формы поведения. Наказание же имеет противоположный эффект: оно уменьшает вероятность наказуемого поведения. Наказание также может быть как позитивным (воздействие неприятного стимула), так и негативным (лишение положительного стимула)

Как поощрение, так и наказание могут выполняться двумя способами, это зависит от того, что следует за реакцией: предъявление или устранение приятного или неприятного стимула. Обратите внимание на то, что подкрепление усиливает реакцию; наказание — ослабляет ее.

Таким образом, в практике воспитания чаще всего используются четыре разновидности подкрепления[252] (Таблица 2):

1) если вслед за желательной реакцией ребенка следует вызывающее приятные ощущения и переживания подкрепляющий стимул, то результат –

положительное поощрение[253];

2) если за нежелательной реакцией следует не вызывающий приятные ощущения и переживания подкрепляющий стимул, то результат –

положительное наказание[254];

3) если вызывающий неприятные ощущения и переживания подкрепляющий стимул устраняется после получения желательной реакции,

то результат – отрицательное поощрение[255];

4) если приятный стимул устраняется после той или иной нежелательной реакции ребенка, то результат – отрицательное наказание[256].

4. Контроль поведения посредством аверсивных стимулов

С точки зрения Б.Ф. Скиннера, в основном поведение человека контролируется аверсивными[257] (неприятными или болевыми) стимулами. Два наиболее типичных метода аверсивного контроля — это наказание и негативное подкрепление. Как уже отмечалось, эти термины часто используются как синонимы для описания концептуальных свойств и поведенческих эффектов аверсивного контроля. Б.Ф. Скиннер (1968) предложил следующее определение: «Вы можете различать наказание, при котором происходит аверсивное событие, пропорциональное реакции, и негативное подкрепление, в котором подкреплением является устранение аверсивного стимула, условного или безусловного».

Наказание. Термин наказание относится к любому аверсивному стимулу или явлению, которое следует или которое зависит от появления какой-то оперантной реакции. Вместо того, чтобы усиливать реакцию, которую оно сопровождает, наказание уменьшает, по крайней мере временно, вероятность того, что реакция повторится. Предполагаемая цель наказания – побудить людей не вести себя тем или иным образом. Б.Ф. Скиннер (1983) заметил, что это наиболее общий метод контроля поведения в современной жизни.

По Б.Ф. Скиннеру, наказание может быть осуществлено двумя различными способами, которые он называет позитивное наказание и негативное наказание (Таблица 2). Позитивное наказание встречается всякий раз, когда поведение ведет к аверсивному исходу. Вот несколько примеров: если дети плохо себя ведут, их шлепают или бранят; если студенты пользуются шпаргалками на экзамене, их исключают из вуза или школы; если взрослых ловят на краже, их штрафуют или сажают в тюрьму. Негативное же наказание встречается всякий раз, когда за поведением следует устранение (возможного) позитивного подкрепляющего стимула. Например, детям запрещают смотреть телевизор из-за плохого поведения. Широко используемый подход к негативному наказанию – методика приостановки. В соответствии с этой методикой человека моментально удаляют из ситуации, в которой доступны определенные подкрепляющие стимулы. Например, непослушного ученика, мешающего занятиям, могут выгнать из кабинета.

Наказание может подавить нежелательную реакцию, но у него есть несколько недостатков. Во-первых, его эффект не столь предсказуем, как эффект поощрения. Поощрение, по сути, несет в себе скрытое сообщение: «Повтори то, что ты уже сделал! »; наказание – «Перестань! », но при этом не предлагая альтернативы. В результате человек может заменить наказываемую реакцию еще менее желательной. Во-вторых, побочные результаты наказания могут оказаться вредными, то есть иметь негативные психологические и социальные последствия. Наказание часто ведет к антипатии или страху перед наказывающим человеком (родителем, учителем или начальником) и перед самой ситуацией (домом, школой или местом работы), где происходило наказание. Наконец, крайне суровое или болезненное наказание может вызвать агрессивное поведение, более серьезное, чем первоначальное нежелательное.

Эти предостережения не означают, что наказание никогда не должно применяться. Оно может эффективно устранять нежелательную реакцию, если другая реакция вознаграждается. Например, крысы, которые научились находить более короткий из двух путей в лабиринте, чтобы добраться до пищи, быстро переключаются на более длинный, если в коротком пути их бьет током. Временное подавление, вызываемое наказанием, дает крысе возможность научиться идти длинным путем. В этом случае наказание служит эффективным средством переориентировать поведение, поскольку оно информативно, а это и есть ключ к гуманному и эффективному применению наказания. Ребенок, который обжегся о горячий утюг, может научиться тому, к каким предметам в его окружении можно прикасаться, а к каким – нет.

Негативное подкрепление. В отличие от наказания, негативное подкрепление – это процесс, в котором организм ограничивает аверсивный стимул или избегает его. Любое поведение, которое препятствует или не приводит к появлению аверсивного стимула, таким образом, чаще повторяется и является негативно подкрепленным (Таблица 2). Неприятные события могут использоваться при научении новым реакциям.

Поведение ухода, «реакция бегства» – наилучшая иллюстрация этого. Организм может научиться реагировать так, чтобы прекратить неприятное событие. Например, человек, который прячется от дождя, уходя в помещение, скорее всего снова пойдет в помещение, когда дождь вновь станет проливным или ребенок научается закрывать кран, чтобы горячая вода не лилась в его ванну. Это называется научением избеганию событий. Следует заметить, что уход от аверсивного стимула не то же самое, что избегание его, поскольку аверсивный стимул, которого избегают, физически может быть не представлен.

Научение избеганию и предотвращению
[258]

Научение избеганию часто предшествует научению предотвращать события.

Б.Ф. Скиннер боролся с использованием всех форм контроля поведения, основанных на аверсивных стимулах. Кроме всего прочего он считал, что использование аверсивных стимулов имеет еще и ограниченную эффективность. Так как наказание может временно подавлять нежелательное или неадекватное поведение, основным возражением Б.Ф. Скиннера было то, что поведение, за которым последовало наказание, скорее всего вновь появится там, где отсутствует тот, кто может наказать. Преступник, которого посадили в тюрьму за жестокое нападение, не обязательно будет меньше склонен к проявлению насилия. Поведение, за которое наказали, может опять появиться после того, как исчезнет вероятность быть наказанным. Например, ребенок, которого отшлепали за то, что он ругался дома, может свободно это делать во дворе. Водитель, оштрафованный за превышение скорости, может заплатить сотруднику ГАИ и продолжать свободно превышать скорость, когда поблизости нет патруля с радаром.

Вместо аверсивного контроля поведения Б.Ф. Скиннер рекомендовал позитивное подкрепление[259], как наиболее эффективный метод для устранения нежелательного поведения. Он доказывал, что, поскольку позитивные подкрепляющие стимулы не дают негативных побочных явлений, связанных с аверсивными стимулами, они более пригодны для формирования поведения человека. Например, во многих странах мира осужденные преступники содержатся в невыносимых условиях. Однако, как показывает практика, такой способ реабилитировать преступников оказался совершенно неэффективным. Это подтверждает высокий уровень рецидивов или повторных нарушений закона.

Б.Ф. Скиннер показал возможности позитивного подкрепления, и это повлияло на стратегии поведения, используемые в воспитании детей, в образовании, бизнесе и промышленности. Во всех этих областях появилась тенденция к все большему поощрению желательного поведения, а не наказанию нежелательного.

В 1972 году Скиннер был признан выдающимся психологом XX века по версии Американской психологической ассоциацией, обойдя в списке претендентов …. Фрейда! Великому психоаналитику, тоже популярному в Америке, досталось второе место.

Одна из последних статей Скиннера, написанная им в 78 лет, называлась «Как сохранить интеллект в старости». В своём последнем интервью больной лейкемией профессор мужественно ответил на провокационный вопрос журналиста о смерти: «Нет, я не верю в Бога, поэтому не боюсь её".

Ххххххххх

⇐ Предыдущая 1 2 345 6 7 Следующая ⇒

Последнее изменение этой страницы: 2017-03-15; Просмотров: 1057; Нарушение авторского права страницы