Заблуждение о «неоперантной» собаке.

Стр 1 из 11Следующая ⇒

Многие верят, что собака должна научиться быть «оперантной» (в неправильном, но популярном выражении). При этом они имеют в виду, что собака должна быть выдрессирована свободно предлагать варианты поведения, без подсказки хозяина. Это не так. Правда в том, что это хозяева собак должны научиться сопротивляться искушению думать за собаку. Традиционно люди наталкивают собаку на нужные действия с помощью лакомства или нажатия на круп, чтобы собака села или легла. Если бы все владельцы понимали законы, по которым обучаются все животные, они бы умели позволить собаке предлагать варианты, из которых владелец мог бы выбирать, какие подкреплять, а какие нет. Если собака обучалась за кусочек лакомства выполнять все действия, что поощрялось? Пассивность: животное получало награду за безделье. Собака учится ждать и понимает, что отсутствие действий с ее стороны вызовет кусочек еды. Поскольку поощрение создает поведение, неудивительно, что собака не предлагает своих реакций, если вы пытаетесь дрессировать ее, позволяя ей проявить инициативу, а не просто следовать за куском. С чего бы она это стала делать? Она научилась, что сидеть и ждать, пока куском покажут, что сделать – самое поощряемое поведение, которое она может предложить. Хотя некоторые могут обвинить эту собаку в том, что она не «оперантна», правда в том, что она просто продолжает предлагать самое поощряемое поведение – не делать ничего!

«Оперантная» собака, таким образом, осознает потенциальное наличие награды за предложение поведения во время дрессировки. Ее ум участвует в процессе; она готова учиться; она охотно экспериментирует, предлагая варианты поведения. Такое животное поистине дрессируемо и являет собой именно то, о чем мечтает каждый дрессировщик. Успех дрессировки такого животного зависит от способности дрессировщика контролировать то, что является поощрением для собаки. Он должен постепенно усложнять задачу животного, в то же время сохраняя уровень поощрения, при котором животное продолжает попытки «заработать» его. Любой дрессировщик может создать такого внимательного студента, «подготовив почву» и «поднимая ставки».

Готовим почву.

Дрессировщики собак используют и классические, и оперантные условные рефлексы, формируя поведение собаки. Обычный пример классического условного рефлекса – сочетание звука кликера с поощрением, которое нравится собаке, т. е. лакомством или игрушкой (см. главу 4). Для начала, дрессировщик обычно кликает, потом кормит собаку, снова кликает и кормит (всегда в этом порядке). Клик должен идти первым, поскольку вы вырабатываете у собаки условную реакцию выжидания на звук кликера. Через несколько повторений (от 15 до 25 кликов и поощрений) у собаки появляется позитивная ассоциация между звуком щелчка и ценным поощрением. Когда эта связь установилась, собака будет радоваться щелчку, поскольку он предвещает любимое лакомство. Кликер (как и звонок Павлова) становится условным или вторичным подкреплением. Тем же способом можно сделать любое слово условным подкреплением, если вы свяжете для собаки это слово с чем‑ то, что нравится собаке (лакомством или игрушкой). Когда собака поймет, что ее поведение контролирует поощрение, вы можете использовать этот принцип для обучения.

Поднимаем ставки: механика создания поведения.

Когда собака свяжет свое поведение с вторичным подкреплением и всякими хорошими вещами, вы можете использовать оперантное научение, поощряя любые желательные действия собаки. Этот процесс называется «создание поведения». Если у вас реалистичные ожидания, и вы примените принципы Торндайка и Скиннера, вы можете добиться от собаки любого поведения, на которое она физически вообще способна. Потребуется некоторое терпение, пока вы сами не научитесь действовать правильно, но самому созданию поведения можно научиться очень быстро. Это результат ожидания от собаки чего‑ то большего или отличного от того, что она только что предложила.

Например, если ваш новый щенок смотрит на вас, кликните и поощрите его. Здесь клик одновременно и «отмечает», что щенок предложил правильное поведение, и предсказывает награду. Через несколько поощрений за это, задержите чуть‑ чуть щелчок (поднимите ставку). Вы больше не поощряете щенка просто за то, что он взглянул на вас; он должен постараться больше. Подождите, потом щелкните (отметьте) и наградите за следующее желательное действие, которое предложит щенок – сядет, ляжет, попятится. Если следующий вариант нежелателен (лай, прыжки или царапание), замрите и ничего не делайте. Нежелательное поведение, которое не поощряется, исчезнет само. Вы отбираете предлагаемые собакой варианты поведения. Вы дрессируете собаку, подкрепляя нужные действия и игнорируя нежелательные.

Обратный порядок предъявления раздражителей работает редко.

Для выработки классического условного рефлекса на нейтральный раздражитель, подкрепление (еда или игрушка) должны поступить после нейтрального раздражителя (звонка).

Звонок(щелчок) + пища = условный рефлекс на звонок или щелчок

Многие ученые пытались поменять последовательность действий, сначала предъявляя первичное подкрепление (пищу), а затем звоня в звонок. Но эти эксперименты с обратным порядком предъявления нейтрального раздражителя и приятного поощрения не имели успеха. Поэтому поймите, насколько важно сначала кликать, а потом поощрять собаку во время дрессировки. Когда некоторые тренеры используют еду или игрушку, чтобы провести собаку по трассе аджилити, это тоже в какой‑ то степени обратный порядок предъявления раздражителей. Если вы ведете собаку через препятствие, маня ее кусочком, вы теряете возможность выработать у собаки условный рефлекс на препятствие как на нечто приятное. Во время начального обучения База снарядам я предлагала ему поощрение после того, как он выполнял мое задание, например, проносился сквозь туннель, и таким образом вырабатывала условный рефлекс на сами препятствия. Дрессировка таким образом позволяет собаке связать поощрение с работой и перенести ценность. Возбуждение, которое собака испытывает от награды, переносится на само препятствие как таковое. В результате, только один вид снарядов аджилити волновал База, так как обещал возможность заслужить поощрение.

Препятствие аджилити + Подкрепление = Условная реакция на препятствие аджилити

Последствия поведения.

В оперантном научении каждое поведение влечет за собой один из четырех вариантов последствий, которые и влияют на обучение. Заметьте, что слова положительный и отрицательный, которые обычно ассоциируют с хорошим или плохим, просто описывают, что что‑ то прибавилось (положительный) или убавилось (отрицательный). Поощрение всегда увеличивает вероятность поведения, в то время как наказание подавляет поведение. Знание этих фактов поможет вам понять, что «положительная» дрессировка далеко не всегда хороша.

Положительное подкреплениеСобака получает что‑ то желаемое, что в дальнейшем увеличивает частоту данного поведения. Пример: дача собаке лакомства за выполнение команды «Сидеть»

Положительное наказаниеДобавление чего‑ то нежелательного, чтобы подавить реакцию собаки. Пример: одергивание поводком собаки, которая тянет

Отрицательное подкреплениеИзъятие чего‑ то нежелательного и таким образом, подкрепление поведения. Пример: дрессировщик, который щиплет собаку за ухо, пока она не откроет пасть, чтобы взять гантель (собака находит избавление от боли поощряющим)

Отрицательное наказаниеЛишение чего‑ то желаемого, чтобы подавить реакцию собаки. Пример: закрыть собаку, которая прыгает на гостя

Могучее сочетание.

Использование сочетания классических и оперантных условных рефлексов дает дрессировщику гибкие и надежные инструменты для обучения любого животного. Вы можете использовать классические условные рефлексы, чтобы связать любое ранее нейтральное поведение (слалом, выдержка сидя) с тем, что любит ваша собака (игра, мясо, плавание), чтобы создать драйв и возбуждение при выполнении этих действий.

12 3 4 5 6 7 8 9 10 Следующая ⇒