О стадии развития № 2

С этой стадии начинается постепенное замещение рефлекторного реагирования новым типом реактора – моторным автоматизмом. Он имеет приоритет активации над рефлексом, что означает: рефлекс активируется, только если нет автоматизма на аналогичный пусковой образ.

Моторный автоматизм – ответная реакция, способная модифицироваться (блокироваться, изменяться) в зависимости от оценки изменения текущего Базового состояния Плохо/Норма/Хорошо по принципу: стало лучше/стало хуже. При улучшении Базового состояния автоматизм закрепляется, при ухудшении блокируется или модифицируется.

Моторные автоматизмы во второй стадии создаются путем клонирования действий рефлексов. Полученный автоматизм теперь включает в свой интегральный пусковой образ кроме наследованных от рефлекса базового состояния, сочетания контекстов и пусковых стимулов, так же тон сообщения, настроение оператора и фразу. Поэтому в процессе диалога с Beast надо учитывать флажки тона и настроения.

Задача стадии:

На основе существующих рефлексов, а так же простейшими алгоритмами экспериментирования создать базу моторных автоматизмов.

Для этого используются короткие диалоги с обязательными пусковыми стимулами, определяющими оценку Оператора на ответ Beast, что позволяет произвести коррекцию успешности автоматизма. Но пока что такие «диалоги» будут сумбурными, как разговор с шизофреником, с перескакиванием с одной темы на другую просто потому, что понятие «тема диалога» на этой стадии для Beast не существует. Поэтому не нужно пытаться строить длинные диалоги, здесь задача проще: протестировать на «удачность» попытки Beast ответить на пусковой стимул. Для этого нужно использовать соответствующие кнопки действий в своем ответе на ответ Beast: понятно/не понятно, наказать/поощрить, сделать больно/сделать приятно и др. Это по сути соответствует поощрению/наказанию при дрессуре: погладить/шлепнуть, дать лакомство/ударить током, похвалить/отругать и т. д. Имея в виду, что некоторые виды наказаний/поощрений могут сильно изменить текущее состояние Beast и его реакция может резко отличаться от предыдущей. Рассмотрим этот процесс подробнее.

На второй стадии есть механизм учитывания последствий реагирования, что означает: если после выполнения действия Beast ответная реакция Оператора вызвала негативный эффект, выполненный автоматизм Beast оценивается как неудачный и блокируется и в следующий раз при соответствующих пусковых стимулах не выполняется. А если ответ Оператора на действия Beast был оценен как положительный, то автоматизм закрепляется, повышая свой статус и получая тем самым приоритет при выборе в качестве ответного действия. На первый взгляд этого достаточно, для формирования адекватных пар стимул – ответ. Но в действительности есть существенная проблема: каждое действие Оператора меняет внутреннее состояние Beast, меняя тем самым изначальный контекст, и теперь ответное действие Beast будет привязано к нему, что при сильном отличие первичного и последующего состояний существенно усложняет формирование цепочки стимул – ответ в одном контексте. В итоге Beast воспринимает ответный стимул Оператора в отрыве от своей предыдущей реакции, хотя при этом оценка выполненного автоматизма происходит корректно. Вывод довольно неожиданный, ведь нам кажется очевидным, что методом кнута и пряника всегда можно доходчиво «объяснить», что требуется.

Есть принципиальная разница в мягкой дрессировке кошек и собак (жесткое формирование У-рефлекса не рассматриваем), зависящая от их образа жизни. Собаки стайные животные, у них развит инстинкт подчинения авторитету (вожаку). Поэтому основа успеха дрессуры собак – стать для нее «вожаком», тогда останется только «объяснить» ей, что от нее требуется, и она будет стремиться это выполнить. Кошки в естественной среде обитания ведут одиночный образ жизни, у них нет предрасположенности подчиняться более сильному, выполняя его требования. Поэтому метод «кнута и пряника» с кошками не работает, они не связывают наказания и поощрения со своими действиями. В мягкой дрессуре кошек акцент делается на другой подход – подражание. Чтобы побудить кошку что то сделать, она должна увидеть это действие на чужом примере, оценить подкрепление, соотнести со своими потребностями – и только тогда она может принять решение повторить его, чтобы получить аналогичное подкрепление. То есть для эффективной работы метода «кнут и пряник» нужен механизм удержания образа предыдущего состояния, чтобы сформировать цепочку стимул – ответ в одном контексте, чего у Beast во второй стадии еще нет. Этот механизм произвольного удержания образа у Beast становится доступным только с 4 стадии.

Моторный автоматизм создается через пробное использование существующего автоматизма, а в случае ее отсутствия активируется ориентировочный рефлекс 1 типа и делается простейшая  попытка создать новый автоматизм по следующему алгоритму:

Рассмотрим это на примере создания вербального автоматизма в контексте Поиск, Игра и базовом состоянии Норма. Видео пример 1

Оператор: привет
Beast: здравствуй

  1. Оператор пишет в окне ввода «Привет», жмет кнопку «Послать». Beast формирует автоматизм (стимул – ответ): Привет – Привет и выдает его на пульт. Как повтор стимула Оператора.
  2. Оператор пишет в окне ввода «Здравствуй», жмет кнопку «Послать». Beast формирует автоматизм (стимул – ответ): Здравствуй – Здравствуй и выдает его на пульт. Как повтор стимула Оператора. Если зайти на вкладку «Автоматизмы», то увидим в таблице автоматизмов 2 новых созданных. При этом Полезность и Уровень Belief у обоих нулевой, что означает их пробный статус.
  3. Оператор пишет в окне ввода «Привет», жмет кнопку «Послать». Beast уже имея автоматизм, созданный на первом шаге, активирует его, выдавая: «Привет» и выдает его на пульт.
  4. Но это не верный ответ, Оператор применяет «кнут», посылая стимул «Наказать». Beast блокирует автоматизм, меняя его статус на -1. Теперь в таблице Автоматизмов видим, что Belief автоматизма «Привет – Привет» стал -1, что означает его блокировку. Теперь он не будет активироваться на стимул «Привет», но может быть активирован на другой стимул.
  5. Действия Оператора меняет состояние Beast до уровня Плохо, что провоцирует ответ Beast в виде соответствующей реакции «плачет». Ответная реакция Оператора будет привязана к состоянию Плохо и влиять на оценку последней реакции Beast.
  6. Оператор возвращает начальное состояние Норма, чтобы вернуться в исходный контекст, для которого он пытается создать автоматизм, при этом возникает состояние Хорошо, которое будет длиться 50 сек. Чтобы этого не ждать, Оператор просто выключает Beast.
  7. Оператор включает Beast и снова отправляет сообщение "Привет".
  8. Но так как автоматизм на этот вербальный стимул заблокирован, Beast выдает пробник в виде действия второго автоматизма «Здравствуй», хотя он привязан к другому пусковому стимулу.
  9. Оператор поощряет попытку Beast нажатием кнопки «Поощрить». В итоге формируется новый автоматизм «Привет – Здравствуй» с полезностью 1 и Belief 2.

Однако вместо 3 автоматизмов было создано 8, где 5 сформировались как пробные в результате реакций на изменения внутреннего состояния Beast, спровоцированные действиями Оператора. И такой процесс создания «мусорных автоматизмов» будет сопровождать каждую новую пару. Кроме того, механизм создания пробника для следующей пары, например «как дела – нормально», будет пытаться сначала подсунуть последний удачный автоматизм «здравствуй», а не «нормально», что еще больше увеличит время обучения и добавит мусора. И чем больше будет попыток создать новые автоматизмы, тем больше будет неудачных пробников, ведь Beast будет перебирать сначала все ранее удачные для других пусковых стимулов, и лишь в конце попытается подставить новый, с нулевой Полезностью и Belief.

Если попробовать создать еще одну пару, получим еще больше мусора. Видео пример 2 Тут видно, как Beast последовательно пытается подсунуть пару успешных автоматизмов, затем перебирает заблокированные и только потом наконец находит нужный вариант. В конечном итоге из 20 созданных автоматизмов реально рабочих лишь 2, остальные мусор или заблокированные.

Этот пример наглядно показывает, какие сложности возникают при обучении методом кнута и пряника, если нет механизма удержания образа предыдущего состояния. Оператору приходилось искусственно возвращать состояние в начальный уровень и перезапускать Beast, и все равно это не решает проблему образования «мусора» и все возрастающего «перебора вариантов». Для более успешного обучения нужен специфический механизм, позволяющий однозначно связывать нужные пары из пробных автоматизмов стимул – ответ, который активируется на 3 стадии в виде механизма отзеркаливания, либо в более сложном варианте, механизм произвольного удержания образа состояния, который есть у стайных животных, включая людей. Который позволяет «понимать», чем именно недоволен «вожак».

Но, тем не менее, уже можно сказать, что теперь начинается осмысленное реагирование, хотя пока только в простейшем, контекстно не связанном варианте, когда выполненное действие просто оценивается: стало лучше или хуже для системы гомеостаза Beast. Это дает возможность модифицировать реакцию: заблокировать, улучшить или создать новую.

Как и на предыдущих уровнях, есть ускоренная возможность создать базу автоматизмов на основе всех существующих условных и безусловных рефлексов. При этом нужно учитывать: такая база будет избыточной, и большинство автоматизмов не будут задействованы, но такой массив скажется на скорости работы программы. Однако для тестирования, чтобы избежать длительной фазы обучения, можно как и ранее набрать базу автоматизмов в ускоренном режиме. Для этого нужно на вкладке «Автоматизмы» нажать последовательно кнопки:

  1. Удалить все автоматизмы и очистить дерево автоматизмов
  2. Создать автоматизмы на основе существующих безусловных рефлексов
  3. Создать автоматизмы на основе существующих условных рефлексов

Полученную базу моторных автоматизмов можно посмотреть в виде таблицы и дерева, если перейти по соответствующим ссылкам на странице «Автоматизмы».