Е.С.Борисов
27 октября 2002 г.
Элементами
этих двух множеств есть пары  , где
, где 
 -
      входной вектор для обучаемой НС;
-
      входной вектор для обучаемой НС;  -
      верный (желаемый) выходной вектор для
-
      верный (желаемый) выходной вектор для  ;
;  . Обычно это средняя квадратичная
     ошибка (mean squared error - MSE) [
. Обычно это средняя квадратичная
     ошибка (mean squared error - MSE) [

где
 -
      количество обработанных НС примеров;
-
      количество обработанных НС примеров;  -
      реальный выход НС;
-
      реальный выход НС;  -
      желаемый (идеальный) выход НС;
-
      желаемый (идеальный) выход НС;  .
.
     1. Перед началом обучения весовые коэффициенты НС устанавливаются некоторым образом, на пример - случайно.
2.     
На первом этапе
на вход НС в определенном порядке подаются учебные примеры. На каждой
итерации вычисляется ошибка для учебного примера  (ошибка обучения) и по
определенному алгоритму производится коррекция весов НС. Целью процедуры коррекции
весов есть минимизация ошибки
(ошибка обучения) и по
определенному алгоритму производится коррекция весов НС. Целью процедуры коррекции
весов есть минимизация ошибки  .
. 
3.     
На втором этапе
обучения производится проверка правильности работы НС. На вход НС в
определенном порядке подаются контрольные примеры. На каждой итерации
вычисляется ошибка для контрольного примера  (ошибка обобщения). Если результат
неудовлетворительный то, производится модификация множества учебных примеров
(ошибка обобщения). Если результат
неудовлетворительный то, производится модификация множества учебных примеров
 падает
     почти до нуля, в то время как ошибка обобщения
падает
     почти до нуля, в то время как ошибка обобщения  в начале спадает а
     затем начинает расти, то это признак эффекта переобучения. В этом
     случае обучение необходимо прекратить.
в начале спадает а
     затем начинает расти, то это признак эффекта переобучения. В этом
     случае обучение необходимо прекратить. В случае однослойной сети алгоритм обучения с учителем - прост. Желаемые выходные значения нейронов единственного слоя заведомо известны, и подстройка весов синаптических связей идет в направлении, минимизирующем ошибку на выходе сети.
По этому принципу строится
алгоритм обучения однослойного персептрона [
Данный метод был предложен
Ф.Розенблаттом в 1959 г. для НС, названной персептрон (perceptron) [
Процедуру обучения
Розенблатта для однослойного персептрона можно представить так [
где
 -
-  -тый
     вход НС
-тый
     вход НС  -
     желаемый (идеальный)
-
     желаемый (идеальный)  -тый выход НС
-тый выход НС  -
     коэффициент (скорость обучения)
-
     коэффициент (скорость обучения) 
Весовые коэффициенты меняются только в том случае, если реальное выходное значение не совпадает идеальным выходным значением.
Полный алгоритм обучения Розенблатта строится следующим образом:
 не совпадает
     с идеальным выходом
не совпадает
     с идеальным выходом 

Персептрон Розенблатта
ограничивается бинарными выходами. Видроу и Хофф изменили модель Розенблатта.
Их первая модель - ADALINE (Adaptive Linear Element) имела один выходной нейрон
Метод обучения Видроу-Хоффа
известен еще как дельта-правило (delta-rule). Этот метод ставит своей
целью минимизацию функции ошибки  в пространстве весовых коэффициентов.
в пространстве весовых коэффициентов. 
где
 -
     количество обработанных НС примеров
-
     количество обработанных НС примеров  -
     ошибка для
-
     ошибка для  -го примера
-го примера  -
     реальный выход НС для
-
     реальный выход НС для  -го примера
-го примера  -
     желаемый (идеальный) выход НС для
-
     желаемый (идеальный) выход НС для  -го примера
-го примера Минимизация  осуществляется
методом градиентного спуска
осуществляется
методом градиентного спуска 

где

Таким образом весовые коэффициенты изменяются по правилу
Полный алгоритм обучения методом Видроу-Хоффа строится следующим образом:
 (
( )
)  ;
; 
 - суммарная среднеквадратичная ошибка НС)
- суммарная среднеквадратичная ошибка НС) Сеть, имеющую два и более слоёв, уже проблематично обучить описанными выше методами, поскольку в многослойных сетях известен выход лишь последнего слоя нейронов.
Вариант решения этой задачи
был предложен Д.Румельхартом с соавторами в 1986 году [
Метод обратного
распространения ошибки (error back propagation - BP) это итеративный
градиентный алгоритм обучения многослойных НС без обратных связей [
где
 -
     реальное значение
-
     реальное значение  -того выхода НС;
-того выхода НС;  -
     идеальное (желаемое) значение
-
     идеальное (желаемое) значение  -того выхода НС;
-того выхода НС; Минимизация  ведется методом
градиентного спуска. Подстройка весовых коэффициентов происходит следующим
образом:
ведется методом
градиентного спуска. Подстройка весовых коэффициентов происходит следующим
образом: 
где
 -
     весовой коэффициент синаптической связи, соединяющей
-
     весовой коэффициент синаптической связи, соединяющей  -ый и
-ый и  -ый
     узлы НС;
-ый
     узлы НС;  - коэффициент скорости обучения;
- коэффициент скорости обучения; · Здесь
 -
      выход нейрона
-
      выход нейрона  ,
,  -
      взвешенная сумма его входных сигналов, то есть аргумент активационной функции.
-
      взвешенная сумма его входных сигналов, то есть аргумент активационной функции.
      
где  число нейронов слоя
число нейронов слоя  .
. 
Введя новую переменную
мы получим рекурсивную
формулу для расчетов величин  слоя
слоя  из величин
из величин  слоя
слоя  .
. 
Для выходного слоя
Теперь мы можем записать (
Полный алгоритм обучения НС с помощью процедуры обратного распространения ошибки строится следующим образом:
Для
выходного слоя вычислить изменения весов 
по (
Для
всех остальных слоев вычислить  по (
по (


либо модификация архитектуры НС
функцию единичного скачка
более поздняя модель - MADALINE имела несколько выходных нейронов
таким, образом функция единичного скачка и прочие активационные функции с неоднородностями не подходят. В данном случае применяются гладкие функции - гиперболический тангенс или классический сигмоид с экспонентой
F.Rosenblatt ''Principles of
Neurodinamics.'' 1962, New York: Spartan Books. 
Русский перевод: 
Ф.Розенблатт ''Принципы нейродинамики.'' Москва ''Мир'' 1965. 
D.E.Rumelhart, G.E.Hinton,
R.J.Williams 
''Learning internal representations by error propagation.'' 1986. 
In Parallel distributed processing, vol. 1, pp. 318-62. Cambridg, MA: MIT
Press. 
В.Widrow, M.Hoff ''Adaptive switching circuits.'' 1960 IRE WESCON Convention Record, part 4, pp. 96-104. New York: Institute of Radio Engineers.
В.А.Головко, под ред.проф.А.И.Галушкина 
''Нейронные сети: обучение, организация и применение'', ИПРЖР, Москва 2001 
С.Короткий ''Нейронные сети'' - 
Л.Г.Комарцова, А.В. Максимов ''Нейрокомпьютеры'' 
Москва, МГТУ им. Н.Э.Баумана, 2002 
| Обнаружен организм с крупнейшим геномом Новокаледонский вид вилочного папоротника Tmesipteris oblanceolata, произрастающий в Новой Каледонии, имеет геном размером 160,45 гигапары, что более чем в 50 раз превышает размер генома человека. | Тематическая статья: О вере в полеты американцев на Луну | 
| Рецензия: Комментарии к статье Теория функциональных систем П.Анохина | Топик ТК: Модель субъективного как пазл | 
| 
 | ||||||||||||