Нейронная сеть вычисляет некоторую вектор-функцию F от входных сигналов. Эта функция зависит от параметров сети. Обучение сети состоит в подборе такого набора параметров сети, чтобы величина была минимальной (в идеале равна нулю). Для того чтобы нейронная сеть могла хорошо приблизить заданную таблично функцию f необходимо, чтобы реализуемая сетью функция F при изменении входных сигналов с x i на x j могла изменить значение с f i на f j . Очевидно, что наиболее трудным для сети должно быть приближение функции в точках, в которых при малом изменении входных сигналов происходит большое изменение значения функции. Таким образом, наибольшую сложность будет представлять приближение функции f в точках, в которых достигает максимума выражение . Для аналитически заданных функций величина называется константой Липшица. Исходя из этих соображения можно дать следующее определение сложности задачи.
Сложность аппроксимации таблично заданной функции f , которая в точках x i принимает значения f i , задается выборочной оценкой константы Липшица, вычисляемой по следующей формуле:
(2)
Оценка (2) является оценкой константы Липшица аппроксимируемой функции снизу.
Для того, чтобы оценить способность сети заданной конфигурации решить задачу, необходимо оценить константу Липшица сети и сравнить ее с выборочной оценкой (2). Константа Липшица сети вычисляется по следующей формуле:
(3)
В формулах (2) и (3) можно использовать произвольные нормы. Однако для нейронных сетей наиболее удобной является евклидова норма. Далее везде используется евклидова норма.
В следующем разделе описан способ вычисления оценки константы Липшица сети (3) сверху. Очевидно, что в случае сеть принципиально не способна решить задачу аппроксимации функции f .
Оценка константы Липшица сети
Оценку константы Липшица сети будем строить в соответствии с принципом иерархического устройства сети, описанным в главе «Описание нейронных сетей». При этом потребуются следующие правила.
Для композиции функций f ∘ g = f ( g ( x )) константа Липшица оценивается как произведение констант Липшица:
Λ f ∘ g ≤ Λ f Λ g (4)
Для вектор-функции f =( f 1, f 2, … f n) константа Липшица равна:
(5)
Способ вычисления константы Липшица
Для непрерывных функций константа Липшица является максимумом производной в направлении r =( r 1, …, r n) по всем точкам и всем направлениям. При этом вектор направления имеет единичную длину:
Напомним формулу производной функции f ( x 1, …, x n) в направлении r :
(6)
Обозначим входной сигнал синапса через x , а синаптический вес через α. Тогда выходной сигнал синапса равен α x . Поскольку синапс является функцией одной переменной, константа Липшица равна максимуму модуля производной — модулю синаптического веса:
Λ s=|α| (7)
Обозначим входные сигналы умножителя через x 1, x 2Тогда выходной сигнал умножителя равен . Используя (6) получаем . Выражение r 1 x 2+ r 2 x 1является скалярным произведением векторов ( r 1, r 2) и, учитывая единичную длину вектора r , достигает максимума, когда эти векторы сонаправлены. То есть при векторе
Используя это выражение, можно записать константу Липшица для умножителя:
(8)
Если входные сигналы умножителя принадлежат интервалу [ a,b ], то константа Липшица для умножителя может быть записана в следующем виде:
(9)
Поскольку в точке ветвления не происходит преобразования сигнала, то константа Липшица для нее равна единице.
Производная суммы по любому из слагаемых равна единице. В соответствии с (6) получаем:
(10)
поскольку максимум суммы при ограничении на сумму квадратов достигается при одинаковых слагаемых.
Нелинейный Паде преобразователь
Нелинейный Паде преобразователь или Паде элемент имеет два входных сигнала и один выходной. Обозначим входные сигналы через x 1, x 2. Используя (6) можно записать константу Липшица в следующем виде:
Знаменатель выражения под знаком модуля не зависит от направления, а числитель можно преобразовать так же, как и для умножителя. После преобразования получаем:
(11)
Нелинейный сигмоидный преобразователь
Читать дальше