При использовании искусственных нейронных сетей важной задачей является
нахождение оптимального размера (структуры) сети. такого числа скрытых слоев
нейронов и нейронов в слоях, которые дадут максимум обобщающих способностей, т.е.
минимум ошибки обобщения (generalization error), особенно в случае отсутствия
независимой тестовой выборки или невозможностью искусственно разделить выборку
данных на обучающую и тестовую части из-за недостаточности общего объема данных.
Поэтому широко используется парадигма "кривых обучения" (learning curves).
зависимостей ошибок обучения и обобщения от размеров нейросети и обучающей
выборки [1-4]. Оптимуму соответствуют локальные минимумы или моменты выхода
графиков на асимптоты. Формальные приемы экстраполяции таких графиков [2]
позволяют также оценивать необходимые и достаточные для достижения максимума
обобщающих способностей объемы обучающих выборок в случае первоначальной
недостаточности объемов выборочных данных.
Иным классом кривых обучения являются зависимости "внутренних" свойств
нейросети от её размера, сопоставляемые затем с динамикой ошибки обобщения.
Варианты. анализ [1] внутреннего представления (internal representation) задачи,
теоретическая связь [5] ошибки обучения и максимума суммы модулей весов синапсов,
приходящих на нейрон сети, NIC-критерий [6], оперирующий с градиентами целевой
функции и матрицей Гессе обученной сети и позволяющий оценить разницу между
ошибками обучения и обобщения. Такие критерии позволяют обходиться без
независимой тестовой выборки.
В работе предлагается новый вариант кривой обучения. зависимость среднего
модуля веса синапса от размера нейросети. Точнее, в экспериментах далее будет
использовано значение длины вектора весов синапсов сети (вычисленного в
евклидовой норме), деленное на общее число синапсов, с целью увеличения влияния
наибольших по модулю весов и следующей из этого перестраховке исходя из
результатов [5] о нежелательности именно больших весов синапсов.
Этот критерий не является всеобъемлющим, т.к. имеется неоднородность
наборов синапсов сети от слоя к слою (для сетей малого размера в часто наблюдалось
статистическое различие средних модулей и дисперсий весов синапсов выходного и
скрытого слоя сети). Структурная неоднородность слоистых сетей известна и уже__учитывается алгоритмами обучения [7], но здесь влияние этого факта не исследуется.