Задача определения оптимальной структуры нейросети

1 2 3 4 5

При использовании искусственных нейронных сетей важной задачей является

нахождение оптимального размера (структуры) сети. такого числа скрытых слоев

нейронов и нейронов в слоях, которые дадут максимум обобщающих способностей, т.е.

минимум ошибки обобщения (generalization error), особенно в случае отсутствия

независимой тестовой выборки или невозможностью искусственно разделить выборку

данных на обучающую и тестовую части из-за недостаточности общего объема данных.

Поэтому широко используется парадигма "кривых обучения" (learning curves).

зависимостей ошибок обучения и обобщения от размеров нейросети и обучающей

выборки [1-4]. Оптимуму соответствуют локальные минимумы или моменты выхода

графиков на асимптоты. Формальные приемы экстраполяции таких графиков [2]

позволяют также оценивать необходимые и достаточные для достижения максимума

обобщающих способностей объемы обучающих выборок в случае первоначальной

недостаточности объемов выборочных данных.

Иным классом кривых обучения являются зависимости "внутренних" свойств

нейросети от её размера, сопоставляемые затем с динамикой ошибки обобщения.

Варианты. анализ [1] внутреннего представления (internal representation) задачи,

теоретическая связь [5] ошибки обучения и максимума суммы модулей весов синапсов,

приходящих на нейрон сети, NIC-критерий [6], оперирующий с градиентами целевой

функции и матрицей Гессе обученной сети и позволяющий оценить разницу между

ошибками обучения и обобщения. Такие критерии позволяют обходиться без

независимой тестовой выборки.

В работе предлагается новый вариант кривой обучения. зависимость среднего

модуля веса синапса от размера нейросети. Точнее, в экспериментах далее будет

использовано значение длины вектора весов синапсов сети (вычисленного в

евклидовой норме), деленное на общее число синапсов, с целью увеличения влияния

наибольших по модулю весов и следующей из этого перестраховке исходя из

результатов [5] о нежелательности именно больших весов синапсов.

Этот критерий не является всеобъемлющим, т.к. имеется неоднородность

наборов синапсов сети от слоя к слою (для сетей малого размера в часто наблюдалось

статистическое различие средних модулей и дисперсий весов синапсов выходного и

скрытого слоя сети). Структурная неоднородность слоистых сетей известна и уже__учитывается алгоритмами обучения [7], но здесь влияние этого факта не исследуется.