Вариационно-статистическая обработка биологического материала

Современная биология развивается исключительно быстрыми темпами. Одним из важных факторов, стимулирующих дальнейшее развитие различных областей естественных наук, является внедрение в них математики.

Широкое использование математики в ихтиологии началось в пятидесятых годах прошлого столетия, до этого она развивалась на основе качественного анализа явлений.

Основы биометрии как науки о применении математических методов для изучения живых существ, были разработаны Гальтоном (1899).

Для внедрения математики в биологию имелись очень серьезные причины. Одной из них был переход от описательного метода изучения явлений к экспериментальному, а эксперимент неизбежно требовал количественной оценки явлений процессов.

При постановке экспериментов потребовалась разработка схем опытов, методы математического анализа результатов опыта и способы доказательства достоверности того или иного фактора.

Наконец, важнейшим обстоятельством, определившим применение математических и в частности математико-статистических методов, явилось установление факта, что многим биологическим явлениям свойственны статистические закономерности, обнаруживаемые при изучении совокупности, но не приложимые к отдельным единицам совокупности. При изучении биологических совокупностей, являющихся типично статистическими, оказалось целесообразно применять методы математической статистики, которую в применении к биологии стали называть биологической статистикой.

Группировка данных, совокупность и вариационный ряд

Всякое множество отдельных, отличающихся друг от друга и вместе с тем сходных в некоторых существенных отношениях объектов составляет так называемую совокупность. Совокупностями являются, например, особи какого-либо вида рыб из улова. В состав совокупности входят различные члены или единицы, т.е. каждая отдельная рыба. Обычно число единиц совокупности называют объемом совокупности и обозначают латинской буквой n. Единица совокупности может характеризоваться определенными признаками, например, длина и масса рыбы в какой-то пробе. Каждый изучаемый признак принимает разные значения у различных единиц совокупности, он меняется в своем значении от одной единицы совокупности к другой. Это различие между единицами совокупности называется вариацией или дисперсией (т.е. рассеиванием). Мы говорим «признак варьирует». Это означает, что он принимает разные значения у разных признаков у разных членов совокупности. Значение или меру признака называют вариантой и обозначают латинской буквой х. В таком случае ряд вариант в совокупности следует обозначить как х ₁ х ₂ х ₃ … х_п. Общее обозначение любой варианты х_i. Значок i – порядковый номер варианты.

Совокупность может состоять из других более частных совокупностей, так, например, общая проба из улова, разделенная по сортам или видам рыб. Наиболее общую совокупность называют генеральной. Генеральная совокупность может состоять из большего количества единиц, изучить которые все не представляется возможным. Поэтому практически приходится иметь дело со сравнительно небольшими, выборочными совокупностями.

При изучении единиц совокупности по тем или другим признакам необходимо записать полученные данные. Лучше всего эти записи производить на карточках, которые можно группировать любым способом, или в ихтиологическом журнале. При большом объеме собранных материалов обработка может производиться счетной техникой.

Способ обработки данных зависит от характера вариации изучаемых признаков. Различия между вариантами могут быть прерывными (дискретными) и непрерывными. В первом случае они выражаются целыми числами, между которыми нет и не может быть перехода. Например, количество лучей в плавниках.

При непрерывной вариации значения вариант необязательно выражаются только целыми числами. Все зависит от степени точности, которая принимается для характеристики данного количественного признака, например, граммы для обозначения массы рыб, миллиграммы – для обозначения массы кормовых организмов.

Однако во всех этих и подобных случаях существует непрерывная вариация, выражающаяся в том, что между вариантами возможны все переходы

Группировка данных при количественной дискретной вариации

При количественной вариации необходимо предварительно наметить классы, охватывающие все полученные количественные данные, от минимальных от максимальных. Группировку отдельных вариант лучше всего провести по значениям отдельных вариант. Например, число лучей в горизонтальном ряду варьирует от 45 до 54. Составляется таблица с намеченными 9-ю классами и в соответствующие горизонтальные строчки разносятся все варианты, начиная от первой. Обозначаются они так: первые четыре варианты данного класса точками, а последующие – черточками, соединяющими четыре точки. Число 10 в таком случае будет фигурой

В случае, если дискретный признак сильно варьирует, лучше наметить классы, охватывающие несколько значений вариант, например, 40-41 или 40-42.

Вопрос о распределении выборки в безынтервальный и интервальный ряды решается в зависимости от размаха и характера варьирования признака. Если признак варьирует дискретно и слабо, то есть в узких границах, выборка распределяется в безынтервальный ряд, если же в широком диапазоне, то независимо от того, как варьирует признак, дискретно или непрерывно, выборка распределяется в интервальный ряд. При этом важно, чтобы намечаемая ширина классового интервала удовлетворяла определенным требованиям.

Дело в том, что построение вариационного ряда преследует двоякую цель: выявление закономерности варьирования признака и как способ, облегчающий вычисление статистических характеристик варьирующего объекта.

Грубая группировка исходных данных, когда намечаются слишком широкие или слишком узкие классовые интервалы, скажется на точности определения числовых характеристик. Приблизительно оптимальное число классов К определяют по следующей таблице 18.

Таблица 18

Объем выборки и число классов при вычислении
статистических характеристик

Объем выборки (от-до)	Число классов
25-40	5-6
40-60	6-8
60-100	7-10
100-200	8-12
> 200	10-15

Более точная величина К определяется по формуле 1 Стерджеса (1926)

(1)

или по формуле 2 Брукса и Карузерса (1963)

(2)

В тех случаях, когда по вариационному ряду вычисляются численные характеристики (средняя, дисперсии) следует выделять 15-20 классов, независимо от числа наблюдений (Юла, Кендэл, 1960).

Вариационный ряд и его графическое изображение

После распределения всех вариант по классам получаются ряды, которые называются вариационными. По вариационному ряду можно судить о границах (min и max) и о характере вариации. Класс, обладающий наибольшей частотой называется модальным, значения же крайних классов – лимитами или пределами.

Всякий вариационный ряд можно изобразить графически. Существует несколько способов изображения конкретных вариационных рядов. Первый из них применяется при дискретной (прерывистой) вариации, но в том случае, если классы намечены по отдельным значениям вариант, носит название полигона распределения. При построении полигонов нужно всегда доводить их справа и слева до нулевых, то есть до тех соседних классов, в которых уже нет ни одной варианты.

В том случае, когда частота встречаемости выражается не перпендикуляром, а столбиком, основанием которого являются значения класса, график носит название гистограммы или номограммы (рис. 3).

Графическое изображение вариационного ряда это показатель более совершенного анализа.

Рис. 3. Графическое изображение вариационных рядов: линиями или столбиками (перпендикулярами)

Основные характеристики вариационных рядов

Каждый вариационный ряд и его графическое изображение – это как бы «сгущение» исходного фактического материала, превращение его в наглядную форму. Однако этого недостаточно. Очень важно получить характеристики совокупности, которые были бы выражены цифровыми показателями. С их помощью можно сравнивать различные ряды. Одним из простейших способов количественной характеристики вариационного ряда является указание на его размах, то есть на верхнюю и нижнюю границы, которые обычно называются лимитами. Лимиты не указывают на то, как распределяются по изучаемому признаку отдельные члены совокупности. Вот почему для характеристики членов совокупности нужны такие показатели, которые отражали бы свойства всех ее членов.

Две группы показателей для характеристики вариационных рядов

Вариационные ряды могут различаться:

а) по тому значению признака, вокруг которого концентрируется большинство вариант. Это значение признака отражает как бы уровень развития признака в данной совокупности, или иначе центральную тенденцию ряда, то есть типичное для ряда;

б) по степени вариации вокруг уровня, по степени отклонения от центральной тенденции ряда.

Соответственно этому статистические показатели разделяются на две группы: показатели, которые характеризуют центральную тенденцию ряда, или уровень ряда, и показатели, измеряющие степень вариации.

К первой группе относятся различные средние величины: мода, медиана, средняя арифметическая, средняя геометрическая. Ко второй: вариационный размах, среднее абсолютное отклонение, среднее квадратическое отклонение, варианса (или дисперсия), коэффициенты асимметрии и вариации.

Мода и медиана. Например, в вариационном ряду массы леща 47 экз. из 100 имели массу 1200 г, то есть класс 1200 г обладал наибольшей частотой. Такой класс был назван модальным. Значение же модального класса называют модой и обозначают символом Μ_о. Величина моды является как бы типичной для всей совокупности. В случае же, когда модальным является класс 1200-1400, то есть охватывает несколько значений вариант, то для его характеристики необходимо вычислить среднее значение класса. Оно равно . В таком случае М = 1300.

К числу средних величин относится также медиана. Медиана – это среднее значение варианты, находящееся точно в середине ряда.

Чтобы найти такую варианту, надо сначала расположить все варианты по порядку от минимальных до максимальных значений. Такое расположение вариант называется ранжировкой. В нечетном ряду, состоящем из 25 вариант, медиана будет 13 по счету, при четном числе вариант берут значения двух соседних срединных вариант и сумму их делят на два.

Модой и медианой пользуются, когда данные не являются чисто количественными и не могут быть представлены в виде точного вариационного ряда, например, степень наполнения желудков или ожирение, выраженные в баллах. Тогда мода и медиана могут достаточно хорошо характеризовать типичное в совокупности.

Обычно же, когда изучаемая совокупность, достаточно однородна и вариации внутри нее чисто количественные, выгоднее пользоваться другими средними величинами.

Средняя арифметическая и ее свойства

Нахождение средней арифметической – это, в сущности, замена индивидуальных варьирующих значений признаков отдельных членов совокупности некоторой уравненной величиной при сохранении основных свойств всех членов совокупности. Этому условию в наибольшей степени удовлетворяет, так называемая средняя арифметическая, обозначаемая через символ М. Она вычисляется по формуле 3:

(3)

где М – средняя арифметическая;

∑ – знак суммирования;

х – результат измерения признака у каждого объекта;

п – число объектов в группе.

Применение более сложных формул для вычисления средней арифметической необходимо только для облегчения счетной работы при отсутствии достаточной счетной техники. При этом надо помнить, что облегчение расчетов получается за счет небольшого практически малозаметного снижения точности определения средней.

Если нет счетной техники и требуется усреднить признак в многочисленной группе, когда непосредственное сложение становится затруднительным, применяется обходный путь расчета средней арифметической величины – через составление вариационного ряда, например, методом произведений.

Измерение вариации, вариационный размах и средние отклонения

Средняя арифметическая указывает на то, какое значение признака наиболее характерно для данной совокупности. Но сама по себе она еще недостаточна для характеристики совокупности, так как главной особенностью ее является наличие разнообразия между ее членами, то есть вариации. Если бы не было вариаций, то информацию можно было бы получить по одному члену совокупности.

Учет вариации того или иного признака имеет чрезвычайное значение. Определение вариационного размаха, то есть разницы между минимальным и максимальным значениями вариант может указать на степень вариации, но этого недостаточно, так как крайние величины в рядах не очень устойчивы и легко сдвигаются, во вторых, распределение отдельных вариант в рядах может быть различным.

Вот почему для характеристики различий между отдельными значениями случайной переменной, например, длина рыбы, нужен такой показатель, который обобщал бы колеблемость всех вариант. Для этого надо сравнивать варианты или друг с другой или с какой-то постоянной величиной. В качестве последней лучше всего взять среднеарифметическую.

Раньше для получения этого показателя, носящего названия среднего отклонения и среднего абсолютного отклонения, брали сумму отклонения средних вариант, то есть разницу между значениями отдельных вариант каждой варианты и средней арифметической и делили ее на n то есть получали величину

(4).

Однако оказалось, что среднее отклонение не улавливает истинной закономерности вариации, то есть рассеивания вариант в совокупности или в вариационном ряду вокруг средней арифметической.

Более совершенными показателями, характеризующими вариацию, является средний квадрат отклонения от средней арифметической, иначе называемый вариансой, среднеквадратическим отклонением, стандартным отклонением (5).

(5)