Пример 1. Произведено 500 измерений боковой ошибки наводки при стрельбе с самолета по наземной цели. Результаты измерений (в тысячных долях радиана) сведены в статистический ряд:
I, | —4; —3 | —3; —2 | -2; -1 | —1; 0 | 0; 1 | l; 2 | 2; 3 | 3; 4 |
* Pi | 0,012 | 0,050 | 0,144 | 0,266 | 0,240 | 0,176 | 0,092 | 0,020 |
Здесь // обозначены интервалы значений ошибки наводки; mi — число наблюдений в данном интервале, р* = —- — соответствующие частоты.
При группировке наблюденных значений случайной величины по разрядам возникает вопрос о том, к какому разряду отнести значение, находящееся в точности на границе двух разрядов. В этих случаях можно рекомендовать (чисто условно) считать данное значение принадлежащим в равной мере к обоим разрядам и прибавлять к числам т1 того и другого разряда по -н-.
Число разрядов, на которые следует группировать статистический материал, не должно быть слишком большим (тогда ряд распределения становится невыразительным, и частоты в нем обнаруживают незакономерные колебания); с другой стороны, оно не должно быть слишком малым (при малом числе разрядов свойства распределения описываются статистическим рядом слишком грубо). Практика показывает, что в большинстве случаев рационально выбирать число разрядов порядка 10 — 20. Чем богаче и однороднее статистический материал, тем большее число разрядов можно выбирать при составлении статистического ряда. Длины разрядов могут быть как одинаковыми, так и различными. Проще, разумеется, брать их одинаковыми. Однако при оформлении данных о случайных величинах, распределенных крайне неравномерно, иногда бывает удобно выбирать в области наибольшей плотности распределения разряды более узкие, чем в области малой плотности.
|
|
Статистический ряд часто оформляется графически в виде так называемой гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются разряды, и на каждом из разрядов как их основании строится прямоугольник, площадь которого равна частоте данного разряда. Для построения гистограммы нужно частоту каждого разряда разделить на его длину и полученное число взять в качестве высоты прямоугольника. В случае равных по длине
ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН
[ГЛ. 7
разрядов высоты прямоугольников пропорциональны соответствующим частотам. Из способа построения гистограммы следует, что полная площадь ее равна единице.
В качестве примера можно привести гистограмму для ошибки наводки, построенную по данным статистического ряда, рассмотренного в примере 1 (рис. 7.3.1).
Очевидно, при увеличении числа опытов можно выбирать все более и более мелкие разряды; при этом гистограмма будет все более приближаться к некоторой кривой, ограничивающей площадь,
|
|
равную единице. Нетрудно убедиться, что эта кривая представляет собой график плотности распределения величины X.
Пользуясь данными статистического ряда, можно приближенно построить и статистическую функцию распределения величины X. Построение точной статистической функции распределения с несколькими сотнями скачков во всех наблюденных значениях X слишком трудоемко и себя не оправдывает. Для практики обычно достаточно построить статистическую функцию распределения по нескольким точкам. В качестве этих точек удобне взять границы xv x2, • • • разрядов, которые фигурируют в статистическом ряде. Тогда, очевидно,
/"(*!) = 0;
(7.3.2)
140 ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН [ГЛ. 7
Эту характеристику мы будем в дальнейшем называть статистическим средним случайной величины.
Согласно закону больших чисел, при неограниченном увеличении числа опытов статистическое среднее приближается (сходится по вероятности) к математическому ожиданию. При достаточно большом п статистическое среднее может быть принято приближенно равным математическому ожиданию. При ограниченном числе опытов статистическое среднее является случайной величиной, которая, тем не менее, связана с математическим ожиданием и может дать о нем известное представление.
Подобные статистические аналогии существуют для всех числовых характеристик. Условимся в дальнейшем эти статистические аналогии обозначать теми же буквами, что и соответствующие числовые характеристики, но снабжать их значком *.
Рассмотрим, например, дисперсию случайной величины. Она представляет собой математическое ожидание случайной величины
Если в этом выражении заменить математическое ожидание его статистической аналогией — средним арифметическим, мы получим статистическую дисперсию случайной величины X:
где пСх = М* [Х\ — статистическое среднее.
Аналогично определяются статистические начальные и центральные моменты любых, порядков:
Все эти определения полностью аналогичны данным в главе 5 определениям числовых характеристик случайной величины, с той разницей, что в них везде вместо математического ожидания фигурирует среднее арифметическое. При увеличении числа наблюдений, очевидно, все статистические характеристики будут сходиться по вероятности к соответствующим математическим характеристикам и при достаточном п могут быть приняты приближенно равными им.
7.41
ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКОГО РАСПРЕДЕЛЕНИЯ
Нетрудно доказать, что для статистических начальных и центральных моментов справедливы те же свойства, которые были выведены в главе 5 для математических моментов. В частности, статистический первый центральный момент всегда равен нулю:
и т. д.
При очень большом количестве опытов вычисление характеристик по формулам (7.4.1) — (7.4.5) становится чрезмерно громоздким, и можно применить следующий прием: воспользоваться теми же разрядами, на которые был расклассифицирован статистический материал для построения статистического ряда или гистограммы, и считать приближенно значение случайной величины в каждом разряде постоянным и равным среднему значению, которое выступает в роли «представителя» разряда. Тогда статистические числовые характеристики будут выражаться приближенными формулами:
142," ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН [ГЛ. 7
величины X, с той только разницей, что вместо вероятностей pt в них стоят частоты р*, вместо математического ожидания тх — статистическое среднее т*, вместо числа возможных значений случайной величины — число разрядов.
|
|
В большинстве руководств по теории вероятностей и математической статистике при рассмотрении вопроса о статистических аналогиях для характеристик случайных величин применяется терминология, несколько отличная от принятой в настоящей книге, а именно, статистическое среднее именуется «выборочным средним», статистическая дисперсия—«выборочной дисперсией» и т. д. Происхождение этих терминов следующее. В статистике, особенно сельскохозяйственной и биологической, часто приходится исследовать распределение того или иного признака для весьма большой совокупности индивидуумов, образующих статистический коллектив (таким признаком может быть, например, содержание белка в зерне пшеницы, вес того же зерна, длина или вес тела какого-либо из группы животных и т. д.). Данный признак является случайной величиной, значение которой от индивидуума к индивидууму меняется. Однако, для того, чтобы составить представление о распределении этой случайной величины или о ее важнейших характеристиках, нет необходимости обследовать каждый индивидуум дайной обширной совокупности; можно обследовать некоторую выборку достаточно большого объема для того, чтобы в ней были выявлены существенные черты изучаемого распределения. Та обширная совокупность, из которой производится выборка, носит в статистике название генеральной совокупности. При этом предполагается, что число членов (индивидуумов) N в генеральной совокупности весьма велико, а число членов п в выборке ограничено. При достаточно большом N оказывается, что свойства выборочных (статистических) распределений и характеристик практически не зависят от N; отсюда естественно вытекает математическая идеализация, состоящая в том, что генеральная совокупность, из которой осуществляется выбор, имеет бесконечный объем. При этом отличают точные характеристики (закон распределения, математическое ожидание, дисперсию и т. д.), относящиеся к генеральной совокупности, от аналогичных им «выборочных» характеристик. Выборочные характеристики отличаются от соответствующих характеристик генеральной совокупности за счет ограниченности объема выборки п; при неограниченном увеличении п, естественно, все выборочные характеристики приближаются (сходятся по вероятности) к соответствующим характеристикам генеральной совокупности. Часто возникает вопрос о том, каков должен быть объем выборки п для того, чтобы по выборочным характеристикам можно было с достаточной точностью судить о неизвестных характеристиках генеральной совокупности или о том, с какой степенью точности при заданном объеме выборки можно судить о характеристиках генеральной совокупности. Такой методический прием, состоящий в параллельном рассмотрении бесконечной генеральной совокупности, из которой осуществляется выбор, и ограниченной по объему выборки, является совершенно естественным в тех областях статистики, где фактически приходится осуществлять выбор из весьма многочисленных совокупностей индивидуумов. Для практических задач, связанных с вопросами стрельбы и вооружения, гораздо <5олее характерно другое положение, когда над исследуемой случайной величиной (или системой случайных величин) производится ограниченное число оп, юв с целью определить те или иные характеристики этой величины, на!(имер, когда с целью исследования закона рассеивания при стрельбе производится некоторое количество выстрелов, или с целью исследования ошибки наводки производится серия опытов, в каждом из которых ошибка наводки регистрируется с помощью фотопулемета, и т. д. При этом ограни-
|
|
7.51 ВЫРАВНИВАНИЕ СТАТИСТИЧЕСКИХ РЯДОВ 143
ченное число опытов связано не с трудностью регистрации и обработки, а со сложностью и дороговизной каждого отдельного опыта. В этом случае с известной натяжкой можно также произведенные п опытов мысленно рассматривать как «выборку» из некоторой чисто условной «генеральной совокупности», состоящей из бесконечного числа возможных или мыслимых опытов, которые можно было бы произвести в данных условиях. Однако искусственное введение такой гипотетической «генеральной совокупности* при данной постановке вопроса не вызвано необходимостью и вносит в рассмотрение вопроса, по существу, излишний элемент идеализации, не вытекающий из непосредственной реальности задачи.
Поэтому мы в данном курсе не пользуемся терминами «выборочное среднее», «выборочная дисперсия», «выборочные характеристики» и т. д., заменяя их терминами «статистическое среднее», «статистическая дисперсия», «статистические характеристики».
7.5. Выравнивание статистических рядов
Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с тем, что число наблюдений ограничено, что произведены именно те, а не другие опыты, давшие именно те, а не другие результаты. Только при очень большом числе наблюдений эти элементы случайности сглаживаются, и случайное явление обнаруживает в полной мере присущую ему закономерность. На практике мы почти никогда не имеем дела с таким большим числом наблюдений и вынуждены считаться с тем, что любому статистическому распределению свойственны в большей или меньшей, мере черты случайности. Поэтому при обработке статистического материала часто приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую распределения, выражающую лишь существенные черты статистического материала, но не случайности, связанные с недостаточным объемом экспериментальных данных. Такая задача называется задачей выравнивания (сглаживания) статистических рядов.
Задача выравнивания заключается в том, чтобы подобрать теоретическую плавную кривую распределения, с той или иной точки зрения наилучшим образом описывающую данное статистическое распределение (рис. 7.5.1).
Задача о наилучшем выравнивании статистических рядов, как и вообще задача о наилучшем аналитическом представлении эмпирических функций, есть задача в значительной мере неопределенная, и решение ее зависит от того, чтб условиться считать «наилучшим». Например, при сглаживании эмпирических зависимостей очень часто исходят из так называемого принципа или метода наименьших квадратов (см. п° 14.5), считая, что наилучшим приближением к эмпирической зависимости в данном классе функций является такое, при котором сумма квадратов отклонений обращается в минимум. При этом вопрос о том, в каком именно классе функций следует искать наи-. лучшее приближение, решается уже не из математических сообра-