МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Высшая математика мини-справочник для ВУЗов

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

При проведении многих исследований приходится иметь дело с изучением свойств различных совокупностей однотипных объектов. Экономически не выгодно (а иногда и невозможно) исследовать всю совокупность, если по результатам изучения ее части можно получить с достаточной достоверностью необходимую информацию о всей совокупности. Такой метод исследования называется выборочным.

Вся совокупность объектов, подлежащих изучению, называется генеральной совокупностью. Та часть объектов генеральной совокупности, которая попала в число исследуемых, называется выборочной совокупностью, или выборкой.

Выборки сформированные посредством случайного выбора объектов называются собственно-случайными. Выборка называется повторной, если отобранные объекты после исследования возвращаются в генеральную совокупность (и значит, могут повторно быть выбраны для исследования). Выборка называется бесповторной, если отобранные объекты после исследования не возвращаются в генеральную совокупность.

Любое выборочное исследование не дает точной информации о генеральной совокупности, и, следовательно, каждый результат, полученный по данным выборки, имеет некоторую погрешность, которая называется ошибкой репрезентативности. Случайный характер отбора объектов в выборочную совокупность приводит к случайному характеру ошибки репрезентативности.

Количество объектов в генеральной совокупности называется объемом генеральной совокупности. Количество объектов в выборке называется объемом выборки.

Различные значения изучаемого признака хi, наблюдаемые у членов совокупности, называются вариантами. Число показывающее, сколько раз встречается данный вариант хi в совокупности, называется частотой варианта. Отношение частоты варианта ni к объему совокупности N называется относительной частотой варианта ni/N.

Генеральной средней называется среднее значение изучаемого признака в генеральной совокупности

где хi — значения вариантов генеральной совокупности, Ni — частоты вариантов, N — объем генеральной совокупности.

Выборочной средней называется среднее значение изучаемого признака в выборочной совокупности

где хi — значения вариантов выборочной совокупности, ni — частоты вариантов, n — объем выборочной совокупности.

Пусть М — число элементов генеральной совокупности объема N, наделенных некоторым признаком. Тогда величина р = M/N называется генеральной долей.

Пусть m — число элементов выборочной совокупности объемам, наделенных, некоторым признаком. Тогда величина ω = m/n называется выборочной долей.

Используя выборочный метод, неизвестные величины — генеральную среднюю и генеральную долю — оценивают при помощи случайных величин — выборочной средней и выборочной доли.

Разность определяет ошибку репрезентативности при оценке генеральной средней.

Разность ∆ = ω - р определяет ошибку репрезентативности при оценке генеральной доли.

Часто ставится вопрос об установлении закона распределения значений некоторого признака в генеральной совокупности, то есть об определении относительной частоты ni/N каждого варианта генеральной совокупности xi. Для этого формируют выборку, значения вариант которой x1, х2, ..., хk рассматриваются как значения некоторой случайной величины X и по этим значениям определяют параметры закона распределения.

Наиболее распространенным является нормальное распределение, плотность вероятности которого

Параметрами этого распределения являются математическое ожидание а — математическое ожидание и среднее квадратическое отклонение σ. При этом математическое ожидание равно выборочной средней а параметр о равен выборочному среднему квадратическому отклонению

Полученные в результате изучения объектов выборки значения вариант x1, х2, ..., xk и соответствующие им значения относительных частот можно представить в виде эмпирической функции распределения Fn(x), которая определяет, какая часть объектов выборочной совокупности имеет значение рассматриваемого признака меньшее х.

После определения закона распределения необходимо сопоставить данные полученного эмпирического закона распределения с соответствующим теоретическим законом распределением и в результате этого сопоставления установить, насколько подходит выбранный закон распределения. Для этой цели используются критерии согласия.

Рассмотрим критерий Колмогорова. Суть этого критерия заключается в том, что вводится функция

Dn = max |Fn(х) - F(x)|.

Здесь F(x) — функция распределения теоретического закона распределения, для которой вероятность р(λ) неравенства с ростом числа п стремится к своему пределу

Если указанная вероятность достаточно велика, то расхождение между эмпирическим и теоретическим распределением считается несущественным и выбранный закон подходит. В противном случае считается, что выбранный закон распределения не подходит.

При использовании результатов выборочного исследования оценивают границы ошибки для среднего значения изучаемого признака и ошибки для доли ∆ = ω - р . Для этого используют доверительные интервалы, то есть интервалы, в которые с заданной вероятностью β попадают значения генерального среднего и генеральной доли.

Доверительный интервал для оценки генерального среднего имеет вид

где — предельная ошибка выборки, а — средняя квадратическая ошибка, равная в случае повторной выборки и в случае бесповторной выборки, — дисперсия выборочной совокупности, параметр t — определяется из уравнения Ф(t) = β.

Доверительный интервал для оценки генеральной доли имеет вид

[ω - ∆, ω + ∆],

где — предельная ошибка выборки, а — средняя квадратическая ошибка, равная в случае повторной выборки и в случае бесповторной выборки, параметр t определяется из уравнения Ф(t) = β.