Математическая статика. Наглядная математическая статистика


Каждое исследование в области случайных явлений своими корнями всегда уходит в эксперимент, в опытные данные. Числовые данные, которые собирают при изучении какого-либо признака некоторого объекта, называются статистическими . Статистические данные являются первоначальным материалом исследования. Для того, чтобы они представляли научную или практическую ценность, их надо обработать методами математической статистики.

Математическая статистика - это научная дисциплина, предметом изучения которой является разработка методов регистрации, описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

Основными задачами математической статистики являются:

    определение закона распределения случайной величины или системы случайных величин;

    проверка правдоподобия гипотез;

    определение неизвестных параметров распределения.

Все методы математической статистики основаны на теории вероятностей. Однако в силу специфичности решаемых задач математическая статистика выделяется из теории вероятностей в самостоятельную область. Если в теории вероятностей считается заданной модель явления и производится расчет возможного реального течения этого явления (рис.1), то в математической статистике подбирается подходящая теоретико-вероятностная модель, исходя из статистических данных (рис.2).

Рис.1. Общая задача теории вероятностей

Рис.2. Общая задача математической статистики

Как научная дисциплина математическая статистика развивалась вместе с теорией вероятностей. Математический аппарат этой науки построен во второй половине XIX века.

2. Генеральная совокупность и выборка.

Для изучения статистических методов вводятся понятия генеральной и выборочной совокупностей. В общем случае под генеральной совокупностью понимается случайная величина X с функцией распределения
. Выборочной совокупностью или выборкой объемаn для данной случайной величины X называется набор
независимых наблюдений этой величины, гденосит название выборочного значения или реализации случайной величиныX. Таким образом, можно рассматривать как числа (если эксперимент проведен и выборка состоялась) и как случайные величины (до проведения эксперимента), поскольку они меняются от выборки к выборке.

Пример 1 . Для определения зависимости толщины ствола дерева от его высоты было отобрано 200 деревьев. В данном случае объем выборки n=200.

Пример 2. В результате распиловки древесностружечных плит на круглопильном станке было получено 15 значений удельной работы резания. В этом случае n=15.

Д
ля того чтобы по данным выборки уверенно судить об интересующем нас признаке генеральной совокупности, объекты выборки должны правильно ее представлять, то есть выборка должна бытьрепрезентативной (представительной). Репрезентативность выборки обычно достигается случайностью отбора объектов: каждому объекту генеральной совокупности обеспечивается равная со всеми остальными вероятность попадания в выборку.

Рис.3. Демонстация репрезентативности выборки

СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.

Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретные и случайные непрерывные величины.

Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).

Непрерывной называют величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)

Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).

П р и м е р:

x x 1 x 2 x 3 x 4 ... x n
p р 1 р 2 р 3 р 4 ... p n
x x 1 x 2 x 3 x 4 ... x n
m m 1 m 2 m 3 m 4 ... m n

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.

Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры, получившие название числовых характеристик случайной величины . Наиболее употребительные из них:

1 .Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:

2 .Дисперсия случайной величины:


3 .Среднее квадратичное отклонение :

Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения

ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ

Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность : он является предельным законом, к которому приближаются другие законы распределения.

Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:



M(X) - математическое ожидание случайной величины;

s - среднее квадратичное отклонение.

Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:


ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.

Основными понятиями математической статистики являются:

1. Генеральная совокупность;

2. выборка;

3. вариационный ряд;

4. мода;

5. медиана;

6. процентиль,

7. полигон частот,

8. гистограмма.

Генеральная совокупность - большая статистическая совокупность, из которой отбирается часть объектов для исследования

(Пример: все население области, студенты вузов данного города и т.д.)

Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.

Вариационный ряд - статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.

Пример:

X,кг
m

x - значение случайной величины (масса девочек в возрасте 10 лет);

m - частота встречаемости.

Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).

Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.

Пример:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.

Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями . Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.

Используют дискретное (точечное) статистическое распределение инепрерывное (интервальное) статистическое распределение.

Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы .

Полигон частот - ломаная линия, отрезки которой соединяют точки с координатами (x 1 ,m 1 ), (x 2 ,m 2 ), ..., или для полигона относительных частот – с координатами (x 1 ,р * 1 ), (x 2 ,р * 2 ), ...(Рис.1).


m m i /n f(x)

Рис.1 Рис.2

Гистограмма частот - совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx , а высоты равны отношению частоты к dx , или р * к dx (плотность вероятности).

Пример:

х, кг 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Полигон частот

Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=m i / n dx = p* i / dx

Пример построения гистограммы .

Воспользуемся данными предыдущего примера.

1. Расчет количества классовых интервалов

гдеn - число наблюдений. В нашем случае n = 100 . Следовательно:

2. Расчет ширины интервала :

,

3. Составление интервального ряда:

2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Гистограмма

«Некоторые люди думают, что они всегда правы. Такие люди не могли бы ни быть хорошими учёными, ни иметь какой – либо интерес к статистике… Случай был с неба спущен на землю, где он стал частью мира науки». (Дайменд С.)

«Случай - только мера нашего невежества. Случайными явлениями, если дать им определение, будут те, законов которых мы не знаем». (А. Пуанкаре «Наука и гипотеза»)

«Слава случаю. Разве не случай
С непреложным всегда наравне…
Случай часто событием правит,
Порождает и радость, и боль.
И задачу пред нами жизнь ставит:
Как постигнуть случайности роль»
(из книги Б.А. Кордемского «Математика изучает случайности»)

Сам мир закономерен – так мы часто считаем и изучаем законы физики, химии и т.д., и всё же ничто не происходит без вмешательства случайности, возникающей под воздействием непостоянных, побочных причинных связей, изменяющих ход явления или опыта при его повторении. Создаётся «эффект случайности» с присущей закономерностью «скрытой предопределённости», т.е. у случайности появляется необходимость закономерного исхода.

Математики случайные события рассматривают лишь в дилемме « быть или не быть» - наступит или не наступит.

Определение. Раздел прикладной математики, в котором исследуются количественные характеристики массовых случайных событий или явлений, называется математической статистикой.

Определение. Соединение элементов теории вероятностей и математической статистики называют стохастикой.

Определение. Стохастика - это тот раздел математики, который возник и развивается в тесной связи с практической деятельностью человека. Сегодня элементы стохастики входят в математику для всех, становятся новым, важным аспектом математического и общего образования.

Определение. Математическая статистика – наука о математических методах систематизации, обработки и использовании статистических данных для научных и практических выводов.

Поговорим об этом подробнее.

Общепринятой сейчас является точка зрения на математическую статистику как на науку об общих способах обработки результатов эксперимента. Решая эти проблемы, каким должен обладать эксперимент, чтобы сделанные на его основании суждения были правильными. Математическая статистика отчасти становится наукой о планировании эксперимента.

Значение слова «статистика» за последние два столетия претерпело значительные изменения, - пишут известные современные учёные Ходжес и Леман, - слово «статистика» имеет один корень со словом «государство» (state) и первоначально означало искусство и науку управления: первые преподаватели статистики университетов Германии 18-го века сегодня назывались бы специалистами по общественным наукам. Поскольку решения правительства до некоторой степени основываются на данных о населении, промышленности и т.д. статистики, естественно, стали интересоваться и такими данными, и постепенно слово «статистика» стало означать сбор данных о населении, о государстве, а затем вообще сбор и обработку данных. Нет смысла извлекать данные, если из этого не извлекается какая-то польза, и статистики, естественно, начинают заниматься интерпретацией данных.

Современный статистик изучает методы, при помощи которых можно сделать выводы о популяции на основе данных, которые обычно получают из выборки «популяции».

Определение. Статистик – человек, который занимается наукой о математических методах систематизации, обработке и использования статистических данных для научных и практических выводов.

Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина 19 начало 20-ых веков) обязано в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, К. Гауссу, А. Кетле, Ф.Гальтону, К Пирсону, и др. В 20 –ом наиболее существенный вклад в математическую статистику был сделан А.Н. Колмогоровым, В.И. Романовским, Е.Е. Слуцким, Н.В. Смирновым, Б.В. Гнеденко, а также английскими Стъюдентом, Р. Фишером, Э. Пурсоном и американскими (Ю. Нейман, А Вальд) учёными.

Задачи математической статистики и значение ошибки в мире науки

Установление закономерностей, которым подчинены массовые случайные явления, основаны на изучении методами теории вероятностей статистических данных результатов наблюдений.

Первая задача математической статистики – указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики – разработать методы анализа статистических данных в зависимости от целей исследования.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирования эксперимента), в ходе исследования (последовательный анализ). Её можно определить как науку о принятии решений в условии неопределённости.

Кратко, можно сказать, задача математической статистики состоит в создании методов сбора и обработки статистических данных.

При изучении массового случайного явления предполагается, что все испытания производятся при одинаковых условиях, т.е. группа основных факторов, поддающихся учёту (измерению) и оказывающих существенное влияние на результат испытания, сохраняет по возможности одинаковые значения.

Случайные факторы искажают результат, который получился бы при наличии только основных факторов, делают его случайным. Отклонение результата каждого испытания от истинного называется ошибкой наблюдения, которая представляет собой случайную величину. Необходимо различать систематические ошибки и случайные.

Научный эксперимент немыслим без ошибки как океан, без соли. Любой поток фактов, пополняющий наше знание, приносит какую-то ошибку. Согласно известной поговорке в жизни у большинства людей ни в чём нельзя быть уверенным, кроме смерти и налогов, а учёный добавляет: “И ошибок опыта”.

Статистик- это “ищейка”, которая охотится за ошибкой. Статистика инструмент для обнаружения ошибки.

Слово “ошибка” не означает простой “просчёт”. Последствия просчёта – это небольшой и сравнительно неинтересный источник ошибки эксперимента.

Действительно, наши инструменты ломаются; наши глаза и уши могут обмануть нас; наши измерения никогда не бывают совершенно точными, иногда даже наши арифметические подсчёты бывают ошибочными. Ошибка эксперимента есть нечто более существенное, чем неточная рулетка или обман зрения. И так как важнейшее дело статистики помочь учёным проанализировать ошибку эксперимента, то мы должны попытаться понять, что же такое ошибка в действительности.

Над какой бы проблемой учёный не работал, она, безусловно, окажется более сложной, чем ему бы хотелось. Предположим, он измеряет выпадение радиоактивных осадков в разных широтах. Результаты будут зависеть от высоты над уровнем моря тех мест, где собраны образцы, от количества местных осадков и от высотных циклонов на более широких пространствах.

Экспериментальная ошибка - это неотъемлемая часть всякого подлинно научного опыта.

Один и тот же результат может быть ошибкой и информацией в зависимости от проблемы и точки зрения. Если биолог желает исследовать, как изменение в питании влияют на рост, то наличие родственной конституции являются источником ошибки; если же он изучает зависимость между наследственностью и ростом, источником ошибки будут различия в питании. Если физик хочет исследовать зависимость между электропроводностью и температурой, различия в плотности, служащего проводником материала, являются источником ошибки; если же он изучает зависимость между этой плотностью и электропроводностью, температурные изменения будут источником ошибки.

Это употребление слова ошибка может показаться сомнительным, и, возможно, предпочтительным было бы сказать, что полученные эффекты искажены “непредполагаемыми” или “нежелательными” воздействиями. Мы планируем эксперимент для изучения известных влияний, но случайные факторы, которые мы не в состоянии предвидеть или проанализировать, искажают результаты, добавляя к ним свои собственные эффекты.

Различия между запланированными эффектами и эффектами, обусловленными случайными причинами, подобно различию между движениями судна в море, плывущего по определённому курсу, и судна, дрейфующего бесцельно по воле изменчивых ветров и течений. Движение второго судна можно назвать движением случайным. Не исключено, что это судно может прийти в какой - либо порт, но более вероятно, что оно, ни в какое определённое место не придёт.

Статистики употребляют слово “случайный” для обозначения явления, исход которого в предстоящий момент времени совершенно невозможно предсказать.

Ошибка, обусловленная предусмотренными в опыте эффектами, бывает иногда скорее систематической, нежели случайной.

Систематическая ошибка вводит в заблуждение больше, чем случайная. Помехи, идущие от другой радиостанции, могут создать систематический музыкальный аккомпанемент, который вы иногда можете предсказать, если вы знаете мелодию. Но этот “аккомпанемент” может быть причиной того, что мы можем составить неправильное суждение о словах или о музыке программы, которую мы пытаемся услышать.

Однако обнаружение систематической ошибки часто наводит нас на след нового открытия. Знания, каким образом появляются случайные ошибки, помогают нам обнаружить систематические ошибки и, следовательно, исключить их.

Тот же характер рассуждений обычен и в наших житейских делах. Как часто мы замечаем: “Это не случайность!”. Всякий раз, когда мы можем это сказать – мы находимся на пути к открытию.

Например, А.Л. Чижевский, анализируя исторические процессы: увеличение смертности, эпидемии, начала войн, великие перемещения народов, резкие изменения климата и т.д. открыл зависимость между этими, не связанными между собой процессами и периодами солнечной активности, которые имеют циклы: 11 лет, 33 года.

Определение. Под систематической ошибкой понимается ошибка, повторяющаяся и одинаковая для всех испытаний. Она обычно связана с неправильным ведением эксперимента.

Определение. Под случайными ошибками понимаются ошибки, возникающие под влиянием случайных факторов и меняющихся случайным образом от опыта к опыту.

Обычно распределение случайных ошибок симметрично относительно нуля, откуда вытекает важный вывод: при отсутствии систематических ошибок истинный результат испытаний есть математическое ожидание случайной величины, конкретное значение которой фиксируется в каждом испытании.

Объектами изучения в математической статистике могут быть качественные или количественные признаки изучаемого явления или процесса.

В случае качественного признака подсчитывается число появлений этого признака в рассматриваемой серии опытов; это число и представляет собой изучаемую (дискретную) случайную величину. Примерами качественных признаков могут служить дефекты на готовой детали, демографические данные и т.д. Если признак является количественным, то в опыте производится прямое или косвенное измерения путём сравнения с некоторым эталоном - единицей измерения – с помощью различных измерительных приборов. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали.

Основные определения

Значительная часть математической статистики связана с необходимостью описать большую совокупность объектов.

Определение. Всю совокупность объектов, подлежащих изучению, называют генеральной совокупностью.

Генеральной совокупностью могут быть всё население страны, месячная продукция завода, популяция рыб, живущих в данном водоёме и т.д.

Но генеральная совокупность - это не просто множество. Если интересующая нас совокупность объектов слишком многочисленна, или объекты труднодоступны, или имеются другие причины, не позволяющие изучить все объекты, прибегают к изучению какой-то части объектов.

Определение. Та часть объектов, которая попала на проверку, исследование и т.п., называется выборочной совокупностью или просто выборкой.

Определение. Число элементов в генеральной совокупности и выборке называется их объёмами .

Как добиться, чтобы выборка наилучшим образом представляло целое, т.е. была бы репрезентативной?

Если целое, т.е. если генеральная совокупность нам мало известна или совсем неизвестна, не удаётся предложить ничего лучшего, чем чисто случайный выбор. Большая осведомлённость позволяет действовать лучше, но всё равно на некоторой стадии наступает незнание и, как результат – случайный выбор.

Но как осуществить чисто случайный выбор? Как правило, отбор идёт по легко наблюдаемым признакам, ради изучения которого ведётся исследование.

Нарушение же принципов случайного выбора приводило к серьезным ошибкам. Стал знаменитым своей неудачей опрос, проведённый американским журналом “Литературное обозрение” относительно исхода президентских выборов в 1936 году. Кандидатами на этих выборах были Ф.Д. Рузвельт и А.М. Ландон.

Кто победил?

В качестве генеральной совокупности редакция использовала телефонные книги. Отобрав случайно 4 миллиона адресов, она разослала открытки с вопросами об отношении к кандидатам в президенты по всей стране. Затратив большую сумму на рассылки и обработку открыток, журнал объявил, что на предстоящих выборах в президенты с большим перевесом победит Ландон. Результат выборов оказался противоположенным этому прогнозу.

Здесь были совершенны сразу две ошибки. Во-первых, телефонные книги не дают репрезентативную выборку из населения США – в основном зажиточные главы семейств. Во-вторых, прислали ответы не все люди, а в значительной части представители делового мира, которые и поддерживали Ландона.

В то же время социологи Дж. Гэллан и Э. Уорнер правильно предсказали победу Ф.Д. Рузвельта, основываясь только на четырёх тысячах анкетах. Причиной этого успеха было не только правильное составление выборки. Они учли, что общество распадается на социальные группы, которые более однородны по отношению к кандидатам в президенты. Поэтому выборка из слоя может быть относительно малочисленной с тем же результатом точности. Победил в итоге Рузвельт, который был сторонником реформ для менее богатых слоёв населения.

Имея результаты обследования по слоям, можно характеризовать общество в целом.

Что представляют собой выборки?

Это ряды чисел.

Более подробно остановимся на основных понятиях, характеризующих ряд выборки.

Из генеральной совокупности извлечена выборка объёмом n> n 1 , где n 1 – столько раз наблюдалось появление x 1 , n 2 - x 2 и т.д.

Наблюдаемые значения х i называют вариантами, а последовательность вариантов, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений n i называют частотами и n i /n - относительными частотами (или частостями).

Определение. Различные значения случайной величины называются вариантами.

Определение. Вариационным рядом называется ряд, расположенный в порядке возрастания (или убывания) вариантов с соответствующими им частотами (частостями).

При изучении вариационных рядов наряду с понятиями частоты используется понятие накопленной частоты. Накопленные частоты (частости) для каждого интервала находятся последовательным суммированием частот всех предшествующих интервалов.

Определение. Накопление частот или частостей называют кумуляцией . Кумулировать можно частоты вариант и интервалов.

Характеристики ряда могут быть количественные и качественные.

Количественные (вариационные) характеристики – это характеристики, которые можно выразить числами. Их подразделяются на дискретные и непрерывные.

Качественные (атрибутивные) характеристики – это характеристики, которые не выражаются числами.

Непрерывные переменные – это переменные, которые выражаются действительными числами.

Дискретные переменные – это переменные, которые выражаются только целыми числами.

Выборки характеризуются центральными тенденциями : средним значением, модой и медианой. Средним значением выборки называют среднее арифметическое всех её значений. Мода выборки – те её значения, которые встречаются чаще всего. Медиана выборки – это число, “разделяющее” пополам упорядоченную совокупность всех значений выборки.

Вариационный ряд может быть дискретным или непрерывным.

Задача

Дана выборка: 1,3; 1,8; 1,2; 3,0; 2,1; 5; 2,4; 1,2; 3,2;1,2; 4; 2,4.

Это ряд вариантов. Расположив эти варианты в возрастающем порядке, мы получим вариационный ряд: 1,2; 1,2; 1,2; 1,3; 1,8; 2,1; 2,4; 2,4; 3,0; 3,2; 4; 5.

Среднее значение этого ряда равно 2,4.

Медиана ряда 2,25.

Мода ряда –1,2.

Дадим определения этим понятиям.

Определение. Медианой вариационного ряда называется то значение случайной величины, которое приходится на средину вариационного ряда (Ме).

Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное посередине, а медианой упорядоченного ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине. Медианой произвольного ряда чисел называется медиана соответствующего упорядоченного ряда.

Определение. Модой вариационного ряда называют вариант (значение случайной величины), которому соответствует наибольшая частота (Мо), т.е. которая встречается чаще других.

Определение. Среднеарифметическим значением вариационного ряда называется результат деления суммы значений статистической переменной на число этих значений, то есть на число слагаемых.

Правило нахождения среднеарифметического значения выборки:

  1. каждую варианту умножить на её частоту (кратность);
  2. сложить все полученные произведения;
  3. поделить найденную сумму на сумму всех частот.

Определение. Размахом ряда называется разность между R=x max -x min , т.е. наибольшим и наименьшим значениями этих вариантов.

Проверим, правильно ли мы нашли среднее значение этого ряда, медиану и моду, опираясь на определения.

Сосчитали число членов, их 12 - чётное число членов, значит надо найти среднее арифметическое двух чисел записанных посередине, то есть 6 и 7-ой варианты. (2,1+2,4)\2=2.25 – медиана.

Мода. Модой является 1.2, т.к. только это число встречается 3 раза, а остальные встречаются меньше, чем 3 раза.

Среднеарифметическое значение находим так:

(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4

Составим таблицу

Такие таблицы называют частотными. В них числа второй строки – частоты; они показывают, как часто встречаются в выборке те или другие её значения.

Определение. Относительной частотой значений выборки называют отношение её частоты к числу всех значений выборки.

Относительные частоты иначе называют частостями. Частоты и частости называют весами. Найдём размах ряда: R=5-1,2=3,8; Размах ряда равен 3,8.

Информация к размышлению

Среднее арифметическое – это условная величина. Реально она не существует. Реально существует общая сумма. Поэтому среднее арифметическое не есть характеристика одного наблюдения; она характеризует ряд в целом.

Среднее значение можно трактовать как центр рассеивания значений наблюдаемого признака, т.е. значения, около которого колеблются все наблюдаемые значения, причём алгебраическая сумма отклонений от среднего, всегда равна нулю, т.е. сумма отклонений от среднего в большую или меньшую сторону равны между собой.

Среднее арифметическое является абстрактной (обобщающей) величиной. Даже при задании ряда только из натуральных чисел, среднее значение может выражаться дробным числом. Пример: средний балл контрольной работы 3,81.

Среднее значение находится не только для однородных величин. Средняя урожайность зерновых по всей стране (кукуруза-50-60 ц. с га. и гречиха-по5-6 ц. с га, рожь, пшеница и т.д.), среднее потребление продуктов питания, средняя величина национального дохода на душу населения, средний показатель обеспеченности жильём, средний взвешенный показатель стоимости жилья, средняя трудоёмкость возведения здания и т.д. – это характеристики государства как единой народнохозяйственной системы, это так называемые системные средние.

В статистике широкое применение находят такие характеристики, как мода и медиана . Их называют структурными средними, т.к. значения этих характеристик определяются общей структурой ряда данных.

Иногда ряд может иметь две моды, иногда ряд может не иметь моды.

Мода является наиболее приемлемым показателем при выявлении расфасовки некоторого товара, которой отдают предпочтение покупатели; цены на товар данного вида, распространённый на рынке; как размер обуви, одежды, пользующийся наибольшим спросом; вид спорта, которым предпочитают заниматься большинство населения страны, города, посёлка школы и т.д.

В строительстве существует 8 вариантов плит по ширине, и более часто применяются 3 вида:1 м. 1,2 м. и 1,5 м. По длине 33 варианта плит, но чаще других применяются плиты длиной 4,8 м.; 5,7 м. и 6,0 м., мода на плиты чаще всего встречается среди этих 3-х размеров. Аналогично можно рассуждать и с марками окон.

Моду ряда данных находят тогда, когда хотят выявить некоторый типичный показатель.

Мода может быть выражена числом и словами, с точки зрения статистики мода – это экстремум частоты.

Медиана позволяет учитывать информацию о ряде данных, которую даёт среднее арифметическое и наоборот.

Министерство образования и науки Российской Федерации

Костромской государственный технологический университет

И.В. Землякова, О.Б. Садовская, А.В. Чередникова

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

в качестве учебного пособия для студентов специальностей

220301, 230104, 230201 очной формы обучения

Кострома

ИЗДАТЕЛЬСТВО

УДК 519.22 (075)

Рецензенты: кафедра математических методов в экономике
Костромского государственного университета им. Н.А. Некрасова;

канд. физ.-мат. наук, доцент кафедры математического анализа

Костромского государственного университета им. Н.А. Некрасова К.Е. Ширяев.

З 51 Землякова, И.В. Математическая статистика. Теория и практика: учебное пособие / И.В. Землякова, О.Б. Садовская, А.В. Чередникова. – Кострома: Изд-во Костром. гос. технол. ун-та, 2010. – 60 с.

ISBN 978-5-8285-0525-8

Учебное пособие содержит в максимально доступной форме теоретический материал, примеры, тесты и прокомментированный алгоритм выполнения заданий по типовому расчету.

Предназначено для студентов вузов, обучающихся по специальностям 220301, 230104, 230201 очной формы обучения. Может использоваться как во время лекций, так и на практических занятиях.

УДК 519.22 (075)

ISBN 978-5-8285-0525-8

 Костромской государственный технологический университет, 2010

§1. ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 4

§2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТЬ. 4

РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ. СПОСОБЫ ОТБОРА 4

(СПОСОБЫ ОРГАНИЗАЦИИ ВЫБОРКИ) 4

§3. СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ВЫБОРКИ. 6

ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ РАСПРЕДЕЛЕНИЙ 6

§4. СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ 18

§5. ГЕНЕРАЛЬНАЯ СРЕДНЯЯ. ВЫБОРОЧНАЯ СРЕДНЯЯ. 20

ОЦЕНКА ГЕНЕРАЛЬНОЙ СРЕДНЕЙ ПО ВЫБОРОЧНОЙ СРЕДНЕЙ 20

§6. ГЕНЕРАЛЬНАЯ ДИСПЕРСИЯ. ВЫБОРОЧНАЯ ДИСПЕРСИЯ. 22

ОЦЕНКА ГЕНЕРАЛЬНОЙ ДИСПЕРСИИ ПО ИСПРАВЛЕННОЙ ДИСПЕРСИИ 22

§7. МЕТОД МОМЕНТОВ И МЕТОД НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ НАХОЖДЕНИЯ ОЦЕНОК ПАРАМЕТРОВ. МЕТОД МОМЕНТОВ 25

§8. ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ 27

§9. ПРОВЕРКА ГИПОТЕЗЫ О СООТВЕТСТВИИ СТАТИСТИЧЕСКИХ ДАННЫХ ТЕОРЕТИЧЕСКОМУ ЗАКОНУ РАСПРЕДЕЛЕНИЯ 31

§ 10. ПОНЯТИЕ О КОРРЕЛЯЦИОННОМ И РЕГРЕССИВНОМ АНАЛИЗЕ 39

ИНДИВИДУАЛЬНЫЕ ЗАДАНИЯ 44

ОТВЕТЫ И УКАЗАНИЯ 46

Приложения 51

§1. ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математические законы теории вероятностей не являются абстрактными, лишёнными физического содержания, они представляют собой математическое выражение реальных закономерностей, существующих в массовых случайных явлениях.

Каждое исследование случайных явлений, выполняемое методами теории вероятностей, опирается на экспериментальные данные.

Зарождение математической статистики было связано со сбором данных и графическим представлением полученных результатов (сводки рождаемости, бракосочетаний и т.д.). Это описательная статистика. Нужно было свести обширный материал к небольшому числу величин. Разработка методов сбора (регистрации), описания и анализа экспериментальных (статистических) данных, получаемых в результате наблюдения массовых, случайных явлений, составляет предмет математической статистики .

При этом можно выделить три этапа :

    сбор данных;

    обработка данных;

    статистические выводы-прогнозы и решения.

Типичные задачи математической статистики:

    определение закона распределения случайной величины (или системы случайных величин) по статистическим данным;

    проверка правдоподобия гипотез;

    нахождение неизвестных параметров распределения.

Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

§2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТЬ.

РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ. СПОСОБЫ ОТБОРА

(СПОСОБЫ ОРГАНИЗАЦИИ ВЫБОРКИ)

Массовые случайные явления могут быть представлены в виде тех или иных статистических совокупностей однородных объектов. Каждая статистическая совокупность обладает различными признаками.

Различают качественные и количественные признаки. Количественные признаки могут изменяться непрерывно или дискретно .

Пример 1. Рассмотрим производственный процесс (массовое случайное явление) изготовления партии деталей (статистическая совокупность).

Стандартность детали – качественный признак. Размер детали – количественный признак, изменяющийся непрерывно.

Пусть требуется изучить статистическую совокупность однородных объектов относительно некоторого признака. Сплошное обследование, т. е. исследование каждого из объектов статистической совокупности на практике применяется редко. Если исследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование нет смысла. Если совокупность содержит очень большое число объектов, то провести сплошное обследование практически невозможно. В таких случаях из всей совокупности случайно отбирают ограниченное число объектов и исследуют их.

Определение. Генеральной совокупностью называется вся подлежащая изучению совокупность.

Определение. Выборочной совокупностью или выборкой называется совокупность случайно отобранных объектов.

Определение. Объёмом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Объём генеральной совокупности обозначается через N , а выборки через n .

На практике обычно применяют бесповторную выборку , при которой отобранный объект не возвращается в генеральную совокупность (иначе получаем повторную выборку).

Для того чтобы по данным выборки можно было судить о всей генеральной совокупности, выборка должна быть репрезентативной (представительной). Для этого каждый объект должен быть отобран случайно, и все объекты должны иметь одинаковую вероятность попасть в выборку. применяются различные способы отбора (рис. 1).

Способы отбора

(способы организации выборки)

Двухступенчатый

(генеральная совокупность разделена

на группы)

Одноступенчатый

(генеральная совокупность не делится

на группы)


Простой случайный

(объекты извлекаются случайно

из всей совокупности)

Типический

(объект выбирается из каждой типической части)

Комбинированный

(из общего числа групп отбирают несколько и из них по несколько объектов)


Простая случайная повторная выборка

случайная бесповторная выборка

Механический

(из каждой группы

выбирают по одному объекту)

Серийный

(из общего числа групп – серий отбирают несколько

и их сплошь исследуют)

Рис. 1. Способы отбора


Пример 2. На заводе 150 станков производят одинаковые изделия.

1. Изделия со всех 150 станков перемешивают и случайно отбирают несколько изделий – простая случайная выборка .

2. Изделия с каждого станка располагаются отдельно.

      Со всех 150 станков отбирают по несколько изделий, причём анализируют отдельно изделия с более изношенных и менее изношенных станков – типическая выборка.

      С каждого из 150 станков по одному изделию – механическая выборка.

      Из 150 станков отбирают несколько (например, 15 станков), и все изделия с этих станков исследуют – серийная выборка.

      Из 150 станков выбирают несколько, а затем по несколько изделий с этих станков – комбинированная выборка.

§3. СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ВЫБОРКИ.

ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ РАСПРЕДЕЛЕНИЙ

Пусть требуется изучить статистическую совокупность относительно некоторого количественного признака X . Числовые значения признака будем обозначать через х i .

Из генеральной совокупности извлекается выборка объёма п.

    Количественный признак Х дискретная случайная величина .

Наблюдаемые значения х i называют вариантами , а последовательность вариантов, записанных в возрастающем порядке, – вариационным рядом .

Пусть x 1 наблюдалось n 1 раз,

x 2 наблюдалось n 2 раз,

x k наблюдалось n k раз,

причем
. Числа n i называют частотами , а их отношение к объёму выборки, т.е.
, – относительными частотами (или частостями), причем
.

Значение вариант и соответствующие им частоты или относительные частоты можно записать в виде таблиц 1 и 2.

Таблица 1

Варианта x i

x 1

x 2

x k

Частота n i

n 1

n 2

n k

Таблицу 1 называют дискретным статистическим рядом распределения (ДСР) частот, или таблицей частот.

Таблица 2

Варианта x i

x 1

x 2

x k

Относительная частота w i

w 1

w 2

w k

Таблица 2  ДСР относительных частот, или таблица относительных частот.

Определение. Модой называется наиболее часто встречающийся вариант, т.е. вариант с наибольшей частотой. Обозначается x мод .

Определение. Медианой называется такое значение признака, которое делит всю статистическую совокупность, представленную в виде вариационного ряда, на две равных по числу части. Обозначается
.

Если n нечетно, т.е. n = 2 m + 1 , то = x m +1.

Если n четно, т.е. n = 2 m , то
.

Пример 3 . По результатам наблюдений: 1, 7, 7, 2, 3, 2, 5, 5, 4, 6, 3, 4, 3, 5, 6, 6, 5, 5, 4, 4 построить ДСР относительных частот. Найти моду и медиану.

Решение . Объем выборки n = 20. Составим ранжированный ряд элементов выборки: 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 7, 7. Выделим варианты и подсчитаем их частоты (в скобках): 1 (1), 2 (2), 3 (3),
4 (4), 5 (5), 6 (3), 7 (2). Строим таблицу:

x i

w i

Наиболее часто встречающийся вариант x i = 5. Следовательно, x мод = 5. Так как объем выборки n – четное число, то

Если на плоскости нанести точки и соединить их отрезками прямых, то получим полигон частот .

Если на плоскости нанести точки , то получим полигон относительных частот .

Пример 4 . Построить полигон частот и полигон относительных частот по данному распределению выборки:

x i

1. Математическая статистика. Введение

Математическая статистика - это такая дисциплина, которая применяется во всех областях научного знания.

Статистические методы предназначены для понимания "численной природы" действительности (Nisbett, et al., 1987).

Определение понятия

Математическая статистика - это раздел математики, посвященный методам анализа данных, преимущественно вероятностной природы. Она занимается систематизацией, обработкой и использованием статистических данных для теоретических и практ ических выводов.

Статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Здесь важно понять, что статистика имеет дело именно с количеством объектов, а не с их описательными признаками.

Цель статистического анализа - исследование свойств случайной величины. Для этого приходится несколько раз измерять значения изучаемой случайной величины. Полученная группа значений рассматривается как выборка из гипотетической генеральной совокупности .

Производится статистическая обработка выборки, и после этого принимается решение. Важно заметить, что вследствие начального условия неопределённости притятое решение всегда носит характер "нечёткого высказывания". Иными словами, в статистической обработке приходится иметь дело с вероятностями, а не с точными утверждениями.

Главное в статистическом методе - это подсчёт числа объектов, входящих в различные группы. Объекты собираются в группу по какому-то определённому общему признаку, а затем рассмотривается распределение этих объектов в группе по количественному выражению данного признака. В статистике часто применяется выборочный метод анализа, т.е. анализируется не вся группа объектов, а небольшая выборка - несколько объектов, взятых из большой группы. Широко используется теория вероятностей при статистической оценке наблюдений и при формировании выводов.

Основным предметом математической статистики является вычисление статистик (да простит нас читатель за тавтологию), являющихся критериями для оценки достоверности априорных предположений, гипотез или выводов по существу эмпирических данных.

Другое определение - “Статистики – это предписания, по которым из выборки рассчитывается некоторое число – значение статистики для данной выборки” [Закс, 1976]. Выборочные среднее и дисперсия, отношение дисперсий двух выборок или любые другие функции от выборки могут рассматриваться как статистики .

Вычисление "статистик" - это представление "одним числом" сложного стохастического (вероятностного) процесса.

Распределение Стьюдента

Статистики также являются случайными переменными. Распределения статистик (тест-распределения) лежат в основе критериев, которые построены на этой статистике. Например, В. Госсет, работая на пивоварне Гиннеса и публикуясь под псевдонимом “Стьюдент”, в 1908 г. доказал очень полезные свойства распределения отношения разности между выборочным средним и средним значением генеральной совокупности () к стандартной ошибке среднего значения генеральной совокупности , или t –статистики (распределение Стьюдента ):

. (5.7)

Распределение Стьюдента по форме при некоторых условиях приближается к нормальному .

Другими двумя важными распределениями выборочных статистик является c 2 -распределение и F -распределение , широко используемые в ряде разделов статистики для проверки статистических гипотез.

Итак, предмет математической статистики составляет формальная количественная сторона исследуемых объектов, безразличная к специфической природе самих изучаемых объектов.

По этой причине в приводимых здесь примерах речь идёт о группах данных, о числах, а не о конкретных измеряемых вещах. И поэтому по образцам расчётов, данных здесь, вы можете рассчитывать свои данные, полученные на самых разных объектах.

Главное - подобрать подходящий для ваших данных метод статистической обработки .

В зависимости от конкретных результатов наблюдений математическая статистика делится на несколько разделов.

Разделы математической статистики

        Статистика чисел.

        Многомерный статистический анализ.

        Анализ функций (процессов) и временных рядов.

        Статистика объектов нечисловой природы.

В современной науке считается, что любая область исследований не может быть настоящей наукой до тех пор, пока в неё не проникнет математика. В этом смысле математическая статистика является полномочным представителем математики в любой другой науке и обеспечивает научный подход к исследованиям. Можно сказать, что научный подход начинается там, где в исследовании появляется математическая статистика. Вот почему математическая статистика так важна для любого современного исследователя.

Хотите быть настоящим современным исследователем - изучайте и применяйте в своей работе математическую статистику!

Статистика с необходимостью появляется там, где происходит переход от единичного наблюдения к множественному. Если у вас имеется множество наблюдений, замеров и данных - то без математической статистики вам не обойтись.

Математическую статистику подразделяют на теоретическую и прикладную.

Теоретическая статистика доказывает научность и правильность самой статистики.

Теоретическая математи ческая статистика - наука, изучающая методы раскрытия закономерностей, свойственных большим совокупностям однородных объектов, на основании их выборочного обследования.

Этим разделом статистики занимаются математики, и они любят с помощь своих теоретических математических доказательств убеждать нас в том, что статистика сама по себе научна и ей можно доверять. Беда в том, что эти доказательства способны понять только другие математики, а обычным людям, которым нужно пользоваться математической статистикой эти доказательства всё равно не доступны, да и совершенно не нужны!

Вывод: Если вы не математик, то не тратьте зря свои силы на понимание теоретических выкладок по поводу математической статистики. Изучайте собственно статистические методы, а не их математические обоснования.

Прикладная статистика учит пользователей работать с любыми данными и получать обобщённые результаты. Неважно, какие именно это данные, важно, какое количество этих данных находится в вашем распоряжении. Кроме того, прикладная статистика подскажет нам, насколько можно верить в то, что полученные результаты отражают действительное положение дел.

Для разных дисциплин в прикладной статистике используют различные наборы конкретных методов. Поэтому различают следующие разделы прикладной статистики: биологическая, психологическая, экономическая и другие. Они отличаются друг от друга комплектацией примеров и приемов, а также излюбленными методами вычислений.

Можно привести следующий пример различий между применением прикладной статистики для разных дисциплин. Так, статистическое изучение режима турбулентных водных потоков производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам ввиду того, что допущение того, что распределение вероятностей сохраняется неизменным в этом случае, как правило, совершенно неприемлемо. Следовательно, для этих разных дисциплин потребуются разные статистические методы.

Итак, математическую статистику должен применять в своих исследованиях любой современный учёный. Даже тот учёный, который работает в направлениях, которые весьма далеки от математики. И он должен уметь применять прикладную статискику к своим данным, даже не зная её.

© Сазонов В.Ф., 2009.