Санкт-Петербургский государственный университет

 

 

 

 

 

 

 
В.Ю. ТРЕТЬЯКОВ, В.П. КУЛЕШ

 

 

АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА

ЭКОЛОГИЧЕ­СКОЙ ИНФОРМАЦИИ

 

 

 

 

Учебное пособие

 

 

 

 

 

 

 

 

 

      

 

 


 

Санкт-Петербург

 

2005


УДК 519.2:504.064.2

ББК 20.1

Т66

 

 

Рецензенты: докт. геогр. наук  Г.К. Осипов (НИО-3 ЗАО «Институт            телекоммуникаций»),

                              докт. геогр. наук  В.А. Шелутко (Российский государ-

                                      ственный гидрометеорологический университет)

 

 

Печатается по решению

Ученого совета Учебно-научного центра

 географии и геоэкологии

Санкт-Петербургского государственного университета

 

 

 

 

Третьяков В.Ю., Кулеш В.П.

Т66   Автоматизированная обработка экологической информации:  Учеб. пособие. – СПб.: Изд-во  С.-Петерб. ун-та, 2005. –  88 с.

ISBN 5-288-03635-7

В пособии рассмотрены методы компьютерной обработки первичной экологической информации. Особое внимание уделено методам проверки дан­ных на однородность. Представлены листинги созданных для обработки и ана­лиза экологических данных рабочих областей программного пакета Mathcad. 

Пособие предназначено для студентов географических факультетов высших учебных заведений, обучающихся по специальностям “Геоэкология”, “Природопользование”, “География” и направлению “Экология и природополь­зование”.

ББК  20.1

 

 

 

                      

                         

 

 

                            © В.Ю. Третьяков, В.П. Кулеш, 2005

                          © Факультет географии и геоэкологии

                                      Санкт-Петербургского государственного

ISBN 5-288-03635-7                    университета, 2005

ВВЕДЕНИЕ

Практически любая научно-исследовательская работа в сфере геоэкологии предпола­гает обработку данных непосредственных наблю­дений и измерений. Разумеется, возможен случай, и он, к сожалению, является распространенным в курсовых работах и не только в них, ко­гда исследование подменяется бездумной компиляцией из различных источников. Однако настоящее научное исследование предполагает анализ информации и её последующий синтез.

Термин  “информация” является общеупотребительным,  он за­частую рассматривается как синоним слов “сообщение”, “сведения”, “сигнал”, “данные”, “знания”.  Однако эти понятия  существенно различаются  по своей сути.  Под  “данными”  понимается совокупность фактов,  представленных в каком-либо формализованном виде (в количественном и качественном выражении)  для их использования в научных исследованиях или других сферах человеческой деятельности. Данные соответствуют зарегистрированным фактам, описывающим какие-либо явления.   Термин данные происходит от латинского «datum», буквально означающего “факт”. Непосредственно данные не содержат смысловой составляющей, в них ещё нет семантики, т.е. отражения структуры и законов мироздания. В самих данных нет ответа на вопрос: «А что это означает?», они являются сырьем, которое путем переработки можно превратить в информацию, т.е. данные – строительный материал для создания информации. Информация – это смысл, вкладываемый человеком в данные. Последние рассматриваются как объект обработки и основа для получения информации. Данные представляются в форме, удобной для пересылки, интерпретации и обработки человеком или автоматическими средствами.  Знания в философском их понимании – отражение семантических аспектов реальности, т.е. её структуры и законов в сознании человека или  в технической системе.

Существуют и другие определения информации. Так, информация подразделяется на три рода. Информация первого рода - это фактические результаты непосредственных измерений. То есть при таком определении информация первого рода тождественна понятию «данные», в ней ещё нет семантической составляющей. Затем информация подвергается обработке: классификации, статистической обработке, составлению таблиц, карт, атласов, диаграмм и т.д. Это вторичная информация первого вида, «полуфабрикат», в котором ещё нет семантической (смысловой) составляющей, но на основании этого «полуфабриката» можно получить вторичную информацию второго вида, в которой уже содержится смысловое содержание. Вторичная информация представляется на специфическом языке данной науки и рассчитана для потребления специалистами в данной области знания. Вторичная информация второго вида содержит выводы, обобщения, выявленные закономерности, гипотезы, теории. Данный вид информации представляется в виде научных отчетов, статей, курсовых, дипломных, диссертационных работ, монографий. В общем случае первичная информация может быть преобразована во вторичную информацию многими способами. При этом на основании одной и той же первичной информации можно в принципе получить различающуюся и даже противоречивую вторичную информацию: различные выводы, гипотезы, представления. Затем вторичная информация преобразуется в третичную информацию, предназначенную для "лиц, принимающих решения": представителей власти, управляющих производством и т.д. Третичная информация представляет собой рекомендации или методики, написанные доступным для неспециалистов языком. Ясно, что адекватность преобразования геоэкологической информации может быть обеспечена лишь адекватностью реальности представлений о функционировании и развитии геосистем.

Экология представляет собой не единую науку, а целый комплекс научных дисциплин. Геоэкология в отличие от классической биологической экологии акцентирует свое внимание на функционировании природных объектов, подвергающихся антропогенному воздействию. Объектами изучения геоэкологии служат геосистемы. Различие между терминами «геосистема» и «экосистема», прилагаемыми к одному и тому же природному объекту заключается в том, что в «экосистеме» основной упор делается на биотическую составляющую, а среда рассматривается в качестве воздействующего на живое вещество (организм, популяцию, сообщество, биоценоз) агента; для «геосистемы» характерно «равноправие» биоценоза и биотопа. Кроме того, «экосистема» является функциональной единицей, для её идентификации необходимо представить её структуру и особенности функционирования, но нет необходимости в определении её пространственных границ. Геосистема же требует кроме функционального определения также указания её пространственного расположения. Элемент геоэкологических данных содержит три главные компоненты:  атрибутивные сведения,  которые описывают сущность характеристики;  географические сведения, описывающие положение элемента в пространстве;  временные сведения, описывающие момент или период времени,  к  которым относится элемент данных.

Геоэкология предполагает системный (кибернетический) подход к исследованию геосистем, которые рассматриваются как кибернетические системы, получающие извне вещество, энергию и информацию, потребляющие их, преобразующие, перераспределяющие между различными своими компонентами и выделяющими за свои пределы материю, энергию и информацию в иных формах. Геоэкология является синтезирующей наукой, интегрирующей достижения целого комплекса естественных, точных и социальных наук.

Геоэкологические исследования предполагают выяснение пространственной и функциональной структуры природных объектов, взаимосвязей между компонентами геосистем, количественных характеристик потоков вещества и энергии между компонентами геосистем и различными геосистемами. Системность всегда связана с определенной формой организованности, которая является свойством объекта как целого, она не присуща отдельным его элементам, например жизнь организма.

Любая естественная наука в своем развитии проходит ряд этапов, эти же этапы характерны для конкретного исследования: 1) накопления информации об объектах (сбор первичной информации), 2) упорядочивания – классификация объектов (вторичная информация первого вида – для облегчения анализа изучаемого объекта или явления), 3) установление эмпирических связей, качественных и количественных соотношений между объектами – вторичная информация второго вида. Затем выделяются взаимосвязи, определяющие функционирование системы. После этого начинается математическое моделирование процессов в системе на основе выделения существенных свойств исследуемого явления и их величин. Таким образом, налицо следующие этапы развития науки – 4) установление величин и 5) математическое моделирование. Они тесно связаны с последующим этапом – установлением связей и соотношений уже не на эмпирической основе, а методом дедукции на основе разработанных теорий и моделей.

Своеобразие современного периода исследований окружающей среды состоит в том, что если ранее цели и средства антропогенного изменения окружающей среды не зависели от результатов моделирования, то теперь существует или должна существовать обратная связь – от моделирования к целям и средствам преобразования. Модель может дать предварительное объяснение и предсказание поведения природной системы, помочь при планировании и оценить эффекты антропогенных воздействий. Использование моделей для прогноза функционирования природных систем является средством познания. При антропогенном воздействии на геосистему или ее целенаправленном преобразовании модель служит в качестве инструмента, обеспечивающего оптимальное управление функционированием и развитием геосистемы.

Зачастую под экологическим исследованием понимают констатацию данных, опи­сывающих пространственно-временную динамику загрязнителей в окружающей среде. Однако в таком случае в данном исследовании экология «и не ночевала». Очевидно, что современные экологические исследования не должны ограничиваться этапом сбора пер­вичных данных – необходимо построение моделей функционирования геосистем, прогноз поведения геосистем в условиях возрастающей антропогенной нагрузки. Насущной по­требностью является оптимизация природопользования. Для этого необходимо знать, как существует или существовала геосистема в условиях отсутствия антропогенного воздей­ствия, какие её компоненты (блоки) наиболее подвержены антропогенному воздействию, какова специфика функционирования экосистемы в условиях антропогенной нагрузки. Необходима разработка критериев определения экологически обоснованной антропоген­ной нагрузки на различные типы природных объектов, устойчивости природных объектов к различным видам антропогенных воздействий, классификации объектов по степени на­рушенности среды и экологической безопасности. И действительно, за последние десяти­летия произошло революционное изменение в содержании экологических исследований. Если ранее основным результатом являлось получение информации первого рода, то те­перь требуется информация второго и особенно третьего рода. Необходимы конкретные рекомендации по оптимизации природопользования самых различных пространственно-временных масштабов.

Поскольку геоэкологические исследования носят комплексный характер, они включают в себя методы целого комплекса географических, биологических, геологиче­ских, естественных наук. Поэтому и геоэколог, и природопользователь, т.е. специалист по рациональному использованию природных ресурсов обязаны иметь очень широкое образование. Естественно, что специалисты данных направлений не могут  иметь столь же глубокие знания, как узкие специалисты в конкретных областях знания. Естественно, что методику химического анализа лучше него разработает химик, он же лучше и выполнит сам анализ, расчет модуля стока лучше эколога выполнит узкий специалист-гидролог и т.д. Главное, что должен уметь геоэколог - создавать информацию о состоянии окружаю­щей среды на основании разнородной, зачастую неполной, не достаточно точной и, воз­можно противоречивой информации,  прогнозировать развитие экологической ситуации в случае принятия тех или иных управленческих решений, подготавливать экологическое обеспечение управления административными и народно-хозяйственными объектами. Дру­гими словами, “выжимать” смысловое содержание из “вороха” разнородной информации. Смысл работы эколога - связывать воедино данные из самых различных направлений науки. Специализация геоэколога - не получение первичной информации (это лучше него сделает специалист в каждой конкретной области), и даже не получение вторичной ин­формации в рамках узких областей знания, а анализ и последующий синтез совершенно разнородной первичной и вторичной  информации, полученной узкими специалистами. Основная задача эколога - получение новой вторичной экологической информации на уровне обобщений, гипотез, прогнозов и выработка далее третичной информации - экс­пертных оценок и рекомендаций. Разумеется, эколог должен обладать определенным ба­гажом знаний по методам получения первичной информации, но при этом совершенно необходимо в полной мере владеть информационными технологиями.

Необходимость автоматизированной компьютерной обработки данных связана с тем, что реальной стала ситуация избытка данных и недостатка информации. Дистанци­онное многоканальное зондирование поверхности Земли с космических аппаратов позво­ляет ежесуточно неоднократно получать информацию о состоянии поверхности всего Земного шара. Широкое распространение получили автономные измерительные системы, информационно-измерительные системы, поставляющие данные по многим параметрам в компьютерную сеть, затем результаты измерений автоматически "складируются" на маг­нитный носитель или компакт-диск. Разумеется, затем очень остро встаёт проблема авто­матизированной обработки результатов, ибо о неавтоматизированной обработке не при­дется даже и говорить. Поэтому довольно распространен случай, когда различные носи­тели информации «загромождены» данными за многие годы, которые ещё не смогли об­работать и проанализировать.

Экологическая информация может быть числовой и нечисловой (вербальной, сим­вольной). В любом случае необходимость автоматизированной обработки требует хране­ния информации в файлах определенной строгой структуры. Здесь очевидна взаимосвязь данного курса с дисциплиной «Базы данных», посвященной хранению данных в специа­лизированных файлах жесткой структуры и их обработке при помощи СУБД – систем управления базами данных.

Математика предлагает геоэкологу различные методы обработки и преобразования данных – здесь заключается взаимосвязь данного курса с курсом «Численные методы». Методы обработки данных с использованием стандартных программных пакетов приме­няются в основном на этапе преобразования первичной информации во вторичную пер­вого вида. Специфика имитационного моделирования геосистем рассматривается в соот­ветствующем курсе. Специалист геоэколог должен представлять, какие методы обработки данных применимы для решения данной задачи, и какие стандартные программные па­кеты предоставляют эти методы обработки. Разумеется, он должен знать, как правильно осуществить обработку данных в применяемом программном пакете. Естественно, что число существующих программных пакетов весьма велико и нет возможности рассмот­реть их все, тем более что периодически появляются новые программные пакеты.

Применение компьютерных программных пакетов может сыграть злую шутку с исследователем, если он рассматривает пакет как некий «черный ящик», в который он «запихивает» информацию, а затем нажимает на «какие-то кнопки», стремясь на выходе получить «приятные глазу картинки», не представляя себе, какие процессы обработки данных выполнял данный программный пакет и как интерпретировать их результаты. Прежде чем дать компьютеру команду на выполнение какого-либо анализа данных, необходимо четко представлять, в каких случаях применяется данный вид анализа и каковы накладываемые на него ограничения. По­этому в пособии основной упор сделан на подходах к решению типичных задач, встающих при проведении экологических исследований. В пособии не представлены инструкции пользователя конкретных программных пакетов (для этого есть соответствующая литература и справочники самих программных пакетов). Тем не менее, не умаляя достоинства других программных пакетов, заметим, что рядом преимуществ обладает пакет Mathcad. Его основное достоинство – прозрачность выполнения действий, которые последовательно заносятся в рабочие области и могут быть в любое время просмотрены любым пользователем и удобство программирования, которое практически совпадает с написанием уравнений и не требует изучения специального алгоритмического языка, а также широкие возможности импорта данных и экспорта результатов в файлы внешних форматов. Поэтому типовые задачи и примеры реализованы в среде пакета обработки данных  Mathcad.

Недостаточная глубина понимания специалистами методов автоматизированной обработки данных связана, на наш взгляд, с таким подходом в их преподавании или изучении, когда сперва подробнейшим образом рассматриваются теоретические математические обоснования какого-либо метода, а области его применения в данной естественной или социальной науке в лучшем случае рассматриваются весьма отвлеченно. Нами исповедуется другой подход: от задач к методам, поскольку данное пособие рассчитано на студентов экологов-географов.

 

Типовые задачи геоэкологических

исследований

Рассмотрим некоторые типовые задачи, возникающие при экологических исследованиях. Изучая различные объекты, или рассматривая один и тот же объект в различные моменты времени, исследователь должен выяснить, имеются ли кардинальные различия между объектами или эти различия несущественны и объекты относятся к одному классу. При сравнении состояния одной геосистемы в различные моменты времени следует опре­делить, имеем ли дело с той же самой геосистемой или же произошли качественные изме­нения и на месте старой геосистемы возникла новая, совершенно другая геосистема. Дру­гими словами, имеем ли мы дело с обратимыми флуктуациями, или происходит необра­тимая сукцессия со сменой доминирующих видов в биоценозе и изменением всего био­геохимического цикла. С точки зрения математики, геосистему можно представить в виде точки во многомерном пространстве параметров геосистемы. Поскольку эти параметры подвержены колебаниям, то положение геосистемы не остается неизменным, она флук­туирует в некоторой характерной для нее области многомерного пространства. Необхо­димо выяснить, каковы границы этой области, при выходе геосистемы за пределы которой уже придется говорить о перерождении геосистемы, её превращении в совершенно другой природный или природно-антропогенный объект.

В данном случае необходимо использовать методы теории вероятностей и матема­тической статистики. Теория вероятностей – это один из разделов чистой математики. Строится эта теория дедуктивно, исходя из некоторых аксиом и определений. Наиболее строгий подход связан с использованием теории множеств, теории меры и интеграла Ле­бега. В «элементарной теории вероятностей» рассматриваются случайные события с ко­нечным числом исходов. Затем теория распространяется на случай, когда число исходов бесконечно. Применение теорем к решению различных задач теории вероятностей связано с использованием сочетаний, перестановок, операций суммирования и интегрирования. Некоторые применяющиеся в теории вероятностей методы используются в других разде­лах математики.

В противоположность теории вероятностей статистика – это раздел прикладной математики. Для нее характерно главным образом индуктивное построение, поскольку в этом случае мы идем в обратном направлении – от наблюдения события к гипотезе. При этом аргументация основывается на выводах теории вероятностей, знание которой совер­шенно необходимо.

Обыкновенно утверждается, что характеризующие геосистемы числовые величины являются непрерывными. Однако исследователь имеет дело с дискретными величинами, поскольку любой параметр определяется с определенной конечной степенью точности и каждое измерение занимает определенный минимальный промежуток времени, кроме того, измеряемая величина относится к определенному минимальному объему простран­ства. В конце концов, даже объем Мирового океана соответствует конечному количеству проб, добываемых при помощи батометра. Согласно одному из подходов при анализе натурных данных измеренные значения параметров рассматриваются в качестве случайных величин, а их совокупность – выборки из генеральной совокупности всех возможных значений данного параметра. Разработаны критерии согласия, на основании которых определяется, насколько частотное распределе­ние данной выборки соответствует какому-либо теоретическому закону распределения. Существует ряд критериев проверки данных на однородность, позволяющих определить, относятся ли две выборки (данные по двум различным объектам, или по одному и тому же объекту в разные моменты времени) к одной генеральной совокупности или нет. Если вы­борки относятся к одной генеральной совокупности, то различие между выборками в пре­делах случайных колебаний величин и нет принципиальных различий между объектами или состоянием одного и того же объекта в разные периоды времени. При этом парамет­рические критерии требуют, чтобы распределение выборки подчинялось какому-либо конкретному закону распределения. Так, критерии Стьюдента и Фишера требуют, чтобы закон распределения выборок был достаточно близок к нормальному закону. Непарамет­рические критерии не накладывают условия известности закона распределения. В каче­стве примеров непараметрических критериев можно привести критерии Уилкоксона-Манна-Уитни и Зигеля-Тьюки.

Большинство процессов в геосистемах имеют периодичность. Очевидны суточная и годовая периодичность. Временная динамика многих параметров в природных геосистемах определяется суперпозицией целого комплекса периодических функций с различ­ными частотами и амплитудами. Согласно теореме отсчетов или теореме Колмогорова любая функция может быть восстановлена, если измерения параметра проводились через промежутки времени, равные частному от деления самого короткого из периодов на удво­енное число Пи. Временная изменчивость природных характеристик может рассматри­ваться как результат совмещения периодических процессов, имеющих определенные фик­сированные периоды (периоды обращения Земли вокруг Солнца, Земли вокруг своей оси, Луны вокруг Земли), циклических процессов, периоды и амплитуды которых в отличие от периодических процессов имеют существенные колебания (например, одиннадцатилетний солнечный цикл, продолжительность которого лишь в среднем равна одиннадцати годам), тренда, описываемого линейным или каким-либо иным законом и непериодических воз­мущений, называемых «шумом». Если мы сможем выделить эти временные составляю­щие процесса, появляется возможность предсказания временной динамики параметра в будущем лишь по предыдущей временной изменчивости самой этой величины. Многие программные пакеты посвящены или имеют разделы анализа временных рядов. Методы временного анализа включают в себя выявление скрытых периодичностей и их амплитуд. Очевидно, что при исследованиях геосистем и процессов в окружающей среде очень важно не ошибиться и не спутать изменчивость, вызванную периодической или цикличе­ской составляющими функции с трендом. Так, до сих пор не ясно, имеет ли место широко разрекламированное «глобальное потепление», и если имеет, то не является ли оно след­ствием какого-либо векового или многовекового цикла? Для неслучайных функций весьма широкое распространение получил гармонический анализ, т.е. представление пе­риодических функций в виде ряда Фурье, а непериодических – в виде интеграла Фурье. Спектральный анализ позволяет представить периодическую функцию в виде бесконеч­ной суммы гармонических колебаний с различными частотами и амплитудами.

Часто встречающаяся необходимость – выполнение классификации объектов, ха­рактеризующихся рядом параметров. Для этого используются методы группировки объек­тов, в частности, кластерный анализ.

Объекты окружающей среды и их характеристики связаны между собой многочис­ленными функциональными и статистическими зависимостями. Эти зависимости могут быть одномерными (функция зависит от одного аргумента) или многомерными (функция зависит от многих аргументов). Когда мы стремимся из данных натурных наблюдений за независимой и зависимой переменными получить уравнение, аппроксимирующее эту за­висимость, нам приходится использовать метод наименьших квадратов. При исследова­нии взаимосвязей между переменными применяется корреляционный и регрессионный анализ. Корреляционный анализ показывает тесноту связи между переменными. При по­мощи регрессионного анализа определяются наиболее подходящие уравнения, аппрокси­мирующие эти связи. Корреляция и регрессия также могут одномерными и многомер­ными. В случае многомерных зависимостей весьма полезными являются методы сниже­ния числа переменных – метод группового учета аргументов и факторный анализ. 

Стандартной задачей экологических исследований является интерполяция и экст­раполяция данных по времени и пространству.

В ряде экологических исследований нам приходится иметь дело с вероятностными величинами и так называемыми испытаниями, когда заранее неизвестно, наступит или нет какое-то событие. Особенно это характерно при оценке экологического риска и выработке управленческих решений. Так, техногенные катастрофы имеют отличную от нуля вероят­ность и, к сожалению, время от времени случаются. При этом степень ущерба зависит от многих других параметров, имеющих вероятностный характер. Например, на степень ущерба от выброса в атмосферу вредного вещества зависит от состояния атмосферы, на­правления и скорости ветра. Для исследования последствий подобных процессов исполь­зуется статистическое моделирование или метод Монте-Карло. Мы не пытаемся проник­нуть в глубь сложных случайных процессов, не стараемся смоделировать эти процессы. Вместо этого мы как бы предлагаем самой же случайности «разобраться» в тех сложно­стях, которые она породила. Случайность усложняет рассматриваемую картину, случай­ность же используется как инструмент исследования этой картины. Данный метод уни­версален, поскольку он не ограничен рамками каких-либо предположений, упрощений,  моделей. Одна область применения данного метода – исследование тех случайных про­цессов, которые в силу своей сложности не поддаются аналитическому рассмотрению. Вторая область – проверка правильности, степени точности аналитических моделей, при­меняемых в тех или иных конкретных ситуациях. Метод Монте-Карло широко применя­ется при исследовании операций, при отыскании оптимальных решений в условиях неоп­ределенности, при рассмотрении сложных многокритериальных задач.

Важная роль в диагностике и прогнозировании состояния геосистем принадлежит имитационным моделям функционирования экологических систем. Метод проб и ошибок, при котором объект рассматривается как "черный ящик", не применим к гео­системам, потому что это подразумевает длительные поиски оптимального режима функ­ционирования экосистемы с многочисленными разнообразными входами, а также вслед­ствие уникальности каждой природной геосистемы, которая не может подвергаться риску необратимых изменений. Кроме того, имитационное моделирование геосистем может вы­зываться необходимостью познания их связей и функций, не доступных во всех своих де­талях прямым наблюдениям.  Необходимость подобных исследований определяется чрез­вычайно сложным характером взаимодействия антропогенных воздействий с естествен­ным ходом развития экосистемы, т.к. она имеет траекторию естественного развития и об­ласть внутригодовой и межгодовой изменчивости. Из-за этого одни натурные наблюдения не в состоянии вскрыть сложные механизмы функционирования геосистемы в условиях антропогенного пресса и ее отклика на них. Образно говоря, перед исследователем посто­янно стоит "проблема заключившего пари с хозяином Эзопа". Согласно легенде, он  в пьяном виде поспорил на все свое состояние, что сможет выпить море. Протрезвев, он об­ратился за помощью к своему рабу, древнегреческому баснописцу Эзопу. Тот ему посоветовал сказать: "Я готов выпить море, но только без воды рек, в него впадающих". Против­ник в споре, разумеется, не смог отделить морскую воду от речной. Имитационная модель как раз и выступает в роли разделителя процессов. Только на основании результатов имитационного моделирования можно опреде­лять экологически обоснованные нормы антропогенного воздействия на конкретные при­родные объекты.

Имитационные модели представляют собой системы существенно нелинейных уравнений. Наиболее распространено компьютерное решение систем дифференциальных уравнений. Однако компьютер решает дифференциальные уравнения приближенными численными методами. Поэтому важно понимание особенностей методов приближенного дифференцирования. Одним из подходов является применение метода конечных разно­стей как дискретного аналога дифференциального и интегрального исчисления.

Цель данного курса заключается в прояснении того, что происходит в «недрах ком­пьютера» при выполнении автоматизированной обработки данных, для каких целей можно применять тот или иной метод и каковы ограничения применимости данного ме­тода.

Известно выражение: «Цель расчетов – не числа, а понимание», т.е. исследователь должен уметь понять, что же означает результат вычислений. Исследователь, который должен этого понимания достигнуть, обязан знать, как происходят вычисления. Если он не понимает, что делается, то он не может извлечь из результатов вычислений что-нибудь ценное. Он видит голые цифры, но их истинное значение может оказаться скрытым. Ре­зультат расчетов зависит от данных и от метода вычислений. Если не понимать промежу­точные процессы, то легко принять за проявление природных законов эффекты приме­няемых  схем вычислений или особенности выполнения расчетов на компьютере.

 

ПРОВЕРКА ДАННЫХ НА ОДНОРОДНОСТЬ

Параметры геосистем как случайные величины

            Геоэкология – наука географическая. Поэтому естественно, что она исследует пространственную динамику геосистем. Напомним ещё раз, что геосистема отличается от экосистемы в первую очередь необходимостью её пространственной локализации, т.е. определения её границ. Геосистемы самого низкого ранга территориально совпадают с фациями и элементарными биогеоценозами. Поэтому во многих случаях границы геосистемы определяются по линиям раздела, объективно присутствующим в природе: берег небольшого водоема, опушка леса и т.д. Однако даже для геосистем суши во многих случаях проведение границ не столь очевидно и однозначно. Например, имеется обширный лесной массив, в пределах которого растительный покров не однороден. Как различить флуктуации в пределах одной геосистемы от наличия разных геосистем? Славная наука биогеография подсказывает нам: «Границу геосистем проводите при смене доминантов и эдификаторов». Получается, что даже в таком относительно простом случае нам может не хватить «выпуклого глаза» наблюдателя, а придется заняться подсчетом встречаемости видов растений, их обилия, проективного покрытия и т.д. Дело осложняется, если исследуемая территория подвержена антропогенным воздействиям. Как отличить геосистему, которую условно можно считать фоновой, от находящейся под антропогенным воздействием? В этом случае нам не обойтись без измерений содержания загрязнителей в различных компонентах геосистем и местоположениях и их последующего сравнения.

               С водными геосистемами ещё сложнее. Везде вода, как прикажете проводить границы? Для объективного выделения геосистем, принадлежащих крупному водному объекту (озеру или морю) нам необходимо выяснить совокупность параметров, определяющих биогеохимический цикл, специфику функционирования геосистемы. Т.е. необходимо выявление объективных различий в значениях этих параметров.

               Заметим, что обозначенные выше проблемы имеют отнюдь не схоластический, а самый практический характер. Важной целью геоэкологии является определение обоснованных объёмов допустимого антропогенного воздействия. Естественно, что неправильно ко всем геосистемам подходить с едиными подходами, методиками и нормативами, но и невозможно для каждой геосистемы разрабатывать индивидуальные методики и нормы из-за неприемлемых временных и материальных затрат. Поэтому необходимо объединять геосистемы в таксоны, в пределах которых вполне обосновано применение единых методик определения допустимых границ антропогенного воздействия и прогноза их развития. Возможно возражение: «Каждая геосистема уникальна». Однако и каждый человек уникален, тем не менее существует и развивается медицина, которая может лечить конкретных людей, опираясь на общие методы. Так и геоэкология должна предлагать рекомендации по рациональному природопользованию или восстановлению уникальных геосистем на основании общих подходов, которые могут применяться к геосистемам данного класса. Таким образом, насущным является вопрос: «Данные геосистемы представляют собой что-то совершенно различное, или же в рамках поставленной задачи их вполне объективно можно отнести к одному таксону?» Другая насущная проблема – получение ответа на вопрос: «Произошли ли кардинальные изменения в данном объекте, имеет ли место смена геосистем?» 

               Любая геосистема состоит из колоссального числа компонентов, её состояние и особенности функционирования характеризуются также гигантским количеством параметров. При научном исследовании геосистемы неизбежно агрегирование компонентов (мы рассматриваем не каждый индивидуальный организм биоценоза, а экологически однородные группы организмов: не каждую ракушку, а биомассу двустворчатых моллюсков на дне водоема; не отдельные луговые растения, а биомассу всех злаковых и т.п.) и ограничение списка всех возможных параметров геосистемы лишь теми, каждый из которых необходим, а все вместе достаточны для решения поставленной задачи. Так, просто невозможно определить концентрацию всех веществ в геосистеме (их, возможно, тысячи, если не десятки или даже сотни тысяч), приходится «ограничить свой аппетит» определением содержания лишь тех веществ, без учета которых невозможно решить поставленную задачу (например, определить индекс загрязнения воды). Естественно, сравнивать две геосистемы можно либо по одинаковому для них обоих набору параметров, либо по обобщенному показателю. Встречается и необходимость сравнения двух геосистем, природных или антропогенных объектов по одному единственному параметру. В любом случае существует необходимость сравнения совокупности значений данного параметра для одного объекта с совокупностью значений этого же параметра по другому объекту. Было бы крайне нелепо предполагать, что все значения параметра в обоих объектах совпадут. Это возможно лишь в случае применения крайне несовершенных методов измерений и определений. В большинстве случаев мы столкнемся с тем, что значения параметра в разных объектах различны, хотя и не исключены отдельные совпадения. Здесь мы сталкиваемся с необходимостью определения закона распределения случайной величины, в качестве каковой рассматривается исследуемый параметр. Взгляд на какой-либо параметр как на случайную величину отнюдь не означает, что его значения не зависят ни от каких внешних причин и что данный параметр принимает любые значения единственно по «своей собственной воле». Разумеется, значение любого параметра геосистемы зависит от многих причин. Только этих причин великое множество. Часть из них нам известна хорошо и мы можем определить величину воздействия такой причины достаточно точно. О других причинах нам известно, что они существуют, но степень их влияния на значение исследуемого параметра можно определить лишь приблизительно. Возможно, о каких-то причинах мы даже не догадываемся. Из этого проистекает следующий вывод: на уровне первичной информации, т.е. данных натурных наблюдений и измерений все параметры геосистем следует рассматривать в качестве случайных величин (СВ).

Законы распределения случайных величин

            Случайная величина характеризуется законом распределения. Мы предполагаем и надеемся, что читатель хотя бы немного знаком с теорией вероятности и отнюдь не стремятся дублировать курс данной дисциплины. Тем не менее, для «не изучавших, но уже забывших» напомним, что закон распределения показывает, как часто встречаются те или иные значения случайной величины. Этих законов множество, и, вероятно, открыты далеко не все. Вообще известные теоретические законы распределения СВ выведены специалистами-математиками, исходя из каких-либо аксиом и предположений. Далее выполняются математические преобразования, и в результате появляется формула данного закона распределения. Затем на авансцену выходит математическая статистика, с помощью которой выясняется, что данный закон хорошо описывает распределение такой-то природной величины. Это именно тот случай, когда можно сказать, что «формулы умнее нас». Открыватель какого-либо закона распределения может гордиться, что ему удалось хоть немножко разобраться в замыслах Творца, однако было бы величайшим нахальством бездоказательно утверждать, что какая-либо СВ должна подчиняться именно этому закону.

   Частая ошибка – априори считать, что природные величины обя­заны подчиняться нормальному распределению Гаусса. Этот закон принадлежит к непрерывным законам распределения и является част­ным случаем дифференциального уравнения кривых плотности вероят­ности Пирсона. Впервые нормальный закон распределения был разра­ботан для анализа погрешностей измерений. В природе и технике чрез­вычайно распространены случайные величины, которые представляют собой сумму большого числа независимых или слабо зависимых слу­чайных величин, дисперсии которых малы по сравнению с дисперсией всей суммы. Из центральной предельной теоремы следует, что распре­деление таких СВ при весьма общих дополнительных условиях хорошо аппроксимируется нормальным распределением. Этим объясняется весьма широкое распространение последнего. Нормальное распределе­ние применяется и в тех случаях, когда истинный закон распределения известен, но вычисления по этому закону затруднены, а аппроксимация его нормальным законом не приводит к большим ошибкам. Другими словами, СВ имеет нормальный закон распределения в том случае, если её значение определяется одной сильной причиной (воздействием, па­раметром, величина которого постоянна или испытывает незначитель­ные колебания), а также множеством маленьких, слабеньких, независи­мых друг от друга воздействий. Классический пример – стрельба из артиллерийского орудия снарядами одного типа при неизменных пара­метрах наводки. Случайная величина – дальность выстрела зависит от одного определяющего параметра: угла возвышения орудия. Если тем­пература ствола не меняется и его износом за время серии выстрелов можно пренебречь, то слабые воздействия – это турбулентность атмо­сферы и колебания температуры воздуха, неоднородности веса снаря­дов и пороховых зарядов, влажности и температуры зарядов, структуры пороха и т.д. Разумеется, если существенно изменятся метеорологиче­ские параметры, нагреется ствол или орудие просядет в грунте, то рас­пределение дальности выстрелов станет отличаться от нормального закона.

   Функция плотности вероятности нормального распределения определяется выражением:

                       ¾Ø

f(x) = [1/(sx Ö2p)]·exp[-(x-mx)2/(2s2x)]

В общем случае нормальное распределение является двухпараметрическим, т.е. зависит от двух параметров: математического ожидания и среднего квадратического отклонения (или дисперсии). Для него коэффициент асимметрии равен нулю, а мода, медиана и МО совпадают. Область возможных значений СВ, подчиняющейся нормальному распределению – от минус бесконечности до плюс бесконечности.

  Интегральная функция распределения имеет вид

                       ¾Ø     x

F(x) = [1/(sxÖ2p)] òexp[-(z-mx)2/(2s2x)]dz

                              -¥

где z – переменная интегрирования.

   Из этих формул следует, что любая природная величина, строго говоря, не может иметь нормальное распределение, поскольку функция плотности вероятности его асимптотически приближается к оси x при стремлении значений величины к плюс или минус бесконечности. Т.е. сколь большое или малое значение случайной величины мы бы не взяли, соответствующая ей плотность вероятности будет отличаться от нуля. Значения же концентраций веществ в среде не могут быть меньше нуля. Не могут они принимать и очень высокие значения. Так, проективное покрытие растительности не может быть больше 100%. Концентрации растворенных веществ в воде не могут существенно превышать их растворимость. Тем не менее принимается соответствие распределения СВ нормальному закону распределения, если имеет место совпадение эмпирического и теоретического распределений в окрестностях математического ожидания СВ. При этом игнорируется заведомое несовпадения «краев» распределений в областях низких и высоких значений СВ. 

   Само по себе определение наиболее близкого данному экспериментальному распределению теоретического распределения важно для прогнозирования вероятностей встречаемости тех или иных значений случайных величин. Однако для определения того, какими методами можно проверять существенность различия двух наборов (выборок) данных, необходимо выяснить лишь одно: можно ли считать распределение нормальным или нет. В первом случае к нашим услугам параметрические критерии проверки данных на однородность, во втором – непараметрические. Слово «параметрические» означает, что закон распределения случайной величины нам известен, и нам нужно уточнить лишь его параметры. Например, нам известно, что закон – нормальный, значит, необходимо выяснить значения математического ожидания и дисперсии. Термин «непараметрические» говорит о том, что для применения данного статистического критерия нет никакой необходимости знать закон распределения. Может возникнуть вопрос: «А почему бы тогда не применять только непараметрические критерии?» Дело в том, что параметрические критерии более строгие, и если есть возможность применить такой критерий, то следует использовать именно его, а не непараметрический.

   Итак, если у нас имеется некоторое количество значений исследуемого параметра, начать следует с поиска ответа на вопрос: «Достаточно ли близок его закон распределения к нормальному, чтобы можно было применять критерии Стьюдента (Госсета) и Фишера?»

Сперва можно применить экспресс-метод: возможно, распределение данной выборки соответствует нормальному, если удовлетворяется следующее условие – коэффициент асимметрии должен быть меньше, чем учетверенный коэффициент вариации. Если данное условие не выполняется, тогда можно с легким сердцем забыть об использовании для данного случая критериев Стьюдента и Фишера и сосредоточиться на использовании непараметрических критериев. Если же условие удовлетворено, то это отнюдь не является доказательством нормального закона распределения.

Для применения экспресс-метода создадим рабочую область («программу») в пакете Mathcad. Естественно, сначала нам необходимо «предоставить» этому пакету данные, которые он должен обработать. В принципе, эти данные можно «набить» непосредственно в пакете Mathcad: создать в нем таблицу и заполнить её. Однако в подавляющем большинстве случаев результаты натурных измерений и наблюдений уже имеются в электронном виде. Чаще всего данные заносятся в файлы электронных таблиц формата Microsoft Excel. Поэтому рассмотрим именно этот случай. Microsoft Excel не накладывает строгих ограничений на структуру своих таблиц. Для пакета Mathcad импортируемые файлы должны иметь строгую структуру: это могут быть векторы или матрицы. Вектор – это столбец из числовых значений, в таблице Microsoft Excel это совокупность ячеек в первом столбце, начиная с первой строки, т.е. А1, А2, … Аn. «Пустых» ячеек между ячейками А1 и Аn быть не должно. Не должно также быть других заполненных ячеек, кроме блока А1:Аn.

Рабочая область пакета Mathcad должна начинаться с импорта данных. В данном случае источником создаваемого вектора служит файл Microsoft Excel, в котором имеется один-единственный столбик числовых данных и ничего более. После «запуска» пакета Mathcad на экране появиться чистое белое поле новой рабочей области. Аналогичный результат можно получить, если в интерфейсе нажать кнопку «Файл», а затем в появившемся ниспадающем меню – опцию «Новый». В начале создаваемой рабочей области совсем не лишним будет записать, что же осуществляет данная программа. Поэтому запишем: «Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода». Далее организуем импорт данных. На интерфейсе пользователя нажимаем кнопку «Вставка». Затем в появившемся ниспадающем меню – опцию «Компонент». Появляется окно «Мастер компонентов». В представленном в этом окне списке типов компонентов выбираем «Чтение или запись файла» и нажимаем кнопку «Next». Затем, естественно, оставляем включенной кнопку «Читать из файла» и нажимаем кнопку «Далее». На экране появляется «Мастер Чтения или Записи Файла». В «окошке Формат Файла» выбираем формат импортируемого файла. В нашем случае это будет «Excel». Затем нажимаем кнопку «Обзор» и при помощи появившегося диалогового окна «Read from File» выбираем файл – источник данных. При этом в рабочей области в черном прямоугольнике появится схематичное изображение дискеты, а ниже него – адрес файла и его название. В верхнем левом углу прямоугольника левее знака присвоения (:=) находится маленький черный прямоугольник, снизу и справа отчеркнутый синими линиями. Это место, где необходимо прописать идентификатор вектора. Следует применять латинские буквы и арабские цифры.

Для расчета коэффициента вариации необходимо определить оценку математического ожидания выборки и среднего квадратического отклонения. Затем определяем коэффициент асимметрии. Ниже приведен листинг рабочей области («программы») проведения экспресс-теста.  Заметим, что умножение оценки дисперсии на n/(n-1) необходимо для ликвидации её отрицательной смещенности. При n≥30 можно обходиться без этой коррекции.

Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода

Импорт  данных в вектор:

vector

Подсчёт математического ожидания m:

Подсчёт числа членов выборки (вектора) n

Расчёт среднего квадратического отклонения s

Расчет коэффициента вариации Cv

Расчет коэффициента асимметрии Cs

Ответ является результатом логической операции. К сожалению, строковые переменные, составленные из символов кириллицы, зачастую отображаются неадекватно. Поэтому можно либо писать по-русски латиницей, как это сделано в данной программе, либо писать по-английски.

   Замечательным свойством рабочей области пакета Mathcad является её универсальность. Когда нужно обработать другие данные, достаточно лишь изменить оператор, отвечающий за импорт данных. Для этого необходимо подвести курсор «мыши» в пределы данного оператора и нажать на правую кнопку манипулятора. Появится диалоговое меню, в котором следует выбрать опцию «Выбор файла». Затем, соответственно, выбрать необходимый новый файл с данными. Более не надо производить никаких действий. Все расчеты в рабочей области будут выполнены автоматически.

   Однако экспресс-метод может нас «подвести», если распределе­ние значений выборки не является одномодальным. Поэтому совершенно обязательным элементом анализа данных служит построе­ние гистограммы распределения. При этом область значений подразде­ляется на несколько равных интервалов и для каждого подсчитывается частота, т.е. отношение количества значений в данном интервале на общее количество значений выборки. Если оказывается, что распреде­ление многомодальное, т.е. в разных частях гистограммы имеется как минимум два (возможно, и более) «высоких» столбиков, соответст­вующих интервалам с высокими значениями частот, а между этими «высокими» столбиками располагаются «низкие» столбики (низкие значения частот), то выборка явно неоднородна. Следует попытаться разбить её на отдельные однородные части. Существенным подспорьем для этого служат базы данных и геоинформационные системы. С их помощью следует проанализировать пространственно-временную не­однородность выборки. Возможно, окажется, что группировки значе­ний относятся к различным временным периодам или пространствен­ным местоположениям. Например, это могут быть различные ланд­шафтные, биогеографические или почвенные таксоны, разные почвен­ные горизонты. В водных экосистемах следует привлечь данные о вер­тикальной стратификации и водных массах. Может оказаться, что одна группировка значений относится к эпилимниону, а другая – к гиполим­ниону. Другой вариант, если речь идет о крупном озере или морской акватории – группы значений пространственно разделены термическим баром, существующим в периоды прогрева (весна – первая половина лета) и охлаждения (осень) водного объекта. Вариант – различные вод­ные массы. Для их выявления придётся привлекать TS-анализ. На дан­ном этапе анализа требуются комплексные знания специалиста-эколога. Возможно, выявленные одномодальные группировки значений будут характеризоваться нормальным распределением.

   Однако тот факт, что распределение одномодально, ещё не гаран­тирует нормальности распределения. Последнее симметрично, поэтому сдвиг моды (самого высокого столбика) распределения к краю гистограммы говорит об асимметричности распределения и, соответст­венно, о том, что закон распределения выборки существенно отлича­ется от нормального. Чаще всего при исследованиях содержания ве­ществ в окружающей среде мы сталкиваемся со сдвигом влево: наибо­лее часто встречаются низкие концентрации. Это происходит в том случае, когда большинство значений в выборке соответствуют фоно­вым природным значениям, но есть несколько «выбросов», высоких значений, определяемых антропогенным воздействием. В данном слу­чае также «на выручку» приходит пространственный анализ. Разбив с его помощью выборку на «природную» и «антропогенную» части, мы можем в результате получить выборки, подчиняющиеся нормальному закону распределения.

Построение гистограммы частотного распределения

Импорт  данных в вектор v:

v

Определение числа членов выборки m:

Определение оценки математического ожидания (sred) и среднего квадратичного отклонения (sko):

   

Определение числа градаций n: принимается, что оно равно частному от деления количества членов выборки на 5. В результате отбрасывается дробная часть. Если получается, что число градаций меньше 5, то за число градаций берётся 5. Максимальное число градаций – 21.

Затем определяем минимальное, максимальное значения в выборке и её размах.

Далее определяем порядок размаха и шкалу градаций. В представленном ниже цикле последовательно увеличиваем значение максимального значения выборки в 10 раз, пока это значение не станет больше 1 и, таким образом, выясняем порядок максимального значения.

Определяем «условно увеличенное максимальное значение»:

Получаем ближайшее к нему целое «сверху»:

Определяем разницу между увеличенной границей и увеличенным максимальным значением:

Если разница больше половины порядка, то снижаем значение верхней границы на половину порядка.

Определяем реальное значение верхней границы.

Аналогичные действия выполняем для определения значения нижней границы по оси X.

В качестве верхней и нижней границ значений по оси X берутся ближайшие к максимальному и минимальному значениям выборки кратные половине порядка значения. Естественно, нижняя граница меньше минимального значения, а верхняя больше. Так, для  нашего примера:

  

         

Далее создаётся порядковая индексная переменная (индексы градаций) j:

Затем рассчитывается шаг градации h:

После этого создаём одномерный массив (вектор) значений границ  градаций int:

При помощи функции histogram строим матрицу (двумерный массив) f, первая колонка которой содержит значения середин градаций, а вторая – количество «попавших» в эту градацию значений выборки.

Далее создаем матрицу gist, первый столбец которой совпадает с первым столбцом матрицы f и содержит значения середин градаций, а второй содержит соответствующие частоты. Обратите внимание, что первый столбец матрицы имеет номер 0.

Строим функцию нормального закона плотности вероятности:

Затем непосредственно строится гистограмма и линия нормаль­ного распределения:

Рис. 1. Пример построения гистограммы распределения в пакете Mathcad.

Для создания графика в пакете Mathcad следует на панели интерфейса нажать «Вставка», а в появившемся ниспадающем меню – «График», затем – «Точка X-Y». В рабочей области появятся внешняя и внутренняя рамки поля графика. По оси X  поставить идентификатор первого столбца матрицы, полученной при помощи функции histogram, а по оси Y – второго. В нашем примере это, соответственно,  и .Для добавления кривой нормального распределения за последним обозначением следует поставить символ «,» и F(), а затем – «Ввод».

   Закономерен вопрос: «Как быть, если применение экспресс-метода и построение гистограммы частотного распределения не разрешили наши сомнения в том, принадлежит или не принадлежит данная выборка нормальному закону распределения?» В этом случае необходимо выяснить, существенно или несущественно различие между распределением совокупности данных наблюдений и теоретическим нормальным распределением при помощи критериев согласия.

Критерии согласия

При помощи критериев согласия проверяется гипотеза о соответствии эмпирической функции распределения выборки (совокупности числовых результатов натурных измерений) какой-либо аналитической функции (закону распределения). В качестве так называемой нулевой гипотезы принимается предположение о соответствии эмпирической и теоретической (аналитической) функций распределения, а в качестве альтернативной (противоположной)  – их несоответствие. Степень согласия оценивается при помощи специально рассчитываемых величин, которые называются статистиками. Естественно, различные критерии (тесты) используют для оценки степени согласия разные статистики. Наиболее часто применяются критерий хи-квадрат Пирсона, критерий Колмогорова и критерий nw2 (Крамера-Мизеса-Смирнова).

Тестовой статистикой последнего критерия является сумма квадратов разностей между аналитической P(x) и эмпирической P*(x) функциями обеспеченностей по всем значениям случайной величины x:

                n

nw2 = S[P*(x)- P (x)]2 +1/(12n)

          i=1

Напомним, что обеспеченность – это величина, обратная интегральной функции распределения F(x). Если последняя показывает вероятность того, что случайная величина не превысит некоторого заданного значения, то функция обеспеченности, наоборот, показывает вероятность того, что случайная величина будет равна заданному значению или превысит его. Разумеется, во всех тестовых статистиках несложно заменить функцию обеспеченности интегральной функцией распределения: P(x) = 1-F(x). Широкое использование именно функции обеспеченности объясняется тем обстоятельством, что очень часто для практических целей необходимо знать вероятность того, что случайная величина примет какое-либо определенное значение или превысит его. Так, при мониторинге состояния окружающей среды очень важно определить вероятность превышения ПДК, при прогнозе опасных явлений – вероятность штормового усиления ветра, увеличения высоты волны в море, выпадения большого количества осадков, которое может вызвать наводнение и т.п.

Обыкновенно мы имеем дело с выборками небольшого объема (проще говоря, число измерений ограничено). Члены выборки ранжируются, т.е. располагаются в убывающем или возрастающем порядке. Допустим, имеется ряд величин какой-либо характеристики, расположенных в убывающем порядке:

x1>x2>x3>…>xm>…>xn . Тогда теоретическая вероятность превышения для m-го члена ряда может быть выражена формулой

P{X³ xm}=lim(m/N)   N®¥

Однако длина реальной выборки конечна, n<¥. Можно приблизительно оценить вероятность превышения каждого члена имеющейся выборки:

P*m =P{X³ xm}» m/n,

где m – порядковый номер xm в ранжированном ряду, P*m  - обеспеченность m-го члена ранжированного ряда. В соответствии с данной формулой обеспеченность первого (самого большого) члена ранжированного ряда будет равна 1/n, второго – 2/n, последнего – n/n=1. Таким образом, последний член ранжированного ряда представляет собой абсолютный минимум и СВ никогда не примет значение меньше xn. Данный парадокс возникает в связи с тем, что мы заменили N на n. В действительности можно получить бесконечное множество выборок из генеральной совокупности длиной n, каждая из которых будет иметь свой максимум и свой минимум. В этом смысле эмпирическая обеспеченность m-го члена ранжированного ряда сама будет являться случайной величиной, и в качестве расчетного значения разумно принять её математическое ожидание, моду или иную устойчивую характеристику. В настоящее время разработано около десятка формул для расчета эмпирической обеспеченности. Часто применяются следующие три формулы:

А.Хазена    P*m =(m-0.5)/n

С.Н.Крицкого-М.Ф.Менкеля (Вейбула)   P*m =m/(n+1)    

Н.Н.Чегодаева   P*m = (m-0.3)/(n+0.4)

Формула Хазена фактически предполагает замену ступенчатого графика эмпирических частот сглаженной кривой, проходящей через середины ступенек графика. Обеспеченность первого члена ряда составит 1/2n. Формула Крицкого-Менкеля соответствует математическому ожиданию эмпирической обеспеченности. Формула Чегодаева  - медианному значению эмпирической обеспеченности. Среди перечисленных формул в определенном смысле наилучшей является формула Крицкого-Менкеля, т.к. получаемая по ней оценка эмпирической обеспеченности является состоятельной, несмещенной и эффективной. Несмещенными называются оценки, математическое ожидание которых равно оцениваемому параметру. Оценка называется состоятельной, если она сходится по вероятности к оцениваемому параметру при неограниченном возрастании числа опытов. Оценки, обладающие свойством несмещенности и состоятельности при ограниченном числе опытов могут иметь разные дисперсии. Очевидно, что чем меньше дисперсия оценки, тем меньше вероятность грубой погрешности при определении приближенного значения параметра. Оценка, обладающая минимальной дисперсией, называется эффективной.

   При выводе формулы эмпирической обеспеченности допустимо рассуждать и по-иному. Значение СВ, расположенное в ранжированном ряду длиной n на m-м месте тоже является СВ, и можно рассчитать обеспеченность, соответствующую математическому ожиданию или моде m-го члена. Но в такой постановке задача разрешима лишь в том случае, когда закон распределения исходной СВ X известен. Так, для распределения Гумбеля и для экспоненциального распределения: P*m=(m-0.44)/(n+0.12); для нормального распределения: P*m=(m-3/8)/(n+1/4). Различие этих двух подходов состоит в том, что в первом случае в качестве СВ мы рассматриваем обеспеченность m-го члена ранжированного ряда, а во втором в качестве СВ рассматривается значение m-го члена затем вычисляется обеспеченность его МО или моды.

При использовании критериев согласия необходимо задавать уровень значимости.

Вспомним, что статистической  гипотезой является некоторое предположение относительно свойств генеральной совокупности, из которой извлечена выборка. Например, мы взяли в водном объекте 20 проб для определения содержания в воде растворенного кислорода. Эти 20 проб и составляют выборку из генеральной совокупности. Для определения растворенного кислорода по классическому иодометрическому методу Винклера требуется около 200 – 300 мл воды. Таким образом, в составе выборки мы вычерпали из нашего водного объекта 250мл х 20 проб  = 5 л. Генеральная совокупность в данном случае – это весь водный объект, вычерпанный на пробы. Для примера возьмём крайне небольшой объект – круглый пруд диаметром 50 м и средней глубиной 1м – что-то вроде Карпиева пруда в Летнем саду. Но его объём составляет около 1963.5 м3, т.е. около 7 853 000 объёмов проб на содержание растворённого кислорода. Следовательно, генеральная совокупность значений данного параметра даже для такого малюсенького объекта неимоверно выше реальной выборки. А ведь экологам приходится делать выводы о состоянии неизмеримо больших водных объектов (Невской губы или Ладожского озера) на основании выборок, которые в лучшем случае имеют десяток-другой значений. Это научно обосновано, если выборка репрезентативна, т.е. отражает свойства объекта в целом. Для этого требуется, чтобы точки отбора проб были равномерно распределены по пространству исследуемого объекта. При обработке выборки мы сначала выдвигаем статистическую гипотезу – в первую очередь гипотезу о достаточной близости распределения значений в выборке нормальному закону. Как раз для проверки гипотез используются специальные тесты, называемые критериями. Критерий (тест) статистической гипотезы – это правило, позволяющее принять или отвергнуть данную гипотезу. Для реализации теста используются определенные функции результатов, называемые статистиками.

Для конкретной выборки (реализации) рассчитывают эмпирическое значение статистики. Очевидно, что величина статистики также является случайной величиной, подчиняющейся какому-то закону распределения, и для различных выборок данной длины значение оценки статистики будет различным. Область возможных значений статистики делится на две части: область принятия гипотезы и критическую область. Если оценка статистики (значение статистики, рассчитанное для данной выборки) попадает в область принятия гипотезы, то эта гипотеза не опровергается, если в критическую область, то гипотеза опровергается. Область принятия гипотезы называется доверительной областью (доверительным интервалом). Законы распределения применяемых статистик являются одномодальными. На рис. 2 представлена функция распределения некоей статистики t.

                     f(t)       

t

Рис. 2. Доверительная и критические области.

 

Вероятность по произвольной выборке получить такую оценку статистики, которая попадает в доверительную область, геометрически равна незаштрихованной площади на графике распределения плотности вероятности статистики. Эта вероятность называется доверительной вероятностью pд. Вероятность попадания оценки статистики в критическую область выражается равенством a=1 - pд. Вероятность a называют уровнем значимости. Если критическая область состоит из двух частей, то вместо a пишут 2a = 1- pд, где 2a указывает на то, что уровень значимости двусторонний. Геометрически уровень значимости равен заштрихованной площади. Однако уровень значимости, к сожалению, невозможно рассчитать на основании каких-либо внешних параметров. Его приходится принимать, разумеется, не «с потолка», а на основании некоторых соображений. Поэтому здесь кроется некоторая неопределенность, объективно присущая любому исследованию окружающей среды.

Значимости уровень статистического критерия - это вероятность ошибочно отвергнуть основную проверяемую гипотезу (так называемую нулевую гипотезу), когда она верна. В результате проверки статистической гипотезы H могут возникнуть четыре ситуации: гипотеза H на самом деле истинна и принимается согласно критерию; гипотеза, противоположная гипотезе H на самом деле истинна и принимается согласно критерию;  гипотеза H на самом деле истинна, но отвергается согласно критерию (ошибка первого рода); гипотеза, противоположная гипотезе H на самом деле истинна, но отвергается согласно критерию (ошибка второго рода).

В первых двух случаях мы получаем правильные заключения, а в двух последних  - ошибочные заключения. При проверке гипотез возможны погрешности двух родов. Погрешность первого рода состоит в том, что нулевая гипотеза отвергается в то время, когда она в действительности верна. Чем меньше уровень значимости, тем меньше вероятность отвергнуть верную гипотезу. Погрешность второго рода состоит в том, что нулевая гипотеза принимается, а на самом деле она неверна. Вероятность ошибки первого рода называется уровнем значимости данного критерия. Обычно уровень значимости принимают равным 0.1, 0.05, 0.01, 0.001. Для дискретных случайных величин заданный уровень значимости указывает верхнюю границу для вероятности ошибки первого рода.

Поскольку мы всегда обрабатываем не генеральную совокупность, а реализованную выборку из неё (реализацию), то при проверке какой-либо статистической гипотезы встает вопрос о том, существенно ли различие значения рассчитанной по данной выборке статистики от теоретического значения, соответствующего проверяемой нулевой гипотезе. Причиной этого различия может быть и случайное колебание значений в выборке, а может и ложность нулевой гипотезы. Если сравниваемые значения статистики, т.е. теоретического в соответствии с принятой нулевой гипотезой и полученного по конкретной выборке отличаются друг от друга более, чем это можно разумно приписать случайной вариации значений элементов выборки, то разность между ними называется значимой или существенной. В противном случае разность называется несущественной или случайной.

Весь вопрос в том, как определить границу между существенной и несущественной разницей значений статистики? Для этого сначала необходимо определить уровень значимости, ибо при его различных значениях различным будет положение границы между случайной и значимой разницей значений статистики. Граница между вероятностью существенного и несущественного различия называется уровнем значимости и часто обозначается через a. Если вероятность полученной статистики равна или меньше уровня значимости, то гипотеза опровергается. Можно дать другое определение: уровень значимости — это вероятность события, которой решено пренебречь.

Значения статистики, при которых гипотеза опровергается, т.е. вероятность которых меньше заданного уровня значимости a, образуют критическую область проверяемой гипотезы. Значения статистики, при которых гипотеза не опровергается, образуют доверительную область. Границы между критической и доверительной областью называются доверительными границами. Задача проверки гипотезы сводится к построению критической области рассматриваемой статистики для данного уровня значимости. Если статистика попадает в критическую область, то этот факт указывает на несоответствие гипотезы наблюденным данным, и гипотеза опровергается.

При помощи критерия значимости нулевая гипотеза может быть опровергнута. Но даже если гипотеза не опровергнута, это еще не значит, что она верна. На это необходимо обратить особое внимание. Только в случае достаточно высокой вероятности полученного результата при данной нулевой гипотезе можно утверждать, что рассматриваемая гипотеза, по-видимому, верна.

Выбор уровня значимости или вероятности события, которой решено пренебречь в данной области исследования, производится до некоторой степени произвольно. Он устанавливается на основании опыта, как уровень, дающий определенную практическую уверенность, что ошибочные заключения будут сделаны только в очень редких случаях. Например, в гидрометеорологических расчетах и прогнозах широкое употребление имеют 10, 5, а нередко используется и 1 %-й уровень значимости (a=10, 5, 1 %). В других областях научных исследований уровень значимости может быть другим.

Для понимания смысла уровня значимости рассмотрим ряд «житейских» примеров. Предположим, мы хотим приобрести ящик яблок, для ровного счета 100 штук. На вопрос о качестве товара продавец говорит нам, что яблоки отличные, ну может быть, от силы одно – два немного подгнили. Мы согласны с такое долей некондиции и для проверки вынимаем из ящика первое попавшееся под руку яблоко – оно оказывается гнилым. Берем второе – тоже гниль. Скорее всего, мы прекратим испытания и не станем покупать этот товар. То есть мы пренебрегли вероятностью того, что мы вытащили из ящика два единственные гнилые яблока, а остальные – высшего сорта. Посмотрим, какова вероятность этого события? Вероятность вытащить в первом испытании гнилое яблоко – 2/100, во втором – 1/99. Соответственно вероятность вытащить в первом и втором случаях гнилые яблоки - 2/100*1/99 = 0.0002. Т.е. мы интуитивно пренебрегаем возможностью столь маловероятного события, хотя оно в принципе возможно. Другой случай: разработка и установка системы аварийного отключения какого-либо потенциально опасного промышленного объекта (атомного или химического реактора и т.п.). Разработчик утверждает, что вероятность отказа – 1 случай на миллион, однако при проверке система не срабатывает. Вероятно, приемная комиссия не поверит, что она столкнулась именно с этим случаем, а в остальных 999999 случаях система будет работать великолепно. Третий пример из сессионной студенческой жизни: имеется 20 экзаменационных билетов по два вопроса в каждом, причем вопросы скомпонованы в билеты случайным образом. Студент отлично отвечает на оба вопроса и получает соответствующую оценку без дополнительных вопросов. Это означает, что экзаменатор пренебрегает вероятностью того, что студент знает ответы только на эти два вопроса, а остальной курс ему незнаком. Посмотрим, какова эта вероятность: 2/40*1/39 = 0.0013 или уровень значимости 0.128%. А если студент знает только половину курса? В этом случае уровень значимости будет дольно велик: 20/40*19/39 = 24.4%. То есть экзаменатор при правильном ответе студента на оба вопроса билета с очень большой долей вероятности может быть уверен в том, что экзаменуемый студент знает ещё что-то, но для уверенности в том, что студент знает больше половины курса необходимо задать дополнительные вопросы.

При увеличении уровня значимости увеличивается критическая область, а следовательно, возрастает и вероятность попадания исследуемой статистики в критическую область. Таким образом, возрастает и вероятность ошибочного отбрасывания выдвинутой гипотезы. Например, при уровне значимости a, равном 20 %, будут опровергаться все гипотезы, вероятность статистик которых составляет 20 % и менее. Однако попадание значения статистики в критическую область в случае правильности нулевой гипотезы возможно в среднем в одном из пяти случаев. Поэтому к отбрасыванию гипотез при больших уровнях значимости надо подходить очень осторожно.

Казалось бы, в чем же тогда дело? Давайте назначать уровень значимости как можно меньше. Однако с уменьшением уровня значимости возрастает число испытаний (в нашем случае – проб, измерений), необходимых для эффективного применения критерия значимости, так как при малом объеме выборок возможна такая ситуация, когда применение данного теста (статистики) вообще не корректно. В качестве основного критерия при выборе уровня значимости выступает только возможность его использования на практике. С одной стороны, этот уровень должен быть достаточно велик для отбрасывания ложных гипотез, а с другой — он должен быть достаточно мал, чтобы приводить к отбрасыванию лишь немногих верных гипотез. Поэтому в каждой области исследований обычно применяется несколько уровней значимости и в каждом конкретном случае выбирают тот уровень, который оптимален задаче данного исследования. При этом необходимо учитывать следующие важные обстоятельства:

1. Уровень значимости уменьшается с повышением важности расчета. Так, если проверяются, например, гипотезы о надежности или возможности отказа какого-то важного технического устройства или конструкции, то уровень значимости может быть принят равным даже 0,1 %.

2. Уровень значимости должен быть в какой-то степени согласован с точностью исследуемых исходных данных и возможностью увеличения объема выборки. Если, например, точность измерений не превышает 5 %, то использование уровня значимости меньше 5 % не всегда достаточно обосновано.

В качестве уровня значимости принимается такое достаточно малое значение вероят­ности, которое характеризует практически невероятное (маловероятное) событие для данной сферы практической деятельности или научного исследования. Назначение уровня значимости не является математической задачей. Уровень значимости устанавли­вается исходя из тех последствий, которые возможны вследствие совершения ошибки при принятии или отклонении данной гипотезы. Уровень значимости (в литературе встреча­ется обозначение p-уровень) – это показатель, находящийся в обратной зависимости от надёжности результата. Более высокий уровень значимости соответствует более низкому уровню доверия к результату проверки статистической гипотезы.

Как определить, является ли результат действительно значимым? Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать "значимым". Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, довольно произволен. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения натурных исследований) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях знания уровень значимости в 5% является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все ещё включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне 1% обычно рассматриваются как статистически значимые, а результаты с уровнем 0.5% или 0.1% как высоко значимые. Однако следует понимать, что данная классификация уровней значимости является всего лишь неформальным соглашением, принятым на основе практического опыта.

При проверке статистических гипотез необходимо различать двухсторонний и односторонний уровень значимости. Так, если при сравнении двух случайных величин требуется оценить их разницу, т. е. одинаковый интерес представляют как положительная, так и отрицательная разность между изучаемыми величинами, то при 5 %-м уровне значимости, берется по 2,5 % на каждом «конце» функции распределения данной статистики. Наиболее часто эта ситуация встречается при проверке средних значе­ний, когда одинаково важны существенные отклонения как в положительную, так и в отрицательную сто­рону. Односторонний критерий значимости используется в тех случаях, когда надо убедиться, что одно зна­чение строго больше (меньше) другого, например: концентрация загрязняющего вещества в одном объекте значимо выше его содержания в другом.

При проверке гипотезы определяется вероятность того, что полученное отклонение оценки статистической характеристики от ее теоретического, соответствующего выдвинутой гипотезе значения больше или меньше допустимого при данном уровне значимости. Область принятия гипотезы называется доверительной областью (доверительным интервалом). Вероятность по произвольной выборке получить статистику, которая попадает в доверительную область называется доверительной вероятностью (рд). Вероятность попадания оценки статистики в критическую область выражается равенством a = 1 - рд. Если критическая область состоит из двух частей (два «конца» функции распределения вероятности данной статистики), то вместо a используют обозначение 2a = 1 - рд, где 2a указывает на то, что уровень значимости двусторонний. Геометрически уровень значимости равен заштрихованной площади на рис. 2.

Необходимо подчеркнуть, что при проверке статистических гипотез следует избегать категорических формулировок типа: «гипотеза верна» или «гипотеза неверна». Если значение анализируемой статистики не попадает в критическую область, говорят: нулевая гипотеза H0 не опровергается при принятом уровне значимости a; если попадает, говорят: H0 опровергается при уровне значимости a, т.е. расхождение эмпирических данных с нулевой гипотезой статистически значимо.

Возможен другой подход при оценке статистических гипотез. Он заключается в том, что при анализе какой-либо статистики границы доверительной области не фиксируются путем назначения уровня значимости. Вместо этого решается обратная задача: определяется максимальный уровень значимости, при котором статистика ещё попадает в доверительную область, т.е. нулевая гипотеза не опровергается. В этом случае говорят: гипотеза не опровергается при таком-то уровне значимости, результат интерпретируется в соответствии с приведенной ниже таблицей.

Табл. 1.

Традиционная интерпретация максимальных уровней значимости

a

Значимость соответствия эмпирических данных и H0

>0.1

Гипотеза H0 почти наверняка не опровергается

0.05

Довольно сильный довод в пользу H0

0.02

Некоторые сомнения в истинности H0

0.01

Сильные сомнения в истинности H0

 

Как уже упоминалось (с. 27), тестовая статистика 2 определяется суммой квадратов разниц между теоретической (предполагаемой) и реальной функциями обеспеченностей. При n>40 распределение статистики 2 не зависит от вида исходного теоретического распределения и близко к некоторому предельному распределению. Благодаря применению этого критерия наиболее полно используется вся первичная информация.

Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(2)

Импорт данных из файла Excel. Все данные в одном столбце.

v

tochnost:=0.0000001

Параметр tochnost необходим для отсечения паразитных величин, неизбежно появляющихся при компьютерных расчетах из-за различия между математическим и машинным 0.

Определение размера выборки, оценок мат. ожидания и среднего квадратического отклонения:

 

 

Ранжирование исходного ряда в убывающем порядке:

Выявление повторов

Выясняем  число уникальных значений в выборке, т.к. значения могут повторяться.

 

 

Создание матрицы

В первом столбце формируемой матрицы записывается уникальное значение. Во втором столбце матрицы - количество повторений значения.

 

Расчет эмпирических значений обеспеченности

 

(В листинге представлены все три упомянутые способа, в рабочей области необходимо оставить один, применяемый в данном конкретном случае).

 

 

1. По формуле Хазена.

 

2. По формуле Крицкого-Менкеля.

 

3. По формуле Чегодаева

 

Расчет теоретических значений обеспеченности для нормального распределения:

 

 

Расчет критерия "nw2":

 

Задаем уровень значимости в процентах:

Определение значений верхних доверительных границ статистики "nw2" в зависимости от уровня значимости:

 

Критерий хи-квадрат (Пирсона)

Сначала  разберёмся с терминологией и выясним, что же такое распределение хи-квадрат (c2) и каковы его свойства. Если Xi – независимые случайные величины, подчиняющиеся нормальному распределению, у которых mx = 0, а sx = 1, то случайная величина

 n

c2 = S X2 i  подчиняется распределению c2  с n степенями свободы.

           i=1

Это распределение определяется одним параметром n, который называется числом степеней свободы (его значение равно числу независимых случайных величин под знаком суммы). Плотность вероятности равна:

 

             æ  [2(n/2) G(n/2)]-1 e-(x/2)  x(n/2-1)       при         x>0

f(c2 ) = í

             è  0                                              при     x£0

 

G(.)  - гамма-функция, x – значение случайной величины c2.

Гамма-функция G(p) определяется для всех действительных p>0 соотношением:

            ¥

G(p) = ò xp-xe-x dx

           0

Она обладает свойством: G(p+1)= p G(p), G(1)=1, G(n+1)=n! Математическое ожидание и дисперсия распределения хи-квадрат равны: mx = n, Dx = 2n. Медиана может быть определена приближенным равенством Me » n-0.66. Мода при n³2 равна Mo = n-2. При увеличении числа степеней свободы распределение хи-квадрат медленно приближается к нормальному. Величина (n-1)[S2x/s2x] имеет распределение хи-квадрат с (n-1) степенями свободы. S2x и s2x – соответственно выборочная (оценка по данной выборке) и теоретическая дисперсия.

Критерий хи-квадрат был предложен Карлом Пирсоном в начале 20-го века и является наиболее распространенным критерием согласия. Для его применения область значений исследуемой случайной величины разбивается на k интервалов. Число интервалов можно приблизительно определить в зависимости от длины выборки n по формуле: k»5lg(n). При этом число значений в каждом интервале должно быть не меньше 5. В качестве меры расхождения между эмпирической P*(x) и теоретической  P(x) вероятностями «попадания» случайной величины в данный интервал можно выбрать сумму квадратов разниц, взятых с некоторыми весами Cj:

k

S Cj (P*j - Pj)2

j=1

Веса вводятся потому, что одно и тоже отклонение DPj может быть малозначительным, если высока сама вероятность Pj (x) и очень заметным, если вероятность Pj (x) мала. Поэтому естественно, что Cj берутся обратно пропорциональными Pj (x). Пирсон показал, что закон распределения величины

    k

nS ( (P*j - Pj)2/ Pj) ,

   j=1

в том случае, если нулевая гипотеза верна, обладает рядом интересных свойств: он практически не зависит от закона распределения величины x и длины выборки n, а зависит только от числа интервалов k.

               Если при разбиении выборки на k равновеликих интервалов число значений в каком-то оказывается меньше 5, то переходим к неравновеликим интервалам. Поэтому весьма эффективен следующий алгоритм: 1) выбрать аналитический закон для аппроксимации закона распределения случайной величины (для обоснования дальнейшего применения критериев Стьюдента и Фишера это будет нормальный закон распределения); 2) по выборке определить параметры распределения (для нормального закона это оценки математического ожидания и среднего квадратического отклонения); 3) разбить ось обеспеченностей на k интервалов и определить границы соответствующих интервалов случайной величины x в соответствии с теоретическим законом распределения. Например, если k=5, то границы интервалов на оси обеспеченностей будут соответствовать значениям 0, 20, 40, 60, 80, 100%; а ось X разобьется на интервалы: x20£x; x40£x<x20; x60£x<x40; x80£x<x60; x<x80. При реализации данной схемы интервалы по оси X не будут равновеликими, но зато вероятность попадания значения СВ в любой интервал будет одинакова: p=1/k. Одинаковым будет и теоретическое число случаев попадания СВ в каждый интервал m=n/k. Таким образом, данная схема разбивки области допустимых значений (ОДЗ) СВ X на интервалы обеспечивает следующие теоретические соотношения: m1 = m2 =m3 =…= mk = m = n/k, p1=p2=p3=…=pk=p=m/n.

               В качестве меры расхождения между эмпирическими данными и аналитической функцией распределения (в соответствии с теоретическим законом распределения, степень соответствия которому как раз необходимо выяснить) используется тестовая статистика

                   k

c2  =  n S ( (P*i - Pi)2/ Pi) ,

                   i=1

где P*i  и Pi  - соответственно эмпирическая и теоретическая вероятности попадания значения СВ в  i- ый интервал, n – длина выборки (число членов выборки), k – число интервалов. К. Пирсон показал, что закон распределения данной статистики не зависит от вида исходного распределения и при достаточно большом n хорошо аппроксимируется распределением хи-квадрат с числом степеней свободы n = kr - 1, где r – число параметров исходного распределения, определяемых по эмпирическим данным. Для двухпараметрического нормального закона (мат. ожидание и дисперсия) r = 2. Замечание. Здесь мы сталкиваемся с некоторой терминологической путаницей: хотя статистика Пирсона называется хи-квадрат, ее выборочное распределение лишь приближенно совпадает с распределением c2.

Учитывая, что m1= m2 =m3 =…= mk = m = n/k, p1=p2=p3=…=pk=p=m/n и P*i = m*/ n, выражение тестовой статистики c2  можно привести к более простому для расчетов виду:

               1   k

(c2 )* = ¾  S(m* i )2 - n,

              m  i=1

где m* i  и m – эмпирическое и теоретическое число случаев попадания значения СВ x в  i- ый интервал.

При использовании критерия Пирсона назначают односторонний уровень значимости (обычно 5% или 10%). Гипотеза о соответствии (согласии) эмпирической и аналитической кривых обеспеченностей не опровергается, если эмпирическое значение статистики Пирсона (c2 )* не превышает теоретическое значение c2, соответствующее принятому уровню значимости: (c2 )*£ c21-a.

Критерий Пирсона может применяться для выяснения вопроса о лучшем соответствии аналитических кривых распределения эмпирическому распределению. При этом меньшее значение статистики (c2 )* будет свидетельствовать о лучшем соответствии данной аналитической функции распределения эмпирическим данным. Использование критерия Пирсона для выборок небольшого объема может приводить к неправильным выводам. Это накладывает определенные ограничения на использование данного критерия. Принято считать, что критерий Пирсона допустимо применять при n>50 и желательно, чтобы число интервалов было равно 8-12 и в каждом интервале было не менее 5 элементов. Из-за этого требования применение данного критерия для анализа экологической информации зачастую проблематично, т.к. зачастую имеется гораздо меньшее количество экспериментальных данных.

В.А. Романовский предложил простое правило, значительно облегчающее применение критерия Пирсона. Это правило основывается на том, что математическое ожидание статистики (c2 )* = n, дисперсия = 2n, и что вероятность значений c2, отклоняющихся от M(c2) меньше,

                                                                            ¾Ø

чем на 3s близка к 1. Отсюда, если ½(c2 )*- n½/Ö2n  ³  3, то расхождение

можно считать существенным, гипотеза о соответствии эмпирического распределения предполагаемому теоретическому опровергается, в противном случае – не опровергается при уровне значимости 0.3%.

Критерий Колмогорова

   В качестве меры отличия распределения эмпирических данных от теоретической функции А.М. Колмогоров предложил принять наибольшее по абсолютной величине расхождение между эмпирической и P*(x) и теоретической  P(x) функциями обеспеченностей:

D = max ½ P*(x) - P(x)½

Вычисления по критерию Колмогорова производятся следующим образом. Для каждого значения случайной величины в выборке вычисляются P*(x), P(x) и их разности. Затем выбирается наибольшая по модулю разность D и рассчитывается статистика

                     Ø

l* = DÖn  , где n – объем выборки.

Колмогоров доказал, что функция обеспеченностей статистики l при достаточно большом объеме выборки (n>40) может быть аппроксимирована выражением

                                     n

P {l*>l} » P {l} = 2 S (-1)k-1 exp(-2k2l2)

                                    k=1

Если значение P {l} больше принятого уровня значимости, то гипотеза о соответствии эмпирической и аналитических кривых обеспеченностей не опровергается. Этот критерий имеет определенные недостатки, так, при его применении учитывается лишь наибольшее расхождение между эмпирической и теоретической функциями распределения, т.е. используется не вся информация. Оценка согласия по одной точке, особенно при небольшой длине выборки может плохо отражать соответствие эмпирических данных теоретическому закону распределения. Критерий Крамера-Мизеса-Смирнова является более мощным, чем критерий Колмогорова, т.е. если применение этих критериев дает различные результаты, то принимается результат, полученный при помощи первого критерия. Функцией мощности критерия называется функция, которая позволяет при заданной функции распределения вычислить вероятность того, что нулевая гипотеза будет отвергнута. Зная эту функцию, можно вычислить вероятности ошибок первого и второго рода. К сожалению, найти её удается крайне редко.

Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова

В начале выполняются абсолютно те же операции, что и в случае применения критерия Крамера-Мизеса-Смирнова: импорт данных, определение размера выборки, оценок математического ожидания и среднего квадратического отклонения, выявление повторов, расчет эмпирических значений обеспеченности, расчет теоретических значений обеспеченности для предполагаемого закона распределения (в данном случае – нормального). Поэтому данная часть программы (рабочей области Маткада) идентична соответствующей части программы применения критерия Крамера-Мизеса-Смирнова. Далее находим максимальную разницу между эмпирической и теоретической обеспеченностями D:

 

 

Задаем уровень значимости в процентах.

Вычисляем оценку статистики .

 

Расчет функции "P", показывающей соответствие эмпирической и теоретической кривых обеспеченностей:

 

 

Приведённые примеры показывают, что распределение содержащихся в файле vector.xls данных не соответствует нормальному закону по критериям Крамера-Мизеса-Смирнова и Колмогорова. Это означает, что мы не имеем права для проверки принадлежности двух групп данных к одной генеральной совокупности (т.е. однородности значений) применять параметрические критерии Стьюдента и Фишера. Данный результат довольно характерен для наборов экологических параметров, поскольку меньшие значения концентрации какого-либо загрязняющего вещества в окружающей среде, к счастью, всё же встречаются чаще, чем «зашкаливающие» значения. Если в результате применения критериев согласия оказывается, что распределение натурных данных слишком сильно отличается от нормального закона, то это отнюдь не повод для паники – в нашем распоряжении непараметрические критерии, которые не требуют от набора данных соответствия нормальному закону распределения, они вообще не требуют знания закона распределения. Однако если результат применения критериев согласия позволяет считать распределение набора натурных данных достаточно близким к нормальному, то следует применять именно параметрические критерии как более мощные. Необходимо отметить, что все вышеперечисленные критерии не «ловят» различия асимметрий. Учесть это позволяет экспресс-метод. Если распределения выборок явно одномодальны и применение экспресс-метода не выявило отличий от нормального закона распределения, то применение критериев Стьюдента и Фишера может быть информативным даже при отличии распределений выборок (или хотя бы одной) от нормального по критериям согласия. Перед применением критериев однородности двух групп данных весьма полезно построение совмещенного графика частотных распределений двух сравниваемых выборок.

Построение совмещенной гистограммы распределений двух выборок

Данная «программа» (рабочая область) во многом совпадает с рабочей областью построения гистограммы частотного распределения. Разница в следующем: подсчитывается общее количество элементов обоих выборок, число градаций и ширина градаций по оси X определяются для объединенной выборки:

 

        

 

          

Далее рабочая область не отличается от алгоритма построения одной гистограммы распределения непосредственно до определения параметров совмещенной гистограммы:

 

 

 

 Две гистограммы имеют одинаковые интервалы градаций и размещаются на одном на одном графике:

Рис. 3. Совмещенная гистограмма частотного распределения

двух выборок

 

Параметрические критерии

               Напоминаем, параметрические критерии можно применять только в том случае, если уже определены законы распределения выборок (сравниваемых групп данных). Критерии Стьюдента и Фишера – когда при помощи критериев согласия выяснено, что обе выборки имеют законы распределения, достаточно близкие нормальному закону.

 

Критерий Стьюдента

Необходимо подчеркнуть, что критерий и статистика часто имеют одинаковые названия, например критерий Стьюдента (t-крите­рий) базируется на использовании статистики Стьюдента. Если мы предполагаем верной гипотезу, что две совокупности данных принци­пиально не различаются между собой, т.е. принадлежат одной гене­ральной совокупности, то различия между оценками математических ожиданий двух групп экспериментальных данных и оценкой математического ожидания суммарной группы данных должны быть достаточно малы. Однако в качестве критерия применяется не величина различия между оценками математических ожиданий, а t-статистика, про которую заранее известно, что она подчиняется распределению Стьюдента. Если Z – нормированная нормально распределенная СВ, а U – независимая от Z СВ, подчиняющаяся распределению хи-квадрат с n степенями свободы, тогда СВ

                       ¾Ø

 t = ZÖn/U

подчиняется распределению Стьюдента (Госсета) с n степенями свободы. Распределение Стьюдента называют также t-распределением. Плотность вероятности этого распределения определяется равенством:

fn(t)=c(n)[1+t2/n]-(n+1)/2

где c(n) – параметр, зависящий от числа степеней свободы:

                                                  ¾Ø

c(n) = G[(n+1)/2]/[Önp G[(n/2)]

 

Распределение Стьюдента симметрично. Математическое ожидание, дисперсия и среднее квадратическое отклонение равны:

mt = 0, при n>1; Dt =s2t = n/(n-2) при n>2

При n=1 распределение Стьюдента приводит к распределению Коши, дисперсия которого бесконечна. С увеличением числа степеней свободы распределение Стьюдента асимптотически приближается к нормальному с параметрами mt = 0 и st = 1.

             _                  Ø                                                                                                       _

Величина t=( xmx)/(S/Ön) имеет распределение Стьюдента, где x и S –среднее арифметическое выборки и её СКО, n – число членов выборки.

 

Проверка однородности двух групп данных по

критерию Стьюдента

Вначале импортируем в переменные v1 и v2 исходные данные из двух векторов, причем распределения этих наборов данных должны соответствовать нормальному закону:

v1

 

v2

Определение размеров выборок:

n1:=length(v1) n2:=length(v2) n1=51 n2=49

Определение оценок математических ожиданий выборок:

m1:=mean(n1) m2:=mean(n2) m1=0.067381 m2=0.067861

Определение средних квадратических отклонений выборок:

 

s1=0.011499 s2=0.011986

Дисперсии:

d1:=s12  d2:=s22 d1=0.0001322 d2=0.0001437

Определение числа степеней свободы:

n:=n1+n2 n = 98

Определение эмпирической оценки одинакового для обеих выборок среднего квадратического отклонения S:

S=0.0117399

Определение значения t-статистики:

                                 _____________

t:=|m1-m2|*Ö(n1*n2)/(n1-n2) / S   t=0.204262

Задаётся двусторонний уровень значимости a, равный 10%. Определяется теоретическое значение t-статистики T при принятом уровне значимости a и вычисленном числе степеней свободы.

Нулевая гипотеза об однородности выборок отвергается, если модуль оценки t-статистики превышает теоретическое значение: |t| > T.

Применение критерия (теста):

test_answer: = ê”gipoteza ob odnorodnosti oprovergaetsa” if |t| > T

             ê”gipoteza ob odnorodnosti ne oprovergaetsa” otherwise

test_answer = ”gipoteza ob odnorodnosti ne oprovergaetsa”

При построении критерия предполагается, что анализируемые группы данных имеют одинаковую (хотя и неизвестную) дисперсию. Однако это отнюдь не очевидно, поэтому кроме критерия Стьюдента необходимо применять критерий Фишера, который проверяет близость дисперсий выборок. Действительно, при близких значениях оценок математических ожиданий двух групп данных (выборок) зачастую наблюдаются существенные различия в разбросе данных, т.е. дисперсиях. Например, одна величина среднегодовой температуры воздуха 5°С ничего нам не говорит о температурных условиях и продолжительности вегетационного периода. Так, при данном значении среднегодовой температуры возможен и резко континентальный климат с суровой зимой и холодным летом, и океанический климат с незначительными годовыми колебаниями температуры воздуха. Естественно, совершенно различными будут и геосистемы, имеющие данную среднегодовую температуру.

 

F-распределение Фишера

Если Z и U независимые случайные СВ, обладающие распреде­лением хи-квадрат с n1 и n2 степенями свободы, то СВ F=(Z/n1)/(U/n2) имеет распределение Фишера с n1 и n2 степенями свободы. Плотность вероятности этого распределения определяется равен­ством:

f(F ) = n1n1/2 n2n2/2  G[(n1+n2)/2]/[ G[(n1/2) G[(n2/2)] n1 = n1-1, n2 = n2-1

Распределение Фишера не зависит от дисперсии исходных выборок, а зависит только от числа степеней свободы. Это обстоятельство является очень важным, т.к. именно дисперсию и требуется установить в результате тех или иных действий. Отношение дисперсий двух выборок длиной m и n имеет распределение Фишера с числом степеней свободы n1 = m-1, n2 = n-1.

 

Критерий Фишера

Если две группы значений являются выборками из генеральных совокупностей, имеющих нормальное распределение и равные дисперсии, то отношение дисперсий выборок подчиняется распределению Фишера с числом степеней свободы n1 = n1-1 и n2 = n2-1. При нулевой гипотезе о равенстве дисперсий выборок и уровне значимости 2a доверительная область для отношения выборочных дисперсий S12/S22 определяется выражением:

               Fa(n1, n2) £ S12/S22 < F1-a(n1, n2) или 1/ F1-a  £ S12/S22 < F1-a

Распределение Фишера несимметрично, чтобы сократить число табличных значений или рассчитываемых в стандартных программных пакетах функциональных значений вычисления производят только для значений статистики Фишера F>1. При сравнении выборочных дисперсий в числитель всегда подставляют большую дисперсию. В этом случае доверительная область при уровне значимости 2a определяется выражением: 1£ S12/S22< F1-a. Полученное по сравниваемым группам данных значение статистики Фишера F* сравнивается с теоретическим значением F1-a  при принятом уровне значимости. Если F*<F1-a, то разница дисперсий двух групп данных считается незначимой и гипотеза об их однородности по дисперсии (по критерию Фишера) не опровергается.

Проверка однородности двух групп данных по критерию

Фишера

vect1

vect2

Определение размеров выборок:

n1:=length(vect1) n2:=length(vect2) n1=51n2=49

Определение дисперсий:

D1:=Var(vect1) D2:=Var(vect2) D1=0.0001322 D2=0.0001437

Определение экспериментального значение статистики Фишера F* (Frez):

Frez:= ½D1/D2 if D1>D2

           ôD2/D1 otherwise

Frez = 1.086

Определение степеней свободы:

v1:= ½(n1-1) if D1>D2

        ½ (n2-1) otherwise

v1=48

v2:= ½(n2-1) if D1>D2

        ½ (n1-1) otherwise

v2=50

Определение теоретического значения статистики Фишера при двустороннем уровне значимости 2a = 10%:

F95:=qF(0.95,v1,v2) F95=1.605

Применение критерия (теста):

test_answer: = ê”gipoteza ob odnorodnosti ne oprovergaetsa” if Frez<F95

                        ê”gipoteza ob odnorodnosti oprovergaetsa” otherwise

test_answer = ”gipoteza ob odnorodnosti ne oprovergaetsa”

 

Непараметрические критерии

Тем не менее в практике экологических исследований распространен случай, когда законы распределения значений групп данных явно не соответствуют нормальному. В этом случае необходимо применять непараметрические ранговые критерии Уилкоксона-Манна-Уитни и Зигеля-Тьюки. Термин «ранговый» означает, что выборки упорядочиваются по величине значений и каждому элементу выборки присваивается определенный ранг, например, номер по порядку. Предположим, выдвинута гипотеза, что между студентками факультета географии и геоэкологии и геологического факультета существует значительное различие по росту. Как это проверить? Необходимо сделать две случайные выборки, например, по номерам зачеток, и измерить рост каждой участницы. Затем располагаем полученные величины в порядке убывания коэффициента (первая в списке – самая высокая). После этого отдельно подсчитываем суммы номеров географинь и геологинь. Очевидно, что если значения полученных сумм будут достаточно близки, то нельзя говорить о значимом различии факультетов по параметру роста студенток.

Рангово-сумарный критерий Уилкоксона-Манна-Уитни

Сравниваются две группы данных (выборки) из генеральных совокупностей X и Y длиной m и n (m £ n). Если значение xi меньше yj, то xi образует инверсию с yj. Подсчитывается суммарное число инверсий для всех X и YU1 и U2.  За оценку числа инверсий U* принимается меньшее из значений U1 и U2. Распределение U-статистики является симметричным с МО mu и дисперсией Du:

mu = (mn)/2, Du = mn(m+n+1)/12.

При m³8 и n ³8 функция распределения нормированной величины статистики U может быть с достаточной точностью аппроксимирована стандартным нормальным распределением. Доверительный интервал для статистики U при уровне значимости 2a имеет вид:

mut1-a×su  £ U < mu + t1-a×su,

где t1-a - квантиль стандартного нормального распределения, т.е. значение x, вероятность непревышения которого равна 1-a. U-критерий – один из наиболее строгих непараметрических критериев, так как статистика U – очень сложная функция от среднего значения, эксцесса и асимметрии. U-критерий наиболее чувствителен к различию выборок по характеристикам положения (например, моды или среднего арифметического, т.е. оценки математического ожидания), но весьма слабо реагирует на разницу дисперсий.

Однако критерий Уилкоксона-Манна-Уитни требует, чтобы все элементы обоих выборок имели уникальные значения, т.е. в обоих наборах данных не должно быть совпадающих значений. Но в реальности это часто встречающийся случай. Для возможности применения данного делаем все значения уникальными путем изменения равных значений на крайне малую величину. Если есть равные данному значению элементы в обеих выборках (группах данных), то изменение значений, т.е. фактически их ранжирование производится при помощи генератора случайных чисел. В приводимом ниже примере реализован именно такой способ. Разумеется, такой подход вносит небольшой элемент случайности. Можно пойти и другим путем: ставить принадлежащие разным выборкам элементы с равными значениями поочередно.

Проверка однородности двух групп данных по критерию

Уилкоксона-Манна-Уитни

v1

v2

Задание точности (критерия различимости значений) и величины, на которую будут различаться исходно равные элементы:

tochnost:=0.00000001            delta:=0.0000001

Определение величины выборок:

  

Ранжирование выборок:

 

Выясняем  число уникальных значений:

unz1: = êt ¬ 1

             êfor i Î 0..(n1-1)

             ê   ½ predzn ¬ v1_sorti  if  i = 0

             ê   ½ otherwise

             ê   ½     ½ tekzn ¬ v1_sorti  

             ê   ½     ½ razn  ¬ ½tekzn – predzn ½

             ê   ½     ½ if  razn > tochnost

             ê   ½     ½    ½t  ¬ (t + 1)

             ê   ½     ½    ½predzn ¬ tekzn  

             ê   ½t

unz1=44

unz2: = êt ¬ 1

             êfor i Î 0..(n2-1)

             ê   ½ predzn ¬ v2_sorti  if  i = 0

             ê   ½ otherwise

             ê   ½     ½ tekzn ¬ v2_sorti  

             ê   ½     ½ razn  ¬ ½tekzn – predzn ½

             ê   ½     ½ if  razn > tochnost

             ê   ½     ½    ½t  ¬ (t + 1)

             ê   ½     ½    ½predzn ¬ tekzn  

             ê   ½t

unz2=15

Создаем новые матрицы - первый столбец - уникальное значение, второй - число повторений, третий - номер выборки:

Matr1unz1-1,2:=0        Matr2unz2-1,2:=0

 

Matr1:= ½ k ¬ 0

              ½ povtor ¬ 1

              ½ for i Î 1..(n1-1)

              ½    ½ predzn ¬ v1_sort(i-1)

              ½    ½ tekzn ¬ v1_sorti

              ½    ½ razn ¬ ½tekzn – predzn ½

              ½    ½ if razn > tochnost

              ½    ½  ½ k ¬ (k + 1)

              ½    ½  ½ Tablk-1,0 ¬ predzn

              ½    ½  ½ Tablk-1,1 ¬ povtor

              ½    ½  ½ Tablk-1,2 ¬ 1

              ½    ½  ½ if  i = (n1 – 1)

              ½    ½  ½  ½  Tablk,0 ¬ tekzn

              ½    ½  ½  ½  Tablk,1 ¬ 1

              ½    ½  ½  ½  Tablk,2 ¬ 1

              ½    ½  ½ povtor ¬ 1

              ½    ½otherwise 

              ½    ½  ½ povtor ¬ povtor  + 1

              ½    ½  ½ if  i = (n1 – 1)

              ½    ½  ½  ½  Tablk,0 ¬ tekzn

              ½    ½  ½  ½  Tablk,1 ¬ povtor

              ½    ½  ½  ½  Tablk,2 ¬ 1

              ½Tabl

 

Matr2:=½ k ¬ 0

             ½ povtor ¬ 1

             ½ for i Î 1..(n2-1)

             ½    ½ predzn ¬ v2_sort(i-1)

             ½    ½ tekzn ¬ v2_sorti

             ½    ½ razn ¬ ½tekzn – predzn ½

             ½    ½ if razn > tochnost

             ½    ½  ½ k ¬ (k + 1)

             ½    ½  ½ Tablk-1,0 ¬ predzn

             ½    ½  ½ Tablk-1,1 ¬ povtor

             ½    ½  ½ Tablk-1,2 ¬ 2

             ½    ½  ½ if  i = (n2 – 1)

             ½    ½  ½  ½  Tablk,0 ¬ tekzn

             ½    ½  ½  ½  Tablk,1 ¬ 1

             ½    ½  ½  ½  Tablk,2 ¬ 2

             ½    ½  ½ povtor ¬ 1

             ½    ½otherwise 

             ½    ½  ½ povtor ¬ povtor  + 1

             ½    ½  ½ if  i = (n2 – 1)

             ½    ½  ½  ½  Tablk,0 ¬ tekzn

             ½    ½  ½  ½  Tablk,1 ¬ povtor

             ½    ½  ½  ½  Tablk,2 ¬ 2

             ½Tabl

Соединение обеих матриц:

Matr:=stack(Matr1,Matr2)

Сортировка полученной матрицы по возрастанию значений:

M:=csort(Matr,0)

Определение количества рядов в матрице:

nm:=rows(M) nm=59

Определение числа уникальных значений:

unzm:= ½t ¬ 1

             ½for i Î 0..(nm-1)

             ½   ½ predzn ¬ Mi,0 if i=0    

             ½   ½ otherwise

             ½   ½  ½  tekzn ¬ Mi,0 

             ½   ½  ½  razn ¬ ½tekzn – predzn ½

             ½   ½  ½  if razn > tochnost                          

             ½   ½  ½    ½  t ¬ (t+1)

             ½   ½  ½    ½  predzn ¬ tekzn

½t   

unzm = 47                        

Поскольку значения в обеих выборках могут повторяться, создаем новую матрицу, в которой записываем число повторов для обеих выборок (оно может быть и нулевым). Создание объединенной матрицы U: первый столбец - уникальное значение, второй - число его повторов в первой выборке, третий - число его повторов во второй выборке.

U unzm-1,2 :=0

 

U:= ½ zapsled ¬ “false”

       ½ k ¬ 0

       ½ for i Î 0..(nm-2)

       ½   ½ if zapsled = “false”

       ½   ½   ½  teknvib ¬ Mi,2

       ½   ½   ½  slednvib ¬ Mi+1,2

       ½   ½   ½  if  slednvib = teknvib

       ½   ½   ½    ½ Tablk,0 ¬ Mi,0

       ½   ½   ½    ½ if teknvib = 1

       ½   ½   ½    ½    ½  Tablk,1 ¬ Mi,1

       ½   ½   ½    ½    ½  Tablk,2 ¬ 0

       ½   ½   ½    ½ if teknvib = 2

       ½   ½   ½    ½    ½  Tablk,1 ¬ 0

       ½   ½   ½    ½    ½  Tablk,2 ¬ Mi,1

       ½   ½   ½    ½ k ¬ k + 1

       ½   ½   ½ if  slednvib ¹ teknvib

       ½   ½   ½    ½ tekzn ¬ Mi,0

       ½   ½   ½    ½ sledzn ¬ Mi+1,0

       ½   ½   ½    ½ razn ¬ ½tekzn – sledzn½

       ½   ½   ½    ½ if razn > tochnost

       ½   ½   ½    ½    ½Tablk,0 ¬ Mi,0

       ½   ½   ½    ½    ½if teknvib = 1

       ½   ½   ½    ½    ½   ½  Tablk,1 ¬ Mi,1

       ½   ½   ½    ½    ½   ½  Tablk,2 ¬ 0

       ½   ½   ½    ½    ½if teknvib = 2

       ½   ½   ½    ½    ½   ½  Tablk,1 ¬ 0

       ½   ½   ½    ½    ½   ½  Tablk,2 ¬ Mi,1

       ½   ½   ½    ½    ½k ¬ k + 1

       ½   ½   ½    ½ if razn £ tochnost

       ½   ½   ½    ½    ½Tablk,0 ¬ Mi,0

       ½   ½   ½    ½    ½if teknvib = 1

       ½   ½   ½    ½    ½   ½  Tablk,1 ¬ Mi,1

       ½   ½   ½    ½    ½   ½  Tablk,2 ¬ Mi+1,1

       ½   ½   ½    ½    ½if teknvib = 2

       ½   ½   ½    ½    ½   ½  Tablk,1 ¬ Mi+1,1

       ½   ½   ½    ½    ½   ½  Tablk,2 ¬ Mi,1

       ½   ½   ½    ½    ½k ¬ k + 1

       ½   ½   ½    ½    ½zapsled ¬ “true”

       ½   ½ zapsled ¬ “false” otherwise

       ½poslnvib ¬ Mnm-1,2

       ½predposlnvib ¬ Mnm-2,2

       ½if  poslnvib = predposlnvib

       ½  ½ Tablk,0 ¬ Mnm-1,0 

       ½  ½ if  poslnvib = 1

       ½  ½  ½  Tablk,1 ¬ Mnm-1,1 

       ½  ½  ½  Tablk,2 ¬ 0 

       ½  ½ if  poslnvib = 2

       ½  ½  ½  Tablk,1 ¬ 0

       ½  ½  ½  Tablk,2 ¬ Mnm-1,1   

       ½if  poslnvib ¹ predposlnvib

       ½  ½ poslzn ¬ Mnm-1,0 

       ½  ½ predposlzn ¬ Mnm-2,0 

       ½  ½ razn ¬ ½poslzn-predposlzn½

       ½  ½ if razn > tochnost

       ½  ½  ½ Tablk,0 ¬ Mnm-1,0 

       ½  ½  ½ if poslnvib = 1

       ½  ½  ½  ½  Tablk,1 ¬ Mnm-1,1 

       ½  ½  ½  ½  Tablk,2 ¬ 0 

       ½  ½  ½ if poslnvib = 2

       ½  ½  ½  ½  Tablk,1 ¬ 0

       ½  ½  ½  ½  Tablk,2 ¬ Mnm-1,1  

       ½Tabl

Проверка числа рядов матрицы (уникальных значений):

nu:=rows(U)    nu=47

"Уникализация" повторяющихся значений.

Создание матрицы Unik: первый столбец - уникальное значение, второй - номер выборки.

nobsh:=n1+n2   nobsh=136 Uniknobsh,1:=0

 

Unik:=½k¬ 0

           ½for i Î 0..(nu-1)

           ½    ½   tekzn ¬ Ui,0

           ½    ½   tekn1 ¬ Ui,1

           ½    ½   tekn2 ¬ Ui,2

           ½    ½if  (tekn1=1) Ù (tekn2=0)

           ½    ½    ½ Tablk,0 ¬ tekzn

           ½    ½    ½ Tablk,1 ¬ 1

           ½    ½    ½ k ¬ k+1

           ½    ½ if  (tekn1=0) Ù (tekn2=1)

           ½    ½    ½ Tablk,0 ¬ tekzn

           ½    ½    ½ Tablk,1 ¬ 2

           ½    ½    ½ k ¬ k+1

           ½    ½for j Î 0..(tekn1-1)  if  (tekn1>1) Ù (tekn2=0)

           ½    ½    ½  povtzn ¬ tekzn + (delta×j)

           ½    ½    ½  Tablk,0 ¬ povtzn

           ½    ½    ½  Tablk,1 ¬ 1

           ½    ½    ½  k ¬ k+1

           ½    ½for j Î 0..(tekn2-1)  if  (tekn1=0) Ù (tekn2>1)   

           ½    ½    ½  povtzn ¬ tekzn + (delta×j)

½    ½  Tablk,0 ¬ povtzn

½    ½  Tablk,1 ¬ 2

½    ½  k ¬ k+1

½ if  (tekn1>0) Ù (tekn2>0)       

½    ½  f12 ¬ tekn1 + tekn2

½    ½  f1 ¬ tekn1

½    ½  f2 ¬ tekn2

½    ½  povtnum ¬ 0

½    ½  while (f1>0) Ù (f2>0)

½    ½     ½  sluch ¬ rnd(1)  

½    ½     ½  povtzn ¬ tekzn + (delta×povtnum)

½    ½     ½  povtnum ¬ povtnum + 1

½    ½     ½  if  sluch£0.5

½    ½     ½       ½ f1 ¬ f1-1

½    ½     ½       ½ Tablk,0 ¬ povtzn

½    ½     ½       ½ Tablk,1 ¬ 1

½    ½     ½       ½ k ¬ k+1

½    ½     ½  otherwise

½    ½     ½       ½ f2 ¬ f2-1

½    ½     ½       ½ Tablk,0 ¬ povtzn

½    ½     ½       ½ Tablk,1 ¬ 2

½    ½     ½       ½ k ¬ k+1

½    ½  for  j Î 0..(f2-1)   if  f1=0

½    ½     ½ povtzn ¬ tekzn + (delta×povtnum)

½    ½     ½ povtnum ¬ povtnum + 1

½    ½     ½ Tablk,0 ¬ povtzn

½    ½     ½ Tablk,1 ¬ 2

½    ½     ½  k ¬ k+1

½    ½  for  j Î 0..(f1-1)   if  f2=0

½    ½     ½ povtzn ¬ tekzn + (delta×povtnum)

½    ½     ½ povtnum ¬ povtnum + 1

½    ½     ½ Tablk,0 ¬ povtzn

½    ½     ½ Tablk,1 ¬ 1

½    ½     ½  k ¬ k+1

           ½Tabl

 

Проверка количества уникальных значений:

nUnik:=rows(Unik)    nUnik=136

«Раскидывание» значений, принадлежащих к разным выборкам, по разным векторам.

vector1n1-1:=0  vector2n1-2:=0

 

vector1:=½ k ¬0

               ½for  i Î 0..(nUnik-1)

               ½    ½ nvib ¬ Uniki,1

               ½    ½ if nvib=1

               ½    ½    ½  vect1k ¬ Uniki,0

               ½    ½    ½  k ¬ k+1

               ½vect1

 

vector2:=½ k ¬0

               ½for  i Î 0..(nUnik-1)

               ½    ½ nvib ¬ Uniki,1

               ½    ½ if nvib=2

               ½    ½    ½  vect2k ¬ Uniki,0

               ½    ½    ½  k ¬ k+1

               ½vect2

Определение числа инверсий:

u1:=½r ¬ 0

       ½for  i Î 0..(n1-1)

       ½    ½  tekx ¬ vector1i

       ½    ½ for  j Î 0..(n2-1)

       ½    ½    r ¬ r + 1    if    tekx< vector2j

       ½r

 

u2:=½r ¬ 0

       ½for  i Î 0..(n2-1)

       ½    ½  teky ¬ vector2i

       ½    ½ for  j Î 0..(n1-1)

       ½    ½    r ¬ r + 1    if    teky< vector1j

       ½r

 

u1=1158    u2=1945   sumu:=u1+u2   sumu=3103    mn:=n1×n2    mn=3103

Необходимое условие правильности расчётов: сумма инверсий должна быть равна произведению размеров выборок.

Определение оценки числа инверсий по меньшему значению:

u:=½u1  if  u1<u2

     ½u2  otherwise

 

Определение оценок математического ожидания и дисперсии

U-статистики:

mu:=mn/2 Du:=mn×(n1+n2+1)/12

Выполнение теста:

задание уровня значимости:

 

t:=qnorm[(1-a ),0,1]

lev_gran:= mu-(t×sigma)

prav_gran:=mu+(t×sigma)

lev_gran=1241.9   u=1158   prav_gran=1861.1

test_answer:= ½”odnorod ne oproverg.” if  (lev_gran≤u) ^ (prav_gran>u)

                       ½”odnorod oproverg.” otherwise

test_answer=”odnorod oproverg.”

 

Критерий Уилкоксона-Манна-Уитни является аналогом критерия Стьюдента для проверки близости оценок математических ожиданий двух выборок, закон распределения хотя бы одной из которых отличается от нормального.

 

Ранговый критерий рассеяния Зигеля-Тьюки

Этот критерий является наиболее чувствительным именно к различию дисперсий выборок. Для построения этой статистики анализируемые выборки объединяются в один ряд длиной  N=m+n и ранжируются в порядке возрастания. Первый ранг (1) получает наименьшее значение, второй и третий – два самых больших значения, ранги 4 и 5 получают следующие наименьшие значения, 6 и 7 – следующие наибольшие значения и т.д. Если общее число наблюдений чётное, то среднее значение получает наивысший ранг, если нечетное – оно не получает никакого ранга, а длину соответствующей выборки следует сократить на единицу. При правильном подсчете должно выполняться равенство: R1+ R2 = (m+n)(m+n+1)/2, где  R1+ R2 – ранговые суммы для выборок из X и Y. Однако это равенство не обязательно должно выполняться в том случае, если какие-либо значения в выборке повторяются. Если анализируемые выборки удовлетворяют условию: m и n > 9 или m > 2, n > 20, то в качестве тестовой статистики можно использовать величину

                                           ¾¾¾¾¾¾Ø

Z = (2R1- m(m+n+1)+1)/√ m(m+n+1)(n/3),

где R1- сумма рангов меньшей выборки; m и n – соответственно длины меньшей и большей выборок. При этом, если 2R1 > m(m+n+1), то в числителе +1 заменяют на –1: 2R1- m(m+n+1)-1.

При соблюдении упомянутых условий распределение статистики Z с достаточной точностью аппроксимируется стандартным нормальным распределением. Критерий Зигеля-Тьюки следует применять вместо критерия Фишера, если распределение существенно отличается от нормального. Доверительный интервал для статистики Z определяется по ординатам (квантилям) стандартного нормального распределения при уровне значимости 2a: – t1-a £ Z < + t1-a.

Проверка однородности двух групп данных по критерию

Зигеля-Тьюки

Начало данной рабочей области полностью совпадает с алгоритмом критерия Уилкоксона-Манна-Уитни. Различия начинаются после выполнения «уникализации» повторяющихся значений, если такие существуют. Определяется чётность или нечётность числа элементов - остаток от деления числа уникальных значений на 2:

ost:=mod(nUnik,2)  ost=0

Проверка чётности числа уникальных значений:

test:= ½ “nechetniy” if ost ¹ 0

          ½ “chetniy” otherwise    

test=”chetniy 

Определение числа членов ряда, получающих ранг:

dlina:= ½nUnik if test=“chetniy”

            ½nUnik-1 otherwise

dlina=136

Создание вектора рангов ранжированного ряда:

vrangnu:=0

vrangnu:= ½i_konets ¬ nUnik

                ½i_nachalo ¬ 0

                ½nrang ¬ 2

                ½while nrang £ nUnik

                ½     ½if nrang £ dlina

                ½     ½      ½    i_konets ¬ i_konets - 1

                ½     ½      ½    loc_rangi_konets ¬ nrang

                ½     ½nrang ¬ nrang + 1                     

                ½     ½if nrang £ dlina

                ½     ½      ½    i_konets ¬ i_konets - 1

                ½     ½      ½    loc_rangi_konets ¬ nrang

                ½     ½nrang ¬ nrang + 1                     

                ½     ½if nrang £ dlina

                ½     ½      ½    i_nachalo ¬ i_nachalo + 1

                ½     ½      ½    loc_rangi_nachalo ¬ nrang

                ½     ½nrang ¬ nrang + 1                     

                ½     ½if nrang £ dlina

                ½     ½      ½    i_nachalo ¬ i_nachalo + 1

                ½     ½      ½    loc_rangi_nachalo ¬ nrang

                ½     ½nrang ¬ nrang + 1                     

                ½loc_rang 

 

vrang0:=1

Создание объединенной матрицы UR: первый столбец - уникальное значение, второй – номер выборки, третий - ранг значения:

URnUnik,2 := 0

 UR:=½ for i Î 0..(nUnik-1)

          ½   ½  Tabli,0 ¬ Uniki,0

          ½   ½  Tabli,1 ¬ Uniki,1

          ½   ½  Tabli,2 ¬ vrangi

          ½Tabl

 

Проверка числа уникальных значений в матрице UR:

nur:=rows(UR)  nur=136

Расчёт ранговых сумм первой и второй выборок R1и R2:

R1:= ½sum ¬ 0

         ½for i Î 0..(nur-1)

         ½   ½teknvib¬URi,1

         ½   ½if teknvib=1

         ½   ½    ½rang¬ URi,2

         ½   ½    ½sum¬sum+rang

         ½sum

            

R2:= ½sum ¬ 0

         ½for i Î 0..(nur-1)

         ½   ½teknvib¬URi,1

         ½   ½if teknvib=2

         ½   ½    ½rang¬URi,2

         ½   ½    ½sum¬sum+rang

         ½sum

 

R1=7547    R2=1769

SUMR:=R1+R2                                          SUMR=9316

proizvmn:=(n1+n2)×(n1+n2+1)/2             proizvmn=9316

Проверка равенства:

raschet_veren:=½”da”  if   SUMR= proizvmn

                          ½”net”  otherwise

raschet_veren=”da”

Определение ранговой суммы меньшей выборки:

R:= ½t¬R1 if n1<n2

       ½t¬R2 if n2<n1

       ½t¬ (R1+R2)/2 if n1=n2

       ½t

R=1769

Определение оценки тестовой статистики Зигеля-Тьюки Z:

menv:=½n1    if n1£n2

            ½n2    if n2<n1

            

bolv:= ½n1    if n1³n2

           ½n2    if n2>n1

 

Z:=  êif (n1>9 Ù n2>9) Ú (menv>2 Ù bolv>20)   

        ê   ½ udvR ¬ 2×R 

        ê   ½ prozvmn ¬ menv×(menv+bolv+1)

        ê   ½ chislitel ¬ udvR - prozvmn      

        ê   ½                            ______________

        ê   ½  znamenatel ¬ Ö prozvmn×bolv/3

        ê   ½  chislitel ¬ chislitel-1  if  udvR>prozvmn

        ê   ½  chislitel ¬ chislitel+1 otherwise   

        ê    ê  t ¬ chislitel/znamenatel

        êt ¬ “ne opredelena” otherwise

        êt

 

Z= -1.153

Задание уровня значимости (двухсторонний в 2 раза больше):

a:=0.05

Определяем ординату (квантиль) t нормированного стандартного нормального распределения (МО=0, s = 1) при уровне значимости 2 = 10%:

t:=qnorm(1-a,0,1)

t=1.645

Определяем модуль тестовой статистики Z:

absZ:= êZ ê

test:=½”gipoteza odnorodnosti oprovergaetsa” if absZ>t

         ½”gipoteza odnorodnosti ne oprovergaetsa” otherwise  

test=”gipoteza odnorodnosti ne oprovergaetsa

 

Приведенные примеры показывают, что встречаются такие ситуации, когда один критерий (в данном случае - Уилкоксона-Манна-Уитни) опровергает гипотезу об однородности двух групп данных, а другой критерий (здесь - Зигеля-Тьюки) – не опровергает. В этом случае нельзя считать эти две группы данных однородными.

 

ИНТЕРПОЛЯЦИЯ И фильтрация ДАННЫХ

Первичная информация относится к определенным точкам пространства и моментам времени. Разумеется, математическая точка - абстрактное понятие, она длины, ширины и высоты не имеет. Поэтому на самом деле элемент данных характеризует определённый объём пространства. Поскольку расстояния между этими объёмами обыкновенно на много порядков больше их собственных размеров, то в естественных науках укоренилось применение термина «точка». Говорят о точках пространства и поверхности, если интересует  лишь двумерное распределение исследуемой величины. Развитие методов космического зондирования Земли позволяет определять с достаточной точностью лишь некоторые геоэкологические параметры. В большинстве случаев требуется непосредственное измерение или отбор проб. Поэтому приходится на основании данных о величине какого-либо параметра в ряде точек создавать поле непрерывного распределения этого параметра для области пространства или поверхности. Аналогично и с временной изменчивостью: несмотря на развитие информационных систем, в которых реализовано автоматизированное непрерывное измерение параметров окружающей среды, в большинстве случаев приходится иметь дело с результатами дискретных измерений (определений). Поэтому возникает необходимость каким-то образом определить значения исследуемой величины в интервалах времени между моментами измерений.

Таким образом, в геоэкологических исследованиях неизбежны одномерная и многомерная интерполяции: определение значений параметра в областях между точками с известными значениями. Если же необходимо по данным о значениях какого-либо параметра внутри определенной области пространства получить значения этого параметра вне данной области, то здесь мы имеем дело с экстраполяцией. Примеры одномерной интерполяции: определение временной изменчивости по данным дискретных измерений; зависимость содержания загрязняющего вещества в среде от расстояния до его источника (в этом случае все точки отбора проб должны располагаться на одном «луче» от источника). В обоих случаях необходимо получить функцию зависимости величины параметра от одного аргумента: времени или расстояния. Двумерная интерполяция по земной поверхности – здесь уже два аргумента: координаты “x” и “y” (в частном случае – широта и долгота). При трехмерной интерполяции по пространству добавляется высота (глубина) “z”.  Методы двух- и трехмерной интерполяции реализованы в геоинформационных системах (ГИС) и некоторых программных пакетах (например, пакете Surpher).

Существующие методы интерполяции были разработаны в 18-19 веках, когда требовались многочисленные расчеты по известным, но очень громоздким формулам, например, в навигации, картографии, судостроении и т.д. С целью упрощения расчетов стали издаваться таблицы с результатами для определённых значений аргументов, называемых узлами. Величину функции для значений аргумента, расположенных между узлами предлагалось вычислять при помощи интерполяционных формул, которые были значительно проще. Здесь возможно определить точность получаемых значений, вернее, задаваемый критерий точности диктовал метод интерполяции. При естественнонаучных исследованиях все гораздо сложнее: нам известны только значения функции в узлах, но нам неизвестна сама функция. Приходится опираться лишь на накопленный опыт (т.н. «здравый смысл»),  что отнюдь не гарантирует нас от ошибок. Так, например, если температура воздуха на Большом проспекте Васильевского острова равна 0ºC, а на Малом - +1ºC, то значение температуры воздуха на Среднем проспекте, равное +20ºC представляется совершенно невозможным.  Однако лишь применение непрерывной эхолокации океанического дна в середине 20-го века позволило совершить важнейшее географическое открытие прошлого века: выявить систему подводных срединно-океанических хребтов. Применявшиеся ранее методы интерполяции результатов дискретных определений глубин в отдельных точках «проглядели» этот природный феномен планетарного масштаба.

При определении метода интерполяции необходимо решить четыре вопроса. Первый: какие узлы использовать? В нашем случае это вопрос планирования полевых исследований: на каком расстоянии друг от друга следует располагать точки измерений (отбора проб) и как часто проводить измерения в одной точке. Очевидно, что существуют характерные для каждой геосистемы критические расстояния и временные интервалы, превышение которых не позволит собрать первичную информацию, достаточную для адекватного выявления пространственно-временной динамики этой геосистемы. Решение этого вопроса требует досконального изучения характеристик изучаемой геосистемы и её аналогов. Вновь открытые во время исследований факты могут привести к изменению пространственно-временной сетки узлов. Оптимизация последующего интерполирования данных требует равномерности распределения узлов: временные интервалы и расстояния между точками должны быть насколько это возможно одинаковыми. Второй вопрос: какова необходимая точность интерполяции? Поскольку в нашем случае реальные значения исследуемого параметра вне узлов нам в принципе неизвестны, то можно говорить лишь о точности в узлах. Третий вопрос: какой критерий согласия использовать? Часто применяется критерий совпадения значений аппроксимирующей функции со значениями в узловых точках, т.е. значения в моментах измерений и их точках должны остаться прежними. Другой применяемый критерий – «наименьших квадратов». Он не требует совпадения в узлах значений аппроксимирующей функции с результатами натурных измерений, но требует, чтобы сумма квадратов их разностей была минимальна. Критерий Чебышева требует минимизации максимального отклонения. Другие критерии стремятся добиться гладкости интерполирующей функции, т.е. требуют существования как минимум второй производной. Возможны комбинации критериев. Четвёртый вопрос:  какой класс аппроксимирующих функций следует применять? Существует три возможности: линейные комбинации функций x, … xn, или многочлены степени n; гармонические функции (cos aix, sin aix); экспоненциальные функции.

Первое, что обыкновенно приходит в голову при компьютерной обработке данных – линейная интерполяция: значения в узлах соединяются между собой отрезками прямой. Однако при этом в узлах образуются изломы, что эстетически глаз не радует во-первых, а во-вторых искажает природные закономерности: в реальности во времени и пространстве существуют переходные зоны, обеспечивающие плавность временных и пространственных изменений. Кроме того, в узлах образуются разрывы производной интерполируемого параметра. Поэтому переходят к другим методам интерполяции, обеспечивающим гладкость результирующей изменчивости. Однако зачастую выполнение этого требования приводит к тому, что между узлами функция может принимать совершенно невозможные с точки здравого смысла величины.

Линейная интерполяция

Необходимы два вектора значений в узлах: аргумента и функции.  Для примера возьмем временную интерполяцию значений температуры воды в каком-либо водоёме. Здесь значениями аргумента будут номера суток от начала года, в которые производились измерения температуры, а значениями функции – сами величины температуры воды. В принципе можно импортировать в рабочую область пакета Mathcad эти два вектора из отдельных файлов. Однако каждому значению аргумента должно соответствовать конкретное значение функции. Чтобы «застраховать» себя от ошибок, значения аргумента и функции лучше «держать» в двух колонках одной таблицы, которая импортируется в виде матрицы. Первая колонка (номер 0) содержит номера суток, вторая (номер 1) - значения температуры.

data

При этом значения аргумента должны идти в порядке возрастания, т.е. матрицу следует отсортировать по возрастанию значений первой колонки.    

    

Функция linterp(X,Y,t) Маткада выполняет линейную интерполяцию. Здесь X – вектор значений аргумента в узлах, Y – вектор значений интерполируемой функции в узлах, t – значение или группа значений (вектор) аргумента, для которого (-ых) необходимо получить значения функции. При этом значение t должно лежать в пределах изменения элементов вектора vx.

                 fit(x):=linterp(X,Y,t)

Размерность переменной fit(t) определяется тем, является ли x отдельным значением или вектором. В вектор alldata импортируется 365 значений годового хода температуры воды.               На рис. 4 приводится сравнение результата линейной интерполяции с годовым ходом температуры воды.

Сплайновые интерполяции

Разумеется, желательно соединять узлы (точки) не ломаной линией, а гладкой кривой. Для этого может применяться интерполяция кубическими сплайнами, т.е. отрезками кубических парабол.

Рис. 4. Годовой ход температуры воды и её линейная интерполяция (жирная линия) по 13 значениям (интервал 30 суток).

 

В программном пакете Mathcad аппроксимацию кубическими сплайнами производит функция interp(S,X,Y,t). Сплайн-интерполяция сложнее линейной: перед применением функции interp необходимо определить первый из её аргументов – вектор вторых производных S.  Сплайн-интерполяция состоит в аппроксимации промежутков между точками функциями вида f(t)=at3+bt2+ct+d. Коэффициенты a, b, c, d рассчитываются отдельно для каждого промежутка в зависимости от значений yi в соседних точках. Значения вектора S должны быть рассчитаны при помощи одной из функций: lspline(X,Y), pspline(X,Y), cspline(X,Y). Эти функции возвращают соответственно векторы значений коэффициентов линейного, квадратичного и кубического сплайнов. Выбор вида функции расчета сплайновых коэффициентов влияет на интерполяцию вблизи конечных узлов области X. Так, в первом случае сплайн на границе области преобразуется в линейную функцию. Во втором - в параболу, а в третьем результирующая функция также является кубическим сплайном. Особенно сильно проявляются различия в результатах экстраполяции за пределами области X. Как видно на рис. 5, в пределах области значений X нет существенной разницы в результатах интерполяции, она заметна лишь за краями области X. Сходство кубической сплайн-интерполяции с линейной состоит в том, что в обоих случаях соединение результирующих функций происходит  в узлах.

Рис. 5. Кубическая сплайн-интерполяция с применением различных функций для расчёта вектора вторых производных S.

 

Еще более сложной является интерполяция В-сплайнами. Здесь соединение сплайнов происходит не в точках исходных интерполируемых значений, а совершенно в других точках, значения аргументов которых предлагается пользователю задать в векторе U. Сплайны могут быть полиномами 1, 2 или 3 степени (линейные, квадратичные или кубические). Интерполяция также выполняется при помощи функции

interp(S,X,Y,t). Различие состоит в том, что вектор S рассчитывается функцией bspline (X,Y,U,n), которая возвращает вектор значений коэффициентов В-сплайна (вторых производных). Здесь n – порядок полиномов сплайновой интерполяции (1, 2, 3). Размерность вектора U должна быть на 1, 2 или 3 меньше размерности векторов X и Y. Первый элемент вектора U должен быть меньше первого элемента вектора X, а последний элемент U – больше последнего элемента вектора X.

Рис. 6. Полиномиальная сплайн-интерполяция

 

Фильтрация и сглаживание

Временная динамика компонентов геосистем определяется суперпозицией 4-х групп процессов: а) постоянно периодических, обусловленных в первую очередь суточным и годовым вращениями Земли; б) циклических, вызываемых причинами с колеблющимися периодами и амплитудами, например, 11-летним солнечным циклом, продолжительность которого может быть и больше, и меньше этой величины;     в) многолетних (вековых, тысячелетних и т.д.) постоянных изменений,  имеющих вид линейных трендов; г) «случайных» колебаний, так называемого «шума». Разумеется, это подразделение в некоторой степени условно. Так, периоды суточного и годового вращения Земли не являются абсолютно неизменными величинами, а подвержены колебаниям и имеют устойчивые, хотя и очень маленькие тренды изменений. То, что мы определяем как многолетний тренд, может на самом деле являться проявлением долгопериодного процесса. «Случайные» колебания, разумеется, имеют свои причины. К этой категории относят те кратковременные процессы, которые в данных временных масштабах невозможно отнести к первым трём категориям. Например: переменная облачность, солнце то заходит за облака, то снова появляется на небосводе. Из-за этого происходят колебания интенсивности солнечной радиации.

Геосистемы, особенно умеренной и полярной зон, характеризуются ярко выраженными годовыми циклами функционирования. Поэтому исследование геосистемы предполагает выявление внутригодовой изменчивости её параметров, обусловленной годовым обращением Земли вокруг Солнца.  Чтобы избавиться от изменчивости, вызванной суточным вращением Земли вокруг своей оси, следует оперировать среднесуточными или суммарными за сутки величинами. По крайней мере – четко представлять масштабы суточной изменчивости. Однако на годовую периодическую динамику накладывается межсуточная изменчивость, обусловленная синоптической изменчивостью погодных условий. Чтобы избавиться от нее, можно применить различные способы фильтрации и сглаживания, в частности, скользящим осреднением. Суть его в следующем: берутся первые w значений ряда данных, определяется их среднее и относится к середине этого интервала, называемого окном осреднения или сглаживания. Чтобы результат не относился к дробному номеру суток, лучше ширину окна назначать равной нечётному числу элементов. Затем окно сдвигается на один элемент (в нашем случае – сутки) и осреднение повторяется снова и так до конца ряда. При этом результирующий ряд будет короче исходного на  w-1 элементов. При малой ширине окна не удаётся избавиться от «шума», при излишне большой можно «выплеснуть вместе с водой и ребенка»: утерять периодическую составляющую изменчивости. В практике географии и геоэкологии часто применяется осреднение окном шириной около 30 суток – использование среднемесячных значений.  Ниже представлен листинг рабочей области Маткада, выполняющей скользящее осреднение только для случаев нечетного числа элементов в окне.

Импорт данных из таблицы: первый столбик – номер суток от начала года, второй – значение температуры воды.

data

      

Задание ширины «окна»:    w:=3

Определение числа элементов между центом окна и его краем:

d:=(w-1)/2     d=1

Определение числа элементов сглаженного ряда:

dlina_osr:= n – w + 1   dlina_osr = 363

       

Определение номера суток, с которых начинается сглаженный ряд:

               nach_osr:=nachalo + d   nach_osr = 2

Определение номера суток, которыми заканчивается сглаженный ряд:

               kon_osr:= konets – d      kon_osr = 364

Определение номера ряда в матрице данных, с которого начинается осреднение последнего «окна». Т.к. первый ряд имеет номер 0, то

               k:=n-w   k=362

Создание матрицы значений сглаженного ряда. Первый столбик – номер суток, к которому относится полученное значение, помещенное во второй столбик.

 

 

 

На рис. 7 приведен исходный ряд данных и результаты двух сглаживаний: с окнами осреднения 3 и 31 сутки. Видно, что в первом случае сглаженная кривая практически совпадает с исходным рядом, «срезан» лишь один выброс максимального значения. Обратите внимание, что для правильного размещения на графике сглаженных рядов данных в качестве их аргументов необходимо установить не вектор номеров всех суток года, а вектора номеров суток центров окон осреднения. Для наглядности на графике показаны аргументы функций tw, tw3, tw31 – nsut, nsut3, nsut31.

 

                                                                                                  

  

 

nsut, nsut3, nsut31

 

Рис. 7. Сглаживание данных:

    ------   исходный ряд,

▬▬   окно 3 суток

      окно 31 сутки

 

Запись данных в файл

После того, как средствами Маткада выполнены интерполяция или сглаживание данных, часто возникает потребность экспорта результата во внешние файлы для последующего использования, например, в качестве параметров имитационных моделей. Для этого нужно поместить курсор на пустом месте рабочей области, затем в ниспадающем меню «Вставка» выбрать опцию «Компонент». В появившемся диалоговом окне выбрать «Чтение или запись файла», затем нажать кнопку «Next». Затем выбираем «Записать в файл» и нажимаем кнопку «Далее». В диалоговом окне «Мастера Чтения или Записи Файла» выбираем необходимый формат файла, устанавливаем имя создаваемого файла и папки, в которой он будет расположен. Последнее выполняется при помощи кнопки «Обзор». Далее в диалоговом окне «Write to File» можно скорректировать папку размещения, тип и имя файла, в который будут записаны результаты. Затем нажимаем кнопку «Сохранить»: возвращаемся в окно «Мастера Чтения или Записи Файла» и нажимаем кнопку «Готово». В рабочей области появляется прямоугольник с изображением дискеты вверху, ниже показано имя создаваемого файла без расширения. В нижнем левом углу этого прямоугольника располагается маленький чёрный прямоугольник, снизу и справа оконтуренный линией синего цвета. Это означает, что на место этого прямоугольника нужно ввести идентификатор того объекта, данные из которого будут записаны в файл. После этого файл записан. Внимание! Несмотря на то, что тип создаваемого файла определён, необходимо во время диалога задать его расширение. Если данные представляют собой матрицу или вектор, то их можно записать в файл формата Excel. В этом случае элементы матрицы (вектора) размещаются в ячейках таблицы Excel.

В тех случаях, когда результат должен использоваться в качестве числового ряда внешних данных имитационной модели, следует формировать текстовые файлы типов «Formatted Text», «Tab Delimited Text» и «Comma Separated Values». Если результирующий файл должен содержать значения только одного параметра, то следует записывать во внешний файл элементы вектора.  В этом случае нет принципиальной разницы между разными типами текстовых файлов.

 

Зависимость между параметрами

               Компоненты геосистем связаны между собой множеством прямых и обратных связей. Выявление этих взаимосвязей имеет важное научное и практическое значение. В качестве показателя тесноты взаимосвязи применяется коэффициент парной корреляции r, рассчитываемый по выражению:  r = cov(x, y)/[σxy]. Здесь cov(x, y) – ковариация (второй смешанный момент), σ – среднее квадратичное отклонение.

                                                         n

cov(x, y)=1/n Σ (xi-mx)(yi-my)

                                  i=1

mx, my – средние арифметические (оценки математических ожиданий) переменных X и Y. При практических расчётах вместо σ используется его несмещённая оценка, поэтому в приведённой формуле вместо 1/n следует использовать 1/(n-1). Если совместить эти два выражения, то:

                                          _________________   

      n                                /  n                   n                 

r = Σ [(xi-mx)(yi-my)] /   Σ (xi-mx)2  Σ (yi-my)2

         i=1                                                  i=1                     i=1

Коэффициент парной корреляции представляет собой эмпирическую меры линейной зависимости между переменными X и Y. Он может принимать значения от -1 до +1. Если коэффициент корреляции по модулю равен 1, то зависимость является функциональной. Знак «+» указывает на прямую зависимость, «-» - на обратную. Чем ближе модуль r к 0, тем слабее линейная зависимость. Зависимость может быть сильной, но нелинейной. В этом случае значение r может быть близким к нулю. Близкое к 1 значение абсолютной величины r отнюдь не является доказательством того, что параметры X и Y взаимосвязаны между собой. Они оба могут быть тесно связаны с каким-либо третьим параметром. Так, наверно со времен основания Санкт-Петербурга существует заблуждение, что проходящий по Неве ладожский лёд вызывает похолодание. На самом же деле причиной похолодания является северо-восточный ветер, только при котором ладожский лёд скапливается в Шлиссельбургской бухте и далее попадает в исток Невы. Зависимость между параметрами X и Y может быть функциональной или очень к ней близкой, но величина |r| часто оказывается при этом близкой к нулю, если X является лишь одним из многих параметров, влияющих на значение Y. В геоэкологии лишь в отдельных случаях можно говорить о независимых и зависимых переменных. Так, интенсивность солнечной радиации на верхней границе атмосферы является независимой переменной. В остальных случаях мы имеем дело с взаимным влиянием параметров друг на друга.

               Сильная корреляционная зависимость позволяет по значениям одних переменных определять значения других. Так, для определения солёности морской воды нет необходимости в определении концентраций всех растворённых в воде веществ, достаточно лишь определить содержание ионов хлора. При сильной корреляционной связи можно построить регрессионную зависимость между переменными. В ряде случаев это позволяет по величине относительно просто прогнозируемого параметра получать значения трудно прогнозируемого. В практической деятельности бывает, что успешно используется сильная корреляционная зависимость, чёткого объяснения которой нет. Однако если не определена причина зависимости, то неизвестны пространственные и временные рамки возможного применения этой зависимости.

               Уравнение линейной регрессии (y = ax + b) является надёжным, если выявленная зависимость величины Y от параметра X объясняет 50% и более разброса значений Y относительно оценки его математического ожидания. Зависимость между двумя переменными может использоваться для практических расчетов, если модуль коэффициента парной корреляции больше или равен 0.7. Смысл этого неравенства определяется значением квадрата коэффициента парной корреляции, так называемым коэффициентом детерминации. Коэффициент детерминации характеризует долю общего разброса относительно среднего значения (оценки математического ожидания), объясняемую регрессией. Если зависимость функциональна и точки относительно линии регрессии лежат без разброса, то весь разброс значений относительно среднего объясняется исключительно регрессией, т.е. r2 = 1. При r = 0.7 коэффициент детерминации r2 = 0.49 » 0.5. Следовательно, лишь при значениях r ³ 0.7 имеет смысл использовать регрессионную зависимость. В противном случае значения параметра Y в большей степени зависят от других параметров, а не X.

   Коэффициент детерминации – важный, но не единственный показатель надёжности уравнения регрессии. Существует ещё ряд статистических характеристик, позволяющих судить о точности полученного уравнения регрессии. Стандартная ошибка уравнения линейной регрессии sy(x). Эта величина характеризует среднеквадратическое отклонение точек от принятой линии регрессии.

                   ¾¾¾¾¾¾¾¾¾Ø

                /n                   

   sy(x) = Ö S (yi-f(xi))2 /(n-2)

                i=1

где yi – наблюденная величина, f(xi) - величина, рассчитанная по уравнению регрессии, (n-2) – число степеней свободы, равное числу наблюдений минус число параметров, определяемых по эмпирическим данным. В случае линейной регрессии таких параметров 2: коэффициент регрессии a и свободный член b. Стандартную ошибку уравнения линейной регрессии можно также определить через коэффициент корреляции по выражению:  _______________

            sy(x) = sy* Ö ((1-r2)(n-1))/(n-2), где sy* - несмещенная оценка СКО для ряда Y. Иногда при практических расчетах пренебрегают

           ________

величиной Ö (n-1)/(n-2) и используют более простую формулу:

                                     ___

sy(x) = sy* Ö1-r2.

Стандартная ошибка коэффициента парной корреляции (sr):

                                      ___

sr = (1-r2)/ Ö n-1

При малой длине выборок (n<25) рекомендуется вводить в эту формулу поправочный коэффициент:

                                       ___      _____________________

                  sr = [(1-r2)/ Ö n-1 ] Ö1+(11 r2/2n)+(75r2-13)/2n2

Стандартная ошибка коэффициента регрессии sa:

                      _______

                    /   n       _

sa = sy(x) / Ö  S( xi-mx)2

                                 i=1

Эту формулу можно представить в виде:

          sy*     ___________

sa = ¾¾  Ö (1- r2)/(n –1 )

         sx*

где sy* и sx* - несмещенные оценки СКО для рядов X и Y.

Стандартная ошибка свободного члена sb:

                        _______________

                      /  n                     n        _

sb = sy(x) ´ Ö   S( xi)2/ n S( xi-mx)2

                        i=1                  i=1

 

или                          ¾¾¾¾¾¾¾¾      ¾¾¾¾¾¾¾¾  

sb = sy* ´ Ö (1- r2)/(n –2) ´ Ö 1+(mx/sx*)2

 

Уравнение регрессии можно рекомендовать для практических расчетов, если выполнены следующие условия: n³10; |r|³0.7; |r|/sr ³ 2; |a|/sa ³ 2. Желательным, но не обязательным является условие |b|/sb ³ 2.

При малых значениях параметрах b это требование почти никогда не выполняется. Следует учитывать, что истинное значение y, соответствующее аргументу x, будет отличаться от значения, полученного по уравнению линейной регрессии на некоторую величину ei. При этом предполагается, что ei  является нормально распределенной случайной величиной с нулевым средним значением и среднеквадратическим отклонением sy(x).

Предлагаемая система оценок позволяет в большинстве случаев составить правильное представление о надежности полученного уравнения регрессии и принять решение о возможности его применения для практических расчетов. Однако иногда такого анализа недостаточно. В случае неравномерного распределения эмпирических точек добавление одной или двух точек может существенно повлиять на параметры уравнения регрессии. Основная причина возникающих трудностей состоит в том, что точки группируются крайне неравномерно. В подобных ситуациях следует провести расчет параметров уравнения регрессии с учетом и без учета «тяжелой» точки, и, если они существенно различаются, уравнение не следует использовать в качестве расчётного, по крайней мере, до тех пор, пока не появятся дополнительные данные. При этом дополнительные данные могут как подтвердить, так и опровергнуть гипотезу о наличии высокой корреляции между X и Y, но в любом случае решение будет более обоснованным.

Существуют по крайней мере две причины, по которым эмпирические точки могут группироваться очень неравномерно: 1) метод наименьших квадратов подразумевает, что ряды X и Y являются выборками из нормальных совокупностей, что обеспечивает примерно равное количество больших и малых значений, но асимметрия выборок исследуемых величин может быть весьма значительной, особенно при небольших n; 2) геоэкологи чаще всего работают в условиях так называемого пассивного эксперимента и не могут по своему усмотрению изменять независимую переменную. В результате всегда есть риск получить нерепрезентативные выборки, особенно если длина выборки недостаточно велика.

Коэффициент парной корреляции, определяемый по выборкам конечной длины, является случайной величиной. Если значение r не очень велико и  длина выборки не превышает 40, то распределение выборочных коэффициентов корреляции  хорошо аппроксимируется нормальным законом со среднеквадратическим отклонением sr. В этом случае доверительный интервал для истинного коэффициента корреляции равен: r* - t1-asr* £ r < r* + t1-asr*, где r* - выборочный коэффициент парной корреляции, t1-a - квантиль стандартного нормального распределения, соответствующий двустороннему уровню значимости 2a.

P-квантилем называется значение случайной величины xp, соответствующее заданному значению вероятности непревышения интегральной функции распределения F(x) = p. Квантиль – значение случайной величины, при котором интегральная функция распределения F(x) принимает заданное значение P.

Расчет коэффициента парной корреляции

Определим коэффициент парной корреляции между концентра­цией растворённого минерального фосфора и биомассой диатомового фитопланктона. Эти числовые ряды являются результатом численного эксперимента с компьютерной имитационной моделью водной экосистемы. Эта модель является детерминированной, все её зависимости являются функциональными. Концентрация минерального фосфора влияет на интенсивность первичного биосинтеза в соответствии с зависимостью Михаэлиса-Ментен-Моно: f(P) = P/(KSP+P), где f(P) - коэффициент снижения интенсивность биосинтеза из-за дефицита фосфора, KSP – константа полунасыщения, т.е. концентрация биогенного элемента, при которой интенсивность биосинтеза равна половине максимально возможной. Эта зависимость не линейна, а S-образна. Скорость биосинтеза в данной модели, кроме того зависит от величины солнечной радиации, прозрачности воды, температуры воды, содержания растворённого азота аммонийного, нитритного и нитратного. Биомасса фитопланктона снижается из-за трат на обмен, естественной смертности и выедания зоопланктоном, рыбами и бентосом.

po4   diatomea   

                    correl:=corr(po4,diatomea)       correl = -0.452

Как видим, мы получили низкую величину коэффициента парной корреляции, причём обратную зависимость: увеличение концентрации растворённого фосфора приводит к снижению биомассы фитопланктона. Разумеется, это противоречит законам геоэкологии и объясняется тем, что при высоких концентрациях фитопланктон потребляет много растворенного минерального фосфора и, следовательно, сильно снижает его концентрацию. Данный пример не следует рассматривать как агитацию против использования коэффициента парной корреляции, но как довод к некоторой доле скептицизма при интерпретации результатов. В этом примере векторы импортированы из отдельных файлов, но для исключения ошибок лучше импортировать данные из таблицы в матрицу, а затем создавать векторы X и Y из её столбцов.

Регрессия

               Если все сомнения в правильности и применимости выявленной зависимости отпали, то определяем параметры коэффициентов уравнения линейной регрессии. Для примера воспользуемся модельными данными о годовом ходе минеральной и органической взвеси.

vzvmin    vzvorg  

               correl:=corr(vzvmin, vzvorg)   correl = 0.984

Мы хотим получить коэффициенты линейной зависимости a и b:

               vzvorg = a·vzvmin + b

В пакете Маткад возможно определить значения коэффициентов a (тангенса угла наклона прямой) и b (свободного члена) двумя эквивалентными способами – 1) при помощи функций slope и intercept:

a:=slope(vzvmin,vzvorg)    b:=intercept(vzvmin,vzvorg)  a=1.574 b=0.014;

2) с помощью функции line, которая возвращает вектор из двух коэффициентов b и a: Vcoeff_line:=line(vzvmin,vzvorg), Vcoeff_line0=0.014,

Vcoeff_line1=1.574.

               Оба эти способа определяют параметры прямой регрессии с помощью метода наименьших квадратов. В этом случае значения коэффициентов a и b подбираются таким образом, чтобы сумма квадратов расстояний между точками пар измеренных значений xi, yi и точками f(xi) на прямой регрессии была минимальна.

               Возможен и другой критерий для определения параметров регрессионной прямой: вместо минимизации суммы квадратов достигается минимизация сумма модулей отклонений Σ|yi - f(xi)|. Этот критерий называется медианным, в пакете Маткад в соответствии с ним работает функция medfit(x,y). Vcoeff_med:=medfit(vzvmin,vzvorg),

Vcoeff_med0=0.009, Vcoeff_med1=1.638.

Как видно, смена критерия подбора прямой привела к изменению параметров последней.

                    Несмотря на сходство, интерполяция и регрессия применяются для различных целей. Интерполяционные задачи в геоэкологических исследованиях решаются тогда, когда на основании дискретных значений необходимо определить временной ход данного параметра, или его пространственное распределение. Здесь нас интересуют значения параметра во всей рассматриваемой области пространства и в период времени. Мы не знаем заранее вида интерполирующей функции и, в общем, она не является нашей целью. Для нас важно другое – чтобы были соблюдены предъявляемые к интерполирующей функции требования, например, условие её прохождения через узлы или гладкости (существования во всей её области производной определенного порядка).

                    В случае же поиска регрессионной функции для нас важны не числа, а сама полученная зависимость. При этом мы знаем или хотя бы предполагаем класс функций, среди которых мы будем искать регрессионную зависимость. Например, фотоколориметрический метод определения концентраций растворенных веществ базируется на том, что в соответствии с законом светопоглощения Бугера-Ламберта-Бера существует линейная зависимость между концентрацией растворённого вещества и оптической плотностью раствора. Мы должны лишь определить коэффициенты этой линейной зависимости. Благодаря этой зависимости значительно упрощается определение содержания растворенных веществ. Другой пример: определение подводной освещенности дело очень трудоемкое. Однако, получив взаимосвязь между прозрачностью по белому диску (Секки) и коэффициентом ослабления света, мы можем определять важные геоэкологические параметры: мощность слоя фотосинтеза, влияние световых условий на интенсивность первичного биосинтеза.

Но как быть, если мы знаем, что зависимость является нелинейной? Например, интенсивность фотосинтетически активной солнечной радиации (ФАР) в сомкнутом растительном покрове (РП) зависит от коэффициента ослабления света, определяемого суммарным листовым индексом расположенной выше части РП. При этом нам известно, что ослабление света происходит по экспоненциальному закону. В этом случае можно провести линеаризацию зависимости: превратить её из нелинейной в линейную. Благодаря этому мы сможем использовать важный показатель тесноты связи – коэффициент детерминации. Если зависимость является экспоненциальной y = c·eax, то следует рассматривать зависимость ln(y)=ax + ln(c), т.е. вместо переменной y работаем с параметром ln(y). В случае степенной зависимости y = c·xa  переходим к зависимости ln(y) = a ln(x) + ln(c). Кроме того, в пакете Маткад реализованы функции нелинейных регрессий: expfit(x,y,g) – регрессия экспонентой f(x)=a·ebx + c; lgsfit(x,y,g) – регрессия логистической функцией

f(x)=a/(1 + b·ecx ); sinfit(x,y,g) – регрессия синусоидой f(x)=a·sin(x+b)+c;

pwfit(x,y,g) – регрессия степенной функцией f(x)=a·xb+c; logfit(x,y,g) – регрессия логарифмической функцией f(x)=a·ln(x+b)+c. Здесь x и y – векторы аргумента и зависимой переменной, g – вектор из трёх элементов, задающий начальные значения коэффициентов a, b, c. Можно использовать также функцию lnfit(x,y) – регрессию двухпараметрической логарифмической функцией f(x)=a·ln(x)+b.

               Ещё в пакете Маткад есть возможность построения полиномиальной регрессии одним полиномом или отрезками нескольких полиномов. Этот вид регрессии означает аппроксимацию зависимости полиномом k-ой степени f(x) = a + bx + cx2 + dx3 + … + hxk. При k=1 полином является прямой, при k=2 – параболой, при k=3 – кубической параболой и т.д. Как правило, на практике применяются k<5. Для построения регрессии полиномом k-ой степени необходимо наличие по крайней мере k+1 точки данных. Полиномиальная регрессия осуществляется комбинацией функции regress(x,y,k) и полиномиальной интерполяции функцией interp(s,x,y,t). s = regress(x,y,k) – вектор коэффициентов для построения полиномиальной регрессии, k – степень полинома регрессии. Можно выполнить аппроксимацию соединением участков нескольких полиномов. Для этого применяется функция loess(x,y,span), возвращающая вектор коэффициентов для построения регрессии отрезками полиномов. Непосредственно интерполяцию здесь также выполняет функция interp(s,x,y,t), параметр s для которой определяется функцией loess. Параметр span задает степень сглаженности данных и определяет размер отрезков полиномов. При больших значениях этого параметра регрессия практически не отличается от регрессии одним полиномом: при span=2 линия регрессии мало отличается от параболы. Хорошие результаты дает значение span=0.75.

               Также можно осуществить регрессию в виде линейной комбинации произведений определяемых коэффициентов и любых функций, и даже более того – когда пользователь сам задаёт комбинацию функций и искомых коэффициентов (регрессия общего вида). При этом применяются соответственно функции linfit и genfit.

               Однако применение полиномиальной регрессии и регрессии общего вида мало что дает. Полученные зависимости хорошо работают только для данного конкретного случая и чаще всего не могут быть использованы в качестве обобщений. Фактически мы переходим от регрессии к интерполяции данных.

 

ЗАКЛЮЧЕНИЕ

               Авторы надеются, что любезные их сердцам читатели не будут рассматривать сие пособие исключительно как средство для подготовки к сдаче зачета по курсу АОЭИ. Цель нашего труда – дать инструментарий для работы над отчётами по практикам, курсовыми и дипломными работами, магистерскими и, дай Бог, иными диссертациями. Программный пакет Маткад установлен в ВЦ факультета географии и геоэкологии (ауд. 93). Оформляйте допуск к индивидуальной работе и действуйте: набирайте рабочие области (программы), которые приведены в настоящем пособии и проводите обработку Ваших данных. В «Содержании» названия разделов с листингами выделены курсивом. Впоследствии Вы станете редактировать эти программы и писать свои. Рабочие области, листинги которых представлены в пособии, реализованы в среде Mathcad Professional 2001. Однако эти листинги годятся и для последующих версий Маткада. Разумеется, можно не ограничиваться только этим пакетом, а проводить обработку при помощи других пакетов, или писать программы обработки на различных алгоритмических языках программирования. Шутливая народная мудрость гласит: «Универсант может ничего не знать, но он должен уметь найти все необходимое». Рамки учебного пособия позволили нам дать лишь некоторые из самых необходимых средств обработки информации, АОЭИ же «неисчерпаема, как электрон». Поэтому нельзя ограничиваться лишь этим пособием, его изучение есть необходимое, но недостаточное условие углубленного изучения курса АОЭИ. Интернет – вещь полезная, но отвергать изучение рекомендованной литературы не стоит, тем более что её список весьма короток. Это сделано намеренно, чтобы у читателя не «разбежались глаза» и «опустились руки». Разумеется, не стоит останавливаться на чтении только списка рекомендованной литературы.

               В заключение авторы выражают свою глубокую благодарность Владиславу Аркадьевичу Шелутко, Вере Георгиевне Гутниченко и Александру Владимировичу Сикану за плодотворные советы и консультации.


 

РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА

Дружинин В.С., Сикан А.В. Методы статистической обработки гидрометеорологической информации. СПб: ГМИ, 2001. 169 с.

Кирьянов Д.В. Самоучитель MathCAD 2001. СПб: БХВ-Петербург, 2002. 544 с.

Хемминг Р.В. Численные методы для научных работников и инженеров. Перевод с англ. М. Издательство «Наука». Главная редакция физико-математической литературы. 1972. 400 с.

Шелутко В.А. Численные методы в гидрологии. Л.: ГМИ. 1991. 155 с.

 


СОДЕРЖАНИЕ

 

ВВЕДЕНИЕ………………………………………………………………….3

Типовые задачи геоэкологических исследований…...9

ПРОВЕРКА ДАННЫХ НА ОДНОРОДНОСТЬ…………………………14

Параметры геосистем как случайные величины…………….….…...14

Законы распределения случайных величин………………….............17

Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода……………..…………….....21

Построение гистограммы частотного распределения……....23

     Критерии согласия………………………………………………...…...26

Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(2)……..…36

               Критерий хи-квадрат (Пирсона)………………………………...41

Критерий Колмогорова……………………………………….…44

Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова     ………………………..45

Построение совмещенной гистограммы распределений двух выборок ………………………………………………………….47

     Параметрические критерии…….…………………………………….48

Критерий Стьюдента… ………………………………………...48

Проверка однородности двух групп данных

по критерию Стьюдента……………………………….….…..49

F-распределение Фишера. Критерий Фишера…………………51

Проверка однородности двух групп данных

 по критерию Фишера…...............................................................52

     Непараметрические критерии…………...…………………………….52

Рангово-сумарный критерий Уилкоксона-Манна-Уитни……..53

Проверка однородности двух групп данных по

критерию Уилкоксона-Манна-Уитни…………….…………….54

Ранговый критерий рассеяния Зигеля-Тьюки…………….....…61

Проверка однородности двух групп данных по

критерию Зигеля-Тьюки…………………………………………62

ИНТЕРПОЛЯЦИЯ И фильтрация ДАННЫХ………………………65

      Линейная интерполяция.Сплайновые интерполяции.…..…………..68

     Фильтрация и сглаживание…………………………...………………71

     Запись данных в файл……………………………………………….....74

Зависимость между параметрами…………………………..75

     Расчет коэффициента парной корреляции……………………...…...80

     Регрессия …………………………………………………………….....81

ЗАКЛЮЧЕНИЕ……………………………………………………………83

 Рекомендованная литература….................................... ............................85


 

 

 

 

 

У ч е б н о е   и з д а н и е

 

Третьяков Виктор Юрьевич

Кулеш Валерий Петрович

 

АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА

ЭКОЛОГИЧЕ­СКОЙ ИНФОРМАЦИИ

 

Учебное пособие

 

Печатается без издательского редактирования

 

Обложка авторов

Оригинал-макет В.Ю. Третьякова

 

 

Лицензия ИД № 05679 от 24.08.01

Подписано в печать 4.03.2005. Формат 60х841/16

Бумага офсетная. Печать офсетная. Усл. печ. л. 5,12.

Тираж 100 экз. Заказ 47

Издательство СПбГУ. 199034, С.-Петербург, Университетская наб., 7/9.

Тел. (812) 328-96-17; факс (812) 328-44-22

E-mail: editor@unipress.ru

www.unipress.ru

 

По вопросам реализации обращаться по адресу:

С.-Петербург, 6-я линия В.О., 11/21, к.21

Телефоны: 328-77-63, 325-31-76

E-mail: post@unipress.ru

 

 

Типография Издательства СПбГУ.

199061, С.-Петербург, Средний пр., 41.

Hosted by uCoz