Анализ экологических данных с использованием языка программирования R Андрей Цыганов Пензенский государственный университет Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации»
ПО для анализа данных – неотъемлемая часть экологических исследований Экологические данные – Многомерные (основные объекты экологии, т.е. сообщества, экосистемы, трудно охарактеризовать одним показателем) – Массивные (широкий пространственно-временной охват, автоматизированные методы сбора данных) Сложные алгоритмы анализа (большой объем вычислений) Нетривиальные способы графического представления данных
Выбор ПО при планировании исследования Выбор ПО Как анализировать данные? Как собирать данные? Как представлять данные?
Прочие характеристики ПО Гибкость, т.е. возможность настройки под ваши конкретные потребности Возможности обновления ПО Универсальность Лицензионные условия Совместимость ПО (в случае если планируется использование нескольких программ)
ПО для анализа данных (см. Comparison of statistical software in Wikipedia) Microsoft Excel (плохо приспособлен для работы с научными данными) STATISTICA, SPSS, Origin, MatLab (лицензионное, отсутствуют специфические экологические анализы) Primer, CANOCO (лицензионное, редкое обновление) Past и др. (редкое обновление, узкая специализация)
Что такое R? – это комплексное программное обеспечение для обработки, анализа и графического представления данных Включает в себя: язык программирования программную среду
Почему R? Преимущества Доступность – Распространяется бесплатно – Центральная система хранения и распространения
Почему R? Преимущества Доступность Универсальность – Стабильная база и множество дополнений (пакетов или библиотек) vegan анализ структуры сообществ FD функциональные признаки spdep пространственное распределение map работа с картами и ~ 1500 вариантов
Почему R? Преимущества Доступность Универсальность Актуальность – Новые методы анализа доступны практически сразу после их публикации
Почему R? Преимущества Доступность Универсальность Актуальность Графические возможности – Практически неограниченный набор вариантов графического представления данных
Почему R? Преимущества
Доступность Универсальность Актуальность Графические возможности – Практически неограниченный набор вариантов графического представления данных –.ps,.pdf,.tif,.png,.jpeg и др.
Почему R? Преимущества Доступность Универсальность Актуальность Графические возможности Гибкость – возможность написания собственных функций – только необходимая информация
Почему R? Преимущества Доступность Универсальность Актуальность Графические возможности Гибкость Воспроизводимость анализов
Почему R? «Недостатки» Интерфейс командной строки (графический интерфейс R commander, RKWard, RExcel и до.) Недостаточно литературы на русском языке
Принципы R Объекты – вектор (x 1, x 2, x 3,.. x n ), х = число или текст – матрица (многомерные, чаще двумерные векторы) x 11, x 1 2, x 1 3,.. x 1 n x 21, x 22, x 2 3,.. x 2 n..... x m1, x m2, x m3,.. x mn – фактор (категориальные данные) – список (несколько объектов разного типа) – таблица данных (список векторов и/или факторов) – и др. Команды – Команда (аргумент 1, аргумент 2, …, аргумент n )
Пример из экологии
Литература На русском языке Шипунов А.Б., Балдин Е.М., Волкова П.А. и др. Наглядная статистика. Используем R! Москва: ДМК пресс, 2012– 298 с. Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. –– Воронеж: ВГАУ, –– 124 с. Геостатистический анализ данных в экологии и природопользовании (с применением пакета R): Учебное пособие / А.А. Савельев, С.С. Мухарамова, А.Г. Пилюгин, Н.А. Чижикова. – Казань: Казанский университет, – 120 с. На английском языке – Серия Use R! издательства Springer – Для начинающих Dalgaard P. (2008) Introductory statistics with R. Second edition. Springer. 363 p. – Для экологов Borcard D., Gillet F., Legendre P. (2012) Numerical Ecology with R. Springer. 319 p.
В качестве заключения Выбор ПО важный этап в планировании и проведении исследований При выборе ПО желательно руководствоваться не только потребностями самого исследования, но и обращать внимание на прочие характеристики ПО Язык программирования R – оптимальный вариант Интерфейс программной строки не так страшен
Спасибо за внимание!