trombicula: (leto)
Скопировал фрагмент текста в буфер обмена, потом отвлекся на написание коммента в ЖЖ, а потом опять вернулся к диссеру. В результате родилась примечательная фраза: "Для демонстрации связи размерных показателей (отдельных промеров, первой главной компоненты или среднего геометрического) с высотой над уровнем моря нами использовалась простая линейная регрессия #подгрибами".
trombicula: (leto)
Самые зачетные иллюстрации к будущему диссеру.
Бергманновская высотная клина у Hirsutiella steineri на Кавказе и в Закавказье (GM - это геометрическое среднее стандартных промеров):


Противобергманновская высотная клина у Leptotrombidium europaeum в Дагестане и Турции:


Ну и еще картинка - не самая впечатляющая, но очень важная:


Это PCA для 27 экземпляров Hirsutiella steineri с озера Псенодах. Видно, что клещи со снежной полевки (Chionomys) расположены слева, т.е. они крупнее клещей с Microtus. Тут выявляются экологические группы одного вида краснотелок, отличающиеся по размеру: как я предполагаю, у одной свободноживущие фазы обитают на осыпях между камнями, а у другой - в почве на лугу.

Кстати: может я глупый, но я не понимаю, почему у меня все время увеличение размера идет в сторону отрицательных значений 1-й главной компоненты. Наверное, надо будет как-нибудь посчитать матрицу ковариаций вручную, на калькуляторе, чтобы понять, почему так получается.
trombicula: (leto)
Кто тоже хочет осознать, что он ничего не понимает даже в простейшей школьной физике, может попробовать решить вот эту задачу:

Физики утверждают, что перевесит правая чаша весов (http://science-freaks.livejournal.com/2818017.html?thread=71485921#t71485921). Понять, почему это так, мне до сих пор не удалось: http://leolion-1.livejournal.com/1003364.html?thread=15316580#t15316580.

UPD: Сейчас уже удалось, конечно.
trombicula: (leto)
http://www.mapress.com/zootaxa/list/2013/3728(1).html
21.95 КБ


Это литературный обзор, дополненный описаниями 6 новых видов и применением кое-какой математики:
Смерть кладизму! )
trombicula: (Default)
Новый хороший пример из редактируемой статьи, в дополнение к расстоянию по Манхеттену:
"Box et Wisker plot" (у авторов было "Box & Wisker"; редактор заменил & на et, как между фамилиями авторов таксона). Т.е., Box и Wisker (sic) - это как бы фамилии людей, которые изобрели график с "прямоугольничками" и "отрезками".

Если что, правильно пишется: "box and whisker plot".
trombicula: (Default)
Прогнал скрипт еще раз с другими prior probabilities. Раньше я как-то не обращал внимания на эту опцию, а в Статистике по умолчанию стоит "Proportional to group sizes". В R, в функции lda() из пакета MASS, которой я пользовался, по умолчанию prior probabilities тоже берутся пропорциональными размерам групп. Попробовал теперь взять равные для всех групп. Объединенная таблица под катом.

Read more... )

Отсортировано по возрастанию Wilks lambda, т.е. убыванию качества дискриминации. Красным выделена модель, которая была отобрана раньше, при работе над статьей. Видно, что она, на самом деле, не лучшая. Но я теперь уже не уверен, не считали ли мы % ошибок классификации в объединении всех групп, что должно было дать сильно заниженный результат по сравнению со средним % в группах, т.к. в одной группе было очень мало экземпляров (всего 15).

Вроде получается, что с равными prior probabilities результат лучше. В общем, это кажется логичным: сравнительные размеры выборок - это ведь случайное обстоятельство. Значит, хорошо бы исключить его влияние на результат...

Еще можно заметить, что первые 8 лучших (по Wilks lambda) наборов переменных - одни и те же в обоих вариантах анализа, а дальше начинается разнобой (всего наборов было 6188; отбиралось 10 лучших по Wilks lambda, 10 лучших по miscl. % training и 10 лучших по miscl. % holdout - отсюда пропуски в таблице). И четко видны самые ценные переменные: Dmax, D1.4 и TaIII.
trombicula: (Default)
Прогнал скрипт еще раз с другими prior probabilities. Раньше я как-то не обращал внимания на эту опцию, а в Статистике по умолчанию стоит "Proportional to group sizes". В R, в функции lda() из пакета MASS, которой я пользовался, по умолчанию prior probabilities тоже берутся пропорциональными размерам групп. Попробовал теперь взять равные для всех групп. Объединенная таблица под катом.

Read more... )

Отсортировано по возрастанию Wilks lambda, т.е. убыванию качества дискриминации. Красным выделена модель, которая была отобрана раньше, при работе над статьей. Видно, что она, на самом деле, не лучшая. Но я теперь уже не уверен, не считали ли мы % ошибок классификации в объединении всех групп, что должно было дать сильно заниженный результат по сравнению со средним % в группах, т.к. в одной группе было очень мало экземпляров (всего 15).

Вроде получается, что с равными prior probabilities результат лучше. В общем, это кажется логичным: сравнительные размеры выборок - это ведь случайное обстоятельство. Значит, хорошо бы исключить его влияние на результат...

Еще можно заметить, что первые 8 лучших (по Wilks lambda) наборов переменных - одни и те же в обоих вариантах анализа, а дальше начинается разнобой (всего наборов было 6188; отбиралось 10 лучших по Wilks lambda, 10 лучших по miscl. % training и 10 лучших по miscl. % holdout - отсюда пропуски в таблице). И четко видны самые ценные переменные: Dmax, D1.4 и TaIII.
trombicula: (Default)
Ну что, я наконец-то написал работающий скрипт в R. Он делает LDA + size-correction. Вчера опробовал его на данных из своей прошлогодней статьи. За три часа работы он обсчитал примерно 6200 комбинаций признаков (все комбинации из 17 по 5) и получил результат, хотя и сильно отличающийся от того, что в статье, но все же отчасти на него похожий. Каждый анализ прогоняется 100 раз, с разными случайно выбранными обучающими выборками, валидизация - по среднему проценту ошибок классификации в группах (отдельно training и holdout) и по Wilks lambda.

Похоже, что в R мне уже становится удобнее работать, чем в Статистике. Скажем, для size-correction по Мозиманну в Статистике приходится вводить соответствующую формулу в каждой переменной (которых может быть 16-18), тогда как в R это делается сразу для всех нужных переменных с помощью функции apply(). Теперь, наверное, надо будет осваивать PCA и, соответственно, построение графиков...

Под катом - несколько экранов непонятных буквочек )
trombicula: (Default)
Ну что, я наконец-то написал работающий скрипт в R. Он делает LDA + size-correction. Вчера опробовал его на данных из своей прошлогодней статьи. За три часа работы он обсчитал примерно 6200 комбинаций признаков (все комбинации из 17 по 5) и получил результат, хотя и сильно отличающийся от того, что в статье, но все же отчасти на него похожий. Каждый анализ прогоняется 100 раз, с разными случайно выбранными обучающими выборками, валидизация - по среднему проценту ошибок классификации в группах (отдельно training и holdout) и по Wilks lambda.

Похоже, что в R мне уже становится удобнее работать, чем в Статистике. Скажем, для size-correction по Мозиманну в Статистике приходится вводить соответствующую формулу в каждой переменной (которых может быть 16-18), тогда как в R это делается сразу для всех нужных переменных с помощью функции apply(). Теперь, наверное, надо будет осваивать PCA и, соответственно, построение графиков...

Под катом - несколько экранов непонятных буквочек )
trombicula: (Default)
Оказывается, есть такая женщина, по фамилии Манова. Манова Нина Сергеевна. N.S. MANOVA. К сожалению, она занимается не математической статистикой - она занимается теорией уголовного процесса.
trombicula: (Default)
Оказывается, есть такая женщина, по фамилии Манова. Манова Нина Сергеевна. N.S. MANOVA. К сожалению, она занимается не математической статистикой - она занимается теорией уголовного процесса.
trombicula: (Default)

"Статистическая обработка проведена с использованием общепринятых методов статистического анализа (Плохинский, 1961)".
(Боргояков В.Ю., Фоменко Н.В., Панов В.В., Чикова Е.Д. Исследование зараженности боррелиями таежных клещей на территории Новосибирского научного центра СО РАН. Паразитология, 2010, 44(6): 543-556.)

Надеюсь, по крайней мере, что под этими загадочными общепринятыми методами подразумевался хи-квадрат, а не критерий Стьюдента...
trombicula: (Default)

"Статистическая обработка проведена с использованием общепринятых методов статистического анализа (Плохинский, 1961)".
(Боргояков В.Ю., Фоменко Н.В., Панов В.В., Чикова Е.Д. Исследование зараженности боррелиями таежных клещей на территории Новосибирского научного центра СО РАН. Паразитология, 2010, 44(6): 543-556.)

Надеюсь, по крайней мере, что под этими загадочными общепринятыми методами подразумевался хи-квадрат, а не критерий Стьюдента...
trombicula: (Default)

Условие задачи: собран материал по виду, который надо как-то определить. Обычно систематик в таком случае смотрит, есть ли отличия от близких видов и от какого из них отличий меньше. В нашем случае список отличий от трех близких видов выглядит так:

74.02 КБ 
Вроде бы, от iranica отличий меньше всего. Но не надо забывать, что все эти отличия - промеры! А в случае промеров нас интересует не столько "список" отличий, сколько то, в какой мере эти отличия говорят о различной "форме" сравниваемых объектов. Чтобы прояснить этот вопрос, для начала выявим вклад "общего размера" в изменчивость нашего материала (10 экз. определяемого вида и литературные данные для 3 близких видов - промеры голотипов или средние по типовой серии). Проводим PCA по 12 промерам:

Read more... )

trombicula: (Default)

Условие задачи: собран материал по виду, который надо как-то определить. Обычно систематик в таком случае смотрит, есть ли отличия от близких видов и от какого из них отличий меньше. В нашем случае список отличий от трех близких видов выглядит так:

74.02 КБ 
Вроде бы, от iranica отличий меньше всего. Но не надо забывать, что все эти отличия - промеры! А в случае промеров нас интересует не столько "список" отличий, сколько то, в какой мере эти отличия говорят о различной "форме" сравниваемых объектов. Чтобы прояснить этот вопрос, для начала выявим вклад "общего размера" в изменчивость нашего материала (10 экз. определяемого вида и литературные данные для 3 близких видов - промеры голотипов или средние по типовой серии). Проводим PCA по 12 промерам:

Read more... )

trombicula: (Default)
"Уважаемая NN*!

Я прочитал текст, который Вы мне выслали. Установка автора - "приложить к моим данным статистическую обработку" (к сожалению, весьма характерная) - не позволяет дать какой-либо конкретный совет. Статистическая обработка есть средство, позволяющее решать задачи некоторого рода. Но такие задачи сначала должны быть поставлены. Разумеется, никто не может и не должен ставить их за автора. Автор данного текста, как я вижу, не пытается изучать какие-либо зависимости одних показателей от других, выявлять порядок сходств и различий между объектами и т.д. Соответственно, нет и повода для применения статистических методов.

Кроме того, насколько я понимаю, автор вообще незнаком с математической статистикой. А это весьма сложная дисциплина, которую вряд ли получится изучить, когда написание диссертации уже заканчивается. Этим надо было заниматься раньше. Теперь же я не рекомендовал бы автору даже прикасаться к чему-либо подобному до самой защиты. Иначе неизбежны разные нелепые ошибки, которые могут значительно испортить впечатление от работы. Я неоднократно это наблюдал даже у экспериментаторов, которых математическая обработка касается гораздо ближе. А фаунистико-экологические работы в большинстве случаев обходятся без этого: когда есть добросовестно собранные данные, диссертацию вполне можно защитить и без "статистики", с прямым обсуждением табличных данных, как это и сделано в представленном тексте.

С уважением,

Александр Стекольников"


Со времен Любищева так ничего и не изменилось в области математической грамотности биологов - ни-че-го.
trombicula: (Default)
"Уважаемая NN*!

Я прочитал текст, который Вы мне выслали. Установка автора - "приложить к моим данным статистическую обработку" (к сожалению, весьма характерная) - не позволяет дать какой-либо конкретный совет. Статистическая обработка есть средство, позволяющее решать задачи некоторого рода. Но такие задачи сначала должны быть поставлены. Разумеется, никто не может и не должен ставить их за автора. Автор данного текста, как я вижу, не пытается изучать какие-либо зависимости одних показателей от других, выявлять порядок сходств и различий между объектами и т.д. Соответственно, нет и повода для применения статистических методов.

Кроме того, насколько я понимаю, автор вообще незнаком с математической статистикой. А это весьма сложная дисциплина, которую вряд ли получится изучить, когда написание диссертации уже заканчивается. Этим надо было заниматься раньше. Теперь же я не рекомендовал бы автору даже прикасаться к чему-либо подобному до самой защиты. Иначе неизбежны разные нелепые ошибки, которые могут значительно испортить впечатление от работы. Я неоднократно это наблюдал даже у экспериментаторов, которых математическая обработка касается гораздо ближе. А фаунистико-экологические работы в большинстве случаев обходятся без этого: когда есть добросовестно собранные данные, диссертацию вполне можно защитить и без "статистики", с прямым обсуждением табличных данных, как это и сделано в представленном тексте.

С уважением,

Александр Стекольников"


Со времен Любищева так ничего и не изменилось в области математической грамотности биологов - ни-че-го.
trombicula: (Default)
Stekolnikov A.A., Klimov P.B. 2010. A revision of chiggers of the minuta species-group (Acari: Trombiculidae: Neotrombicula Hirst, 1925) using multivariate morphometrics. Systematic Parasitology, 77 (1): 55-69. PDF для имеющих доступ к журналам на Шпрингере. Не имеющим доступа могу выслать на почту.

Эпиграф: "То, что некоторые занимаются какими-то никому не нужными близкими видами клещей с гор Кавказа, тратят много времени на разграничение оных при помощи дискриминантного анализа, и их не цитируют, само по себе еще не означает..."
"Все это изнурительное измерительное безумие, которому предается главный жалобщик..."
(http://kouprianov.livejournal.com/146068.html)
trombicula: (Default)
Stekolnikov A.A., Klimov P.B. 2010. A revision of chiggers of the minuta species-group (Acari: Trombiculidae: Neotrombicula Hirst, 1925) using multivariate morphometrics. Systematic Parasitology, 77 (1): 55-69. PDF для имеющих доступ к журналам на Шпрингере. Не имеющим доступа могу выслать на почту.

Эпиграф: "То, что некоторые занимаются какими-то никому не нужными близкими видами клещей с гор Кавказа, тратят много времени на разграничение оных при помощи дискриминантного анализа, и их не цитируют, само по себе еще не означает..."
"Все это изнурительное измерительное безумие, которому предается главный жалобщик..."
(http://kouprianov.livejournal.com/146068.html)

July 2017

S M T W T F S
      1
234567 8
9 1011 1213 14 15
1617 1819 202122
23242526272829
3031     

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 24th, 2017 03:18 am
Powered by Dreamwidth Studios