trombicula: (Default)
Новый хороший пример из редактируемой статьи, в дополнение к расстоянию по Манхеттену:
"Box et Wisker plot" (у авторов было "Box & Wisker"; редактор заменил & на et, как между фамилиями авторов таксона). Т.е., Box и Wisker (sic) - это как бы фамилии людей, которые изобрели график с "прямоугольничками" и "отрезками".

Если что, правильно пишется: "box and whisker plot".
trombicula: (Default)
Новый хороший пример из редактируемой статьи, в дополнение к расстоянию по Манхеттену:
"Box et Wisker plot" (у авторов было "Box & Wisker"; редактор заменил & на et, как между фамилиями авторов таксона). Т.е., Box и Wisker (sic) - это как бы фамилии людей, которые изобрели график с "прямоугольничками" и "отрезками".

Если что, правильно пишется: "box and whisker plot".
trombicula: (Default)
Прогнал скрипт еще раз с другими prior probabilities. Раньше я как-то не обращал внимания на эту опцию, а в Статистике по умолчанию стоит "Proportional to group sizes". В R, в функции lda() из пакета MASS, которой я пользовался, по умолчанию prior probabilities тоже берутся пропорциональными размерам групп. Попробовал теперь взять равные для всех групп. Объединенная таблица под катом.

Read more... )

Отсортировано по возрастанию Wilks lambda, т.е. убыванию качества дискриминации. Красным выделена модель, которая была отобрана раньше, при работе над статьей. Видно, что она, на самом деле, не лучшая. Но я теперь уже не уверен, не считали ли мы % ошибок классификации в объединении всех групп, что должно было дать сильно заниженный результат по сравнению со средним % в группах, т.к. в одной группе было очень мало экземпляров (всего 15).

Вроде получается, что с равными prior probabilities результат лучше. В общем, это кажется логичным: сравнительные размеры выборок - это ведь случайное обстоятельство. Значит, хорошо бы исключить его влияние на результат...

Еще можно заметить, что первые 8 лучших (по Wilks lambda) наборов переменных - одни и те же в обоих вариантах анализа, а дальше начинается разнобой (всего наборов было 6188; отбиралось 10 лучших по Wilks lambda, 10 лучших по miscl. % training и 10 лучших по miscl. % holdout - отсюда пропуски в таблице). И четко видны самые ценные переменные: Dmax, D1.4 и TaIII.
trombicula: (Default)
Прогнал скрипт еще раз с другими prior probabilities. Раньше я как-то не обращал внимания на эту опцию, а в Статистике по умолчанию стоит "Proportional to group sizes". В R, в функции lda() из пакета MASS, которой я пользовался, по умолчанию prior probabilities тоже берутся пропорциональными размерам групп. Попробовал теперь взять равные для всех групп. Объединенная таблица под катом.

Read more... )

Отсортировано по возрастанию Wilks lambda, т.е. убыванию качества дискриминации. Красным выделена модель, которая была отобрана раньше, при работе над статьей. Видно, что она, на самом деле, не лучшая. Но я теперь уже не уверен, не считали ли мы % ошибок классификации в объединении всех групп, что должно было дать сильно заниженный результат по сравнению со средним % в группах, т.к. в одной группе было очень мало экземпляров (всего 15).

Вроде получается, что с равными prior probabilities результат лучше. В общем, это кажется логичным: сравнительные размеры выборок - это ведь случайное обстоятельство. Значит, хорошо бы исключить его влияние на результат...

Еще можно заметить, что первые 8 лучших (по Wilks lambda) наборов переменных - одни и те же в обоих вариантах анализа, а дальше начинается разнобой (всего наборов было 6188; отбиралось 10 лучших по Wilks lambda, 10 лучших по miscl. % training и 10 лучших по miscl. % holdout - отсюда пропуски в таблице). И четко видны самые ценные переменные: Dmax, D1.4 и TaIII.
trombicula: (Default)
Ну что, я наконец-то написал работающий скрипт в R. Он делает LDA + size-correction. Вчера опробовал его на данных из своей прошлогодней статьи. За три часа работы он обсчитал примерно 6200 комбинаций признаков (все комбинации из 17 по 5) и получил результат, хотя и сильно отличающийся от того, что в статье, но все же отчасти на него похожий. Каждый анализ прогоняется 100 раз, с разными случайно выбранными обучающими выборками, валидизация - по среднему проценту ошибок классификации в группах (отдельно training и holdout) и по Wilks lambda.

Похоже, что в R мне уже становится удобнее работать, чем в Статистике. Скажем, для size-correction по Мозиманну в Статистике приходится вводить соответствующую формулу в каждой переменной (которых может быть 16-18), тогда как в R это делается сразу для всех нужных переменных с помощью функции apply(). Теперь, наверное, надо будет осваивать PCA и, соответственно, построение графиков...

Под катом - несколько экранов непонятных буквочек )
trombicula: (Default)
Ну что, я наконец-то написал работающий скрипт в R. Он делает LDA + size-correction. Вчера опробовал его на данных из своей прошлогодней статьи. За три часа работы он обсчитал примерно 6200 комбинаций признаков (все комбинации из 17 по 5) и получил результат, хотя и сильно отличающийся от того, что в статье, но все же отчасти на него похожий. Каждый анализ прогоняется 100 раз, с разными случайно выбранными обучающими выборками, валидизация - по среднему проценту ошибок классификации в группах (отдельно training и holdout) и по Wilks lambda.

Похоже, что в R мне уже становится удобнее работать, чем в Статистике. Скажем, для size-correction по Мозиманну в Статистике приходится вводить соответствующую формулу в каждой переменной (которых может быть 16-18), тогда как в R это делается сразу для всех нужных переменных с помощью функции apply(). Теперь, наверное, надо будет осваивать PCA и, соответственно, построение графиков...

Под катом - несколько экранов непонятных буквочек )
trombicula: (Default)
Оказывается, есть такая женщина, по фамилии Манова. Манова Нина Сергеевна. N.S. MANOVA. К сожалению, она занимается не математической статистикой - она занимается теорией уголовного процесса.
trombicula: (Default)
Оказывается, есть такая женщина, по фамилии Манова. Манова Нина Сергеевна. N.S. MANOVA. К сожалению, она занимается не математической статистикой - она занимается теорией уголовного процесса.
trombicula: (Default)

"Статистическая обработка проведена с использованием общепринятых методов статистического анализа (Плохинский, 1961)".
(Боргояков В.Ю., Фоменко Н.В., Панов В.В., Чикова Е.Д. Исследование зараженности боррелиями таежных клещей на территории Новосибирского научного центра СО РАН. Паразитология, 2010, 44(6): 543-556.)

Надеюсь, по крайней мере, что под этими загадочными общепринятыми методами подразумевался хи-квадрат, а не критерий Стьюдента...
trombicula: (Default)

"Статистическая обработка проведена с использованием общепринятых методов статистического анализа (Плохинский, 1961)".
(Боргояков В.Ю., Фоменко Н.В., Панов В.В., Чикова Е.Д. Исследование зараженности боррелиями таежных клещей на территории Новосибирского научного центра СО РАН. Паразитология, 2010, 44(6): 543-556.)

Надеюсь, по крайней мере, что под этими загадочными общепринятыми методами подразумевался хи-квадрат, а не критерий Стьюдента...
trombicula: (Default)

Условие задачи: собран материал по виду, который надо как-то определить. Обычно систематик в таком случае смотрит, есть ли отличия от близких видов и от какого из них отличий меньше. В нашем случае список отличий от трех близких видов выглядит так:

74.02 КБ 
Вроде бы, от iranica отличий меньше всего. Но не надо забывать, что все эти отличия - промеры! А в случае промеров нас интересует не столько "список" отличий, сколько то, в какой мере эти отличия говорят о различной "форме" сравниваемых объектов. Чтобы прояснить этот вопрос, для начала выявим вклад "общего размера" в изменчивость нашего материала (10 экз. определяемого вида и литературные данные для 3 близких видов - промеры голотипов или средние по типовой серии). Проводим PCA по 12 промерам:

Read more... )

trombicula: (Default)

Условие задачи: собран материал по виду, который надо как-то определить. Обычно систематик в таком случае смотрит, есть ли отличия от близких видов и от какого из них отличий меньше. В нашем случае список отличий от трех близких видов выглядит так:

74.02 КБ 
Вроде бы, от iranica отличий меньше всего. Но не надо забывать, что все эти отличия - промеры! А в случае промеров нас интересует не столько "список" отличий, сколько то, в какой мере эти отличия говорят о различной "форме" сравниваемых объектов. Чтобы прояснить этот вопрос, для начала выявим вклад "общего размера" в изменчивость нашего материала (10 экз. определяемого вида и литературные данные для 3 близких видов - промеры голотипов или средние по типовой серии). Проводим PCA по 12 промерам:

Read more... )

trombicula: (Default)
"Уважаемая NN*!

Я прочитал текст, который Вы мне выслали. Установка автора - "приложить к моим данным статистическую обработку" (к сожалению, весьма характерная) - не позволяет дать какой-либо конкретный совет. Статистическая обработка есть средство, позволяющее решать задачи некоторого рода. Но такие задачи сначала должны быть поставлены. Разумеется, никто не может и не должен ставить их за автора. Автор данного текста, как я вижу, не пытается изучать какие-либо зависимости одних показателей от других, выявлять порядок сходств и различий между объектами и т.д. Соответственно, нет и повода для применения статистических методов.

Кроме того, насколько я понимаю, автор вообще незнаком с математической статистикой. А это весьма сложная дисциплина, которую вряд ли получится изучить, когда написание диссертации уже заканчивается. Этим надо было заниматься раньше. Теперь же я не рекомендовал бы автору даже прикасаться к чему-либо подобному до самой защиты. Иначе неизбежны разные нелепые ошибки, которые могут значительно испортить впечатление от работы. Я неоднократно это наблюдал даже у экспериментаторов, которых математическая обработка касается гораздо ближе. А фаунистико-экологические работы в большинстве случаев обходятся без этого: когда есть добросовестно собранные данные, диссертацию вполне можно защитить и без "статистики", с прямым обсуждением табличных данных, как это и сделано в представленном тексте.

С уважением,

Александр Стекольников"


Со времен Любищева так ничего и не изменилось в области математической грамотности биологов - ни-че-го.
trombicula: (Default)
"Уважаемая NN*!

Я прочитал текст, который Вы мне выслали. Установка автора - "приложить к моим данным статистическую обработку" (к сожалению, весьма характерная) - не позволяет дать какой-либо конкретный совет. Статистическая обработка есть средство, позволяющее решать задачи некоторого рода. Но такие задачи сначала должны быть поставлены. Разумеется, никто не может и не должен ставить их за автора. Автор данного текста, как я вижу, не пытается изучать какие-либо зависимости одних показателей от других, выявлять порядок сходств и различий между объектами и т.д. Соответственно, нет и повода для применения статистических методов.

Кроме того, насколько я понимаю, автор вообще незнаком с математической статистикой. А это весьма сложная дисциплина, которую вряд ли получится изучить, когда написание диссертации уже заканчивается. Этим надо было заниматься раньше. Теперь же я не рекомендовал бы автору даже прикасаться к чему-либо подобному до самой защиты. Иначе неизбежны разные нелепые ошибки, которые могут значительно испортить впечатление от работы. Я неоднократно это наблюдал даже у экспериментаторов, которых математическая обработка касается гораздо ближе. А фаунистико-экологические работы в большинстве случаев обходятся без этого: когда есть добросовестно собранные данные, диссертацию вполне можно защитить и без "статистики", с прямым обсуждением табличных данных, как это и сделано в представленном тексте.

С уважением,

Александр Стекольников"


Со времен Любищева так ничего и не изменилось в области математической грамотности биологов - ни-че-го.
trombicula: (Default)
Stekolnikov A.A., Klimov P.B. 2010. A revision of chiggers of the minuta species-group (Acari: Trombiculidae: Neotrombicula Hirst, 1925) using multivariate morphometrics. Systematic Parasitology, 77 (1): 55-69. PDF для имеющих доступ к журналам на Шпрингере. Не имеющим доступа могу выслать на почту.

Эпиграф: "То, что некоторые занимаются какими-то никому не нужными близкими видами клещей с гор Кавказа, тратят много времени на разграничение оных при помощи дискриминантного анализа, и их не цитируют, само по себе еще не означает..."
"Все это изнурительное измерительное безумие, которому предается главный жалобщик..."
(http://kouprianov.livejournal.com/146068.html)
trombicula: (Default)
Stekolnikov A.A., Klimov P.B. 2010. A revision of chiggers of the minuta species-group (Acari: Trombiculidae: Neotrombicula Hirst, 1925) using multivariate morphometrics. Systematic Parasitology, 77 (1): 55-69. PDF для имеющих доступ к журналам на Шпрингере. Не имеющим доступа могу выслать на почту.

Эпиграф: "То, что некоторые занимаются какими-то никому не нужными близкими видами клещей с гор Кавказа, тратят много времени на разграничение оных при помощи дискриминантного анализа, и их не цитируют, само по себе еще не означает..."
"Все это изнурительное измерительное безумие, которому предается главный жалобщик..."
(http://kouprianov.livejournal.com/146068.html)
trombicula: (Default)
Многострадальная статья с большим количеством статистики, о которой шла речь здесь: http://trombicula.livejournal.com/77593.html, и здесь: http://trombicula.livejournal.com/78397.html, принята к печати в Systematic Parasitology. Переделка статьи после рецензирования длилась год; за это время у нее появился соавтор - Павел Климов, акаролог из Мичиганского университета и большой знаток статистики. При его участии работа была доведена до немыслимого совершенства. Новая рецензия, которую я получил сегодня, была просто панегирической: "Отличная статья, с применением нового подхода к дискриминации видов… Выбор статистических методик и последовательность, в которой они применялись, имеют намного более широкое значение, чем результат, полученный для данной группы – они представляют собой замечательный пример того, как должны использоваться морфометрические методы… Я могу только поздравить авторов с этим превосходным результатом." (перевод мой)

Read more... )
trombicula: (Default)
Многострадальная статья с большим количеством статистики, о которой шла речь здесь: http://trombicula.livejournal.com/77593.html, и здесь: http://trombicula.livejournal.com/78397.html, принята к печати в Systematic Parasitology. Переделка статьи после рецензирования длилась год; за это время у нее появился соавтор - Павел Климов, акаролог из Мичиганского университета и большой знаток статистики. При его участии работа была доведена до немыслимого совершенства. Новая рецензия, которую я получил сегодня, была просто панегирической: "Отличная статья, с применением нового подхода к дискриминации видов… Выбор статистических методик и последовательность, в которой они применялись, имеют намного более широкое значение, чем результат, полученный для данной группы – они представляют собой замечательный пример того, как должны использоваться морфометрические методы… Я могу только поздравить авторов с этим превосходным результатом." (перевод мой)

Read more... )
trombicula: (Default)
Казалось бы, элементарная задача: сравнить частоты аллелей у двух пород. Таблица 2 х 2. Не надо стат. пакета, можно посчитать хи-квадрат в Excel (функции ХИ2ТЕСТ и ХИ2ОБР). Но молекулярный генетик даже и тут умудряется сделать ошибку (в автореферате была приведена таблица частот, значения хи-квадрат и значения p, благодаря чему и удалось реконструировать ход вычислений). Частоты аллелей у одной породы он берет в качестве наблюдаемых данных, а частоты аллелей у другой породы - в качестве теоретически ожидаемых! Нет, все-таки молекулярные генетики это те же чукчи нередко просто феноменально невежественны в статистике...
trombicula: (Default)
Казалось бы, элементарная задача: сравнить частоты аллелей у двух пород. Таблица 2 х 2. Не надо стат. пакета, можно посчитать хи-квадрат в Excel (функции ХИ2ТЕСТ и ХИ2ОБР). Но молекулярный генетик даже и тут умудряется сделать ошибку (в автореферате была приведена таблица частот, значения хи-квадрат и значения p, благодаря чему и удалось реконструировать ход вычислений). Частоты аллелей у одной породы он берет в качестве наблюдаемых данных, а частоты аллелей у другой породы - в качестве теоретически ожидаемых! Нет, все-таки молекулярные генетики это те же чукчи нередко просто феноменально невежественны в статистике...

February 2013

S M T W T F S
     12
3 456 7 89
10 111213141516
1718 1920212223
2425262728  

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 21st, 2017 02:46 pm
Powered by Dreamwidth Studios