srawrast (srawrast) wrote in roissiavperde,
srawrast
srawrast
roissiavperde

Два подхода к анализу данных

Сначала давайте определимся, возможно ли вообще считать протокол голосования достоверным? В нем указано, что голосовало 81695 избирателей, причем 88 избирателей голосовало более, чем за 45 кандидатов. Например, очень понравилось вот это: Избиратель: 013f2dd6 Ззарегистрирован:10/16/2012 21:00:19Тел.:219 За какие номера голосовал:18,18,8,8,23,23,47,47,45,44,21,6,19,44,48,14,43,27,7,28,42,16,17,36,22,13,35,32,46,33,18,23,8,6,11,20,30,21,47,25,19,44,45,10,28,27,42,14,48,43,13,36,16,17,22,46,33,7,35,32,18,21,6,30,47,19,20,11,44,45,8,25,23,10,13,22,33,47,18,8,25,30,19,6,45,11,20,17,35,7,32,28,42,27,48,10,23,44,46,21,43,36,16,28,28,14,6,43,43,14,14,48,48,17,16,16,27,27,42,42,17,21,30,30,7,35,7,36,35,36,32,32,45,19,13,22,22,20,20,11,11,13,33,33,46,46,25,25,10,10. Итого проголосовал 150 раз. Жду мнений оппонентов. Данные на сегодня, из протокола голосования и из данных по регистрации и верификации избирателей. И это - без проверки задвоений поданных голосов. Нет времени и желания проверять.

UPD. Анна загрузила файлы с сайта выборов в формате *.тхт. Как эталон для анализа принимаются?

Лично у меня политических взглядов никаких нет, я предпочитаю делом заниматься. Но очень удивлен комментариями оппонентов моих студентов (здесь, здесь и здесь). Особенно вот этим пассажам удивлен:

"Спорный диапазон" появился позже, чем утверждение о существовании людей, зарегистрировавшихся в январе. Да и неважно, раньше или позже - вопрос в том, БЫЛИ такие люди, или их НЕ БЫЛО.
и этим:
Да поймите же, я не могу ни согласиться, ни опровергнуть ваше утверждение.
Для этого мне надо повторить ваши расчёты.
Для этого, в свою очередь, мне надо убедиться, что у нас одинаковые исходные данные.

В моих исходных данных нет двух форматов дат. В моих исходных данных нет людей, зарегистрировавшихся в январе. Опираясь на мои исходные данные, чисто технически нельзя сделать вывод "регистрации с датами первого формата явно имеют искусственное происхождение, сгенерированы" - просто потому, что НЕТ НИКАКИХ ДАТ С ПЕРВЫМ ФОРМАТОМ.


Весьма странные заявления. Явно из этого арсенала, четко классифицированного Ю. Нестеренко.
Во-первых, спорный диапазон указан точно: с 1 по 12 октября 2012 г (концы включены). Абсолютно всё равно, в каком формате он указан. Повторить расчеты и проверить их весьма просто - результаты выставлены в сети, скачивайте и проверяйте. Обращаю внимание, что гипотеза о фальсификации была высказана моими студентами ДО окончания голосования. Официальные результаты только подтвердили её.

Во-вторых, термин "Спорный диапазон" введен как попытка найти компромисс (в отличие от оппонентов, мои студенты прислушиваются к иным мнениям): 

Но вернемся к доказательствам сфальсифицированности выборов. Допустим, позиция либерастов от науки верна, я ошиблась в форматах дат (хотя никто не пояснил, зачем нужно было в одном файле использовать разные форматы).

Тогда спорный диапазон - не с января по август 2012 г., как считаю я, а всего лишь диапазон с 01.10.2012 по 08.10.2012 г. В этом случае спорный диапазон - это выборка из всей генсовокупности. Следовательно, в этой выборке те же закономерности, что и во всей ген.совокупности.

Это не означает, что оппоненты могут сесть на голову и гадить.  Я бы понял, если бы дискуссия шла в русле научном - случайно ли обнаружен спорный диапазон, можно ли стандартными методами повторить эти результаты?
Тогда бы оппоненты самостоятельно пришли к очевидным выводам:

Один из способов выявления неслучайности - нахождение диапазона, в котором данные распределяются отлично от закономерностей, характерных для всего массива данных. Вопрос в том, возможно ли было определить такой диапазон стандартными методами? Да, возможно. Разбиение на недели и декады сразу дает искомый диапазон как пересечение значений недель 4-5 и декад 3-4

Далее нудная и кропотливая процедура определения границ диапазона.
И проверка результатов. В результате проверки оппоненты пришли бы к аналогичным выводам: "Все диапазоны, кроме спорного, дают одинаковое распределение предпочтений избирателей за того или иного кандидата. И только избиратели из спорного диапазона показывают 73% ЗА при 48% ЗА остальных избирателей, или резко бортуют неугодных кандидатов - 5% ЗА против 28% у остальных избирателей."

В-третьих, и главных... Выявлен ведь и другой диапазон, в котором распределение предпочтений избирателей существенно отличаются от средних. Это диапазон "красивых" номеров. Чтобы пресечь пустую дискуссию на тему "что считать красивым номером?" Определим красивый номер как номер, оканчивающийся на три одинаковых цифры или на 100, 200...900. Вопрос терминологии неважен, а важно то, что этот диапазон тоже странен, мягко говоря. С ростом числа событий в выборке закономерности должны стремиться к закономерностям ген. совокупности, в данном случае - наоборот. Например, распределение по кандидатам, сортировка по к-ву поданных голосов:

Сам я не умею загружать файлы, спасибо Анне - загрузила мои расчеты по красивым номерам сюда.
Tags: жидерасты - 3 в 1, нанотехнологии, они о3.14зденели
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 71 comments