Corwin (realcorwin) wrote,
Corwin
realcorwin

Лестница Чурова

anpaza в своём тексте "Лестница Чурова" как символ веры образованщины" продолжает добивать статистические экзерсисы "разоблачателей".

anpaza:
В оркских деревнях до сих пор приходят
в религиозный ужас при виде СВЧ-печек.
Им непонятно, как это так – огня нет,
гамбургер никто не трогает, а он становится
все горячее и горячее. Делается это просто –
надо создать электромагнитное поле, в котором
частицы гамбургера придут в бурное движение.
Оркские революции готовят точно так же, как
гамбургеры, за исключением того, что частицы
говна в оркских черепах приводятся в движение
не электромагнитным полем, а информационным.

В. Пелевин. "S.N.U.F.F."

Никому нельзя верить, даже себе.
Мне - можно.

papasha_mueller

Если хочешь, чтобы что-то было сделано нормально -
сделай это сам.

Народная мудрость.

Попробую забить последний гвоздь в гроб так называемой "гребёнки Чурова", она же "лестница Чурова".

Итак, масса людей умножает, делит, интегрирует и логарифмирует данные из БД ГАС "Выборы", пытаясь "отсеять фальшивые голоса" и получить "реальный процент ЕР". Признаюсь, меня поначалу тоже впечатлил график "лестницы Чурова", пока я не прочитал дельный пост, в котором автор нащупал причину, приводящую к такому эффекту. Объяснение было настолько простым, что я даже удивился, почему никто раньше до этого не додумался: всё дело в ошибках квантования. Из-за того, что количество проголосовавших, как и размер избирательного участка (количество зарегистрированных на участке избирателей) являются целыми числами, дроби вида X/Y, где

  • X - количество проголосовавших за (любую) партию
  • Y - количество (действительных+недействительных) бюллетеней (так считает проценты избирательная комиссия)

распределяются неслучайным образом в диапазоне от 0 до 1. Самая часто встречающаяся дробь - 1/2, она же 2/4, она же 3/6 и так далее. Следующие по частоте - 1/4, 3/4. Ещё реже встречаются дроби, упрощающиеся до 1/5, 2/5, 3/5, 4/5.  Ещё реже - 1/3 и 2/3. Если предположить, что X и Y это случайные числа в определённом интервале (например, для Y от 100 до 500, X<=Y), то подсчитав количество встречающихся дробей неизбежно получим примерно такой график:

Для начала давайте попытаемся понять физический смысл того, что мы ищем. Итак, имеем гипотезу: используя административный ресурс, функционеры ЕР заставляют председателей УИК а, возможно, и ТИК, фальсифицировать итоговые результаты, и не просто фальсифицировать, а прямо спускают им разнарядку - ты обеспечишь 50% голосов, а ты - 60%, а ты - 70%. Гипотеза сама по себе невероятная, ибо все бюллетени по окончанию выборов опечатываются и хранятся. То есть, любой повторный пересчёт бюллетеней автоматически означает уголовный срок для председателя УИК или ТИК. Ну да ладно, не будем сейчас обсуждать правдоподобность гипотезы.

Итак, если поверить, что имеются разнарядки на определённый процент голосов, то очевидно, что количество участков, на которых результаты голосования попадают на "красивые" пороги будет больше, чем количество участков с "некрасивыми" результатами. То есть, если мы построим график, на котором по оси X отложим проценты от 0 до 100, а по оси Y - количество участков, на которых определённая партия набрала соответствующий процент голосов, обязательно увидим "протуберанцы" на "красивых" порогах.

Естественно, при этом количество участков, где партия набрала "истиные" проценты уменьшится. Например, если все участки, где ЕР набрала около 40% получат команду "нарисовать" 60%, то получим "впадину" в районе 40%, и "всплеск" в районе 60%, логично?

Однако, если предположить что "рисуют" проценты вне связи с "реальным" результатом, никаких "впадин" на графике мы не увидим, увидим лишь "всплески".

Теперь давайте выберем размер кванта ("бин") для процентов. Понятно, что чем больше квант, тем сильнее будут сглажены "всплески" за счёт усреднения соседними (нормальными) значениями. То есть, чем меньше квант, тем заметнее будут "всплески". С другой стороны, чем меньше квант, тем заметнее становятся артефакты квантования. Вот иллюстрация того, как вариация размеров кванта влияет на высоту естественных всплесков, возникающих из-за квантования:



Из картинки выше видно, что:

  • Каждый всплеск всегда имеет рядом "провал"-двойника, за счёт которого он "выравнивается" при увеличении порога квантования.
  • Ошибки целочисленного квантования практически исчезают при размере кванта ("бина") в 2%

Итак, давайте, наконец, посмотрим реальные данные. По ссылке выше (у jemmybutton) я позаимствовал полную базу данных выборов. По утверждению автора, базы данных, на которые опираются другие исследователи, неполные из-за ошибки в скрипте, которым первоначально все пользовались.

Для полноты картины построим график сразу для всех партий. Плюс к этому, я добавил ещё одну псевдо-партию, назвав её "Партией Гаусса" (ПГ), по имени так любимого "разоблачителями" учёного. Особенность этой партии в том, что количество проголосовавших за эту партию на любом участке является целым случайным числом в диапазоне от 0 до количества (действительных+недействительных) бюллетеней на участке. То есть, рейтинг Партии Гаусса варьируется от 0 до 100% по всей России абсолютно случайным образом. Эта партия нам понадобится для того, чтобы оценить успешность подавления ошибок целочисленного квантования (которые возникают, естественно, и для этой партии).

Итак, для начала возьмём избыточно большой порог квантования - 5%. Смотрим, что получилось (кликабельно):
Лесенка Чурова, квантование 5%

Графики гладкие "как попка младенца". Ну да, большим порогом мы сгладили все мало-мальски выпуклости графика. На "круглых" числах не наблюдается никаких аномалий. Давайте понизим порог до 2.5%:

Уже стало больше неровностей, однако по-прежнему не видно ничего подозрительно вокруг "круглых" порогов. Давайте ещё сильнее снизим порог, аж до 0.5%:

Во-от, теперь стали видны аномалии. Особенно вокруг 50%, остальные всё ещё мало выражены. Однако что я вижу? Те же самые всплески появились и на графике "Партии Гаусса", ровно в тех же местах, где появились всплески на графиках других партий? А ещё интересно, что за всплеском на 50% на графике ЕР следует впадина на 50.5%?! То есть, председатели ЦИК на участках, где ЕР набрала 50.5% "округляла вниз" результат ЕР до 50%? Абсурд. Давайте ещё уменьшим порог квантования, чтобы наконец-то узреть всю глубину "фальсификаций":

Мамма мия, санта Розалия! Я смотрю, кругом сплошные фальсификации, даже Партию Гаусса не пожалели. Причём, что характерно, всплески и впадины на графике Партии Гаусса практически повторяют аналогичные пертурбации на графиках других партий на той же абсциссе.

Рекомендую посмотреть последний график в крупном размере, очень поучительное зрелище.

Заранее предвижу вопрос, что некоторые всплески на графиках партий больше/меньше аналогичного всплеска на графике ПГ. Этому есть два объяснения.

  • Во-первых, всплеск всегда относительный, то есть надо смотреть высоту/глубину всплеска относительно высоты средней скользящей графика, а не абсолютную величину.
  • Во-вторых, Партия Гаусса на то и Партия Гаусса, чтобы давать случайные результаты; не всегда выброс получается ожидаемой высоты, сравните, например, выброс на 20% и 40% у Партии Гаусса и на первом графике в статье. На самом деле, количество УИКов (около 95000) уже сравнимо с количеством интервалов на графике (1000), законы больших чисел при таких соотношениях уже не очень хорошо работают.

И ещё одно важное наблюдение. Существенный выброс на любом графике всегда сопровождается слева и справа впадинами, чья суммарная высота (относительно средней скользящей) примерно равна высоте выброса. Именно это свойство приводит к практически полному исчезновению выбросов при увеличении размера кванта выше определённого порога (думаю, от 1% и выше уже все неровности на графике исчезнут совсем). Давайте проверим:

Подытожим.

  1. Мы не обнаружили ни одного факта, говорящего в пользу гипотезы.
  2. Против гипотезы говорит тот факт, что "всплески" являются исключительно узкими, это значит что результаты "подгоняются" абсолютно точно к "заданной" цифре.
  3. Против гипотезы говорит тот факт, что каждый всплеск сопровождается впадинами такой глубины, что высота всплеска примерно равна сумме глубин окружающих его впадин. Именно поэтому при построении графика с более высоким порогом квантования мы не наблюдаем вообще никаких аномалий в районе "круглых" цифр.
  4. Я не знаю, почему такие очевидные выводы не были сделаны исходными авторами "сенсаций". Возможно, их ввело в заблуждение отсутствие существенных впадин на их графиках в районе выбросов (что меня несколько удивило). Скорее всего, это баг в тех программах, которые они использовали для построения графиков, либо банальные ошибки в вычислениях. Во всяком случае, все вычисления у меня абсолютно элементарны и прозрачны, можете сами скачать данные и проверить.

Электронная таблица (формат Gnumeric) тут.
Сам Gnumeric можно скачать тут.

Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 31 comments