О новом рейтинге Бориса Панкина

   Некоторые читатели очень почтительно относятся к формулам и, не имея возможности детально разбираться, излишне серьезно отнеслись к результатам Бориса Панкина http://www.stihi.ru/2012/07/16/946 . Это обстоятельство вызвало некоторую досаду.
    Я укажу или напомню несколько известных вещей, которые полезно иметь в виду добропорядочному человеку при столкновении с умниками, вооруженными массивными методиками и заточенными статистиками. А еще выскажу некоторые собственные соображения.
    Для начала: спасибо Панкину за большую и, увы, многими неблагодарно воспринятую работу. Кроме шуток.

    У кассы

   Сказать по секрету, для математика, как и для здорового человека, важны не столько числа и формулы, сколько смысл, которым наделены эти числа и формулы. Давайте представим, что кассовый аппарат в магазине будет пробивать не сумму, а произведение стоимостей.
- Почему это? – спросит математик. А кассирша ему из-за кассы:
- Ух! Знаете, здесь такие покупатели ходят, перемнут весь товар, перепробуют и ничего не купят. А нам потом отчитываться. Ну, вот я кассу и подрегулировала немножко…
    Нельзя не признать, что произведение цен в какой-то степени характеризует покупку, но нам лучше поискать другую кассу.
    А что там в рейтинге Панкина? Ну да, корень четвертой степени из произведения трех показателей авторитетности… У этой величины даже размерности нет.

В чем проблема

    С точки зрения математической статистики для вычисления рейтинга можно использовать практически любую формулу. Судите сами, математики называют статистикой любую функцию от наблюдаемых величин (они говорят, любую измеримую, но здесь это несущественно). Любую статистику они могут рассматривать как оценку. Однако им желательно знать, какие математические свойства объекта нас интересуют, тогда они ответят, насколько точно эти свойства выражает формула.
    Я не понимаю, какое именно свойство страницы отражает новый рейтинг, но допускаю, что это может сказать кто-нибудь другой. Например, на качественном уровне довольно вразумительные объяснения содержатся по ссылкам
http://www.stihi.ru/rec.html?2012/07/24/5066
http://www.stihi.ru/rec.html?2012/07/23/8573
(с удовольствием продублировал из пояснений Панкина).
    Итак, можно предложить кучу рейтингов на любой вкус. Новый рейтинг не плох. Он коррелирует с имеющимися счетчиками: числом читателей, числом рецензий, числом избравших и т.д., и не будь категоричных возражений от многих стихирцев, можно было бы обойтись без обсуждений.
    Давайте разберемся: можно ли в принципе с помощью стихирских счетчиков оценить авторов в каком-то смысле справедливо?

    Демократия: меньшинство побеждает и справедливости нет

    Наше общество провозгласило т.н. демократические принципы. Полезно представлять, как они реализуются. Рассмотрим такую важную процедуру, как выборы. По существу здесь устанавливается рейтинг кандидатов на выборные места (ч-черт побери, как же я все это не люблю: касса, выборы, статистика!). Для чьего-то удобства выборы проводятся по многопартийной системе, причем многоступенчато (ср. с новым рейтингом). Установлено, что именно в этих условиях подходящее распределение партии по местам может обеспечить победу меньшинства. Соответственно, абсолютное большинство избирателей оказывается в проигрыше. Наиболее простой пример известен как парадокс Кондорсе, 1785 г. см. Гугл (мне больше нравится пользоваться nigma.ru). Ясно, что с тех пор технологии существенно развились.
    Исследованиями технологий голосования занимается, в частности, т.н. системный анализ. Современному человеку полезно помнить о важном результате системного анализа – теореме Эрроу о невозможности, 1951 г. Общие слова долго набивать, скопирую скучную фразу из википедии: «в рамках ординалистского подхода не существует метода объединения индивидуальных предпочтений для трёх и более альтернатив, который удовлетворял бы некоторым вполне справедливым условиям и всегда давал бы логически непротиворечивый результат». В нашем случае число альтернатив - это число авторов. Ординалистский подход при подсчете рейтинга на стихире состоит в том, что каждый имеет ровно две возможности: включить и не включить конкретного автора в Список избранных.
    С л е д с т в и е: на основе списков Избранных авторов нельзя построить справедливый рейтинг.
    В тех же условиях теорема Гиббарда-Саттертуэйта, 1975 г., уточняет, что для построения списка лучших (например, лучших авторов) кто-то должен выполнить функцию «диктатора». Какая нам разница, кто это будет: Панкин или кто-нибудь другой?
    Короче, не требуйте от автора рейтинга невозможного. Исходя из опубликованных на сайте stihi.ru данных, принципиально невозможно построить непогрешимый рейтинг.

Есть ли справедливое голосование?

     В принципе, да. Например, справедливо всеобщее голосование с одной альтернативой – референдум. Вот референдум 17 марта 1991 года: из 185,6 миллиона (80 %) граждан СССР с правом голоса приняли участие 148,5 миллиона (79,5 %); из них 113,5 миллиона (76,43 %) проголосовали за сохранение Советского Союза. После этого референдумы стали проводить неохотно.
4ёта я отвлекся.

Гигантская компонента

Представим себе сайт stihi.ru в виде ориентированного графа. Страницы авторов будем обозначать вершинами графа (точками), а ссылки в Списке избранных – стрелками от одной вершины к другой. Если кому интересно, подобным образом продвинутые люди из «математического отдела» Яндекс моделируют активность Интернет-узлов для пересчета релевантных ссылок, правда, по непонятной причине они часто пренебрегают направлением стрелок (!). Известно (см. КолчинВФ, Случайные графы, или Гугл), что эволюция случайного графа во времени при некоторых необременительных ограничениях на параметры задачи приводит к возникновению т.н. гигантской компоненты - одного связного подграфа. Слово «одного» означает, что вершины, не вошедшие в гигансткую компоненту, остаются изолированными или образуют маленькие «созвездия». Судя по данным сайта Панкина, сегодня стихира находится именно в таком состоянии: здесь есть «авторы» - одна сильносвязная компонента, т.е. подмножество вершин графа, соединенных между собой и с другими большим количеством стрелок, и имеются остальные вершины с небольшим количеством входящих и выходящих стрелок – это пресловутые «лемминги». Несколько упрощая, можно отнести к «леммингам» все вершины, в которые входит мало стрелок (по-Панкински, у соответствующих страниц маленькое значение countwho). Вершины в гигантской компоненте – это верхние строчки рейтинга Панкина, именно они обладают определяющими показателями authority для его методики. Численные данные говорят нам, что, несмотря на эпитет «гигантская», количество «авторов» относительно невелико – ориентировочно несколько тысяч. Реальные авторы могут иметь на сайте большое число страниц. В предположении, что справедливы универсальные законы распределений типа закона Ципфа или правила 80/20 (80% страниц принадлежат 20% авторов и т.п.) число реальных авторов, определяющих рейтинг, около тысячи.
Можно вычеркнуть из этого числа ушедших, а также нескольких затейливых авторов типа БольшойЛитературныйК и ФестивальФсякойФ, и для оставшихся сформулировать следующий  в ы в о д.
    Указанная преторианская когорта представляет собой стихирскую гвардию; она практически не меняется в зависимости от выбора рейтинга, точнее, разные рейтинги вызывают в ее порядках перестановки, но сохраняют ее основной состав. Есть основание относить в первую очередь к этой тысяче как основные достижения сайта (их ну очень много), так и присущие ему недостатки: дебильные конкурсы, тупые разборки, некомпетентные высказывания, неадекватные реакции, грубость, хамство, беспринципность, подхалимаж, недоброжелательность, злопамятность, клановые разборки, и далее ктохочетпустьпродолжит. На настоящий момент каждый автор из перечисленной тысячи незаменим, и с уходом такого автора стихира теряет в среднем 0.1% своей ценности – это очень много (и сколько уже ушло!).

О «леммингах»

    Гипотетически допустим: зарегился на сайте миллион китайцев или олбанцев, и стали они по-китайски или по-олбански общаться и друг на друга ссылки перебрасывать, и сразу поднялись по всем рейтингам. Кто здесь будут «лемминги»? Важно не перейти в такую фазу, возможно, она уже наступает. Будет обидно, если со временем стихирная гвардия превратится в ороговевшую психомассу, приветствующую саму себя накопленными пузырями.
    По моему личному имхо, в рейтинге не следует пренебрегать ничьими мнениями. Рейтинг должен показывать не приукрашенную витрину, а общее состояние сайта со всеми его пороками. Если хулиган или тупица поднялся в ретинге – все увидели и приняли меры. Пороки лучше искоренять, чем прятать.

       Метод Алексея Крони Торопова

    А.К.Т. предложил вычислить рейтинг страницы как как отношение (число избравших)/(число читателей) http://www.stihi.ru/2012/07/21/6833. На мой взгляд, это замечательный показатель – доля читателей, одобривших страницу. Основной недостаток этого показателя очевиден – низкая точность оценки, когда число читателей мало. Недостаток легко устранить известными способами: применять этот рейтинг только для страниц с большим количеством читателей (например, >1000) или выполнить т.н. регуляризацию оценки (см. Тихонов АН, Методы решения некорректных задач): вычислять (число избравших)/(число читателей+1000). Если читателей много, то регуляризация вносит незначительное изменение, а если читателей мало, то итоговая ошибка невелика.
   Днем мне показалось, что Панкин уже выложил рейтинг А.К.Т.

      Неча на зеркало пенять
 (собачка приписала, пока я выходил за мороженым)

    В целом на сайте ситуация с авторами неблагоприятная. Мужики уродливые, старые и толстые, женщины глумливые или вовсе не женщины, а старые толстые мужики, у всех противные фотографии, а если вас почитать, то еще хуже: стихи тоскливые или без рифм, а под ними опилками – унылые рецензии. Из трех авторов один ноет, второй галиматью рифмует, а третий составил себе имя из иностранных букв и стиплом ползает. Да еще, говорят, вы плагиатите. Хорошие авторы умерли сами или ушли отсюда. А плохие остаются и рейтинги себе выбивают, как группу инвалидности. Некоторые, правда, уже выбили. Как написал Петрович Иван, «скучно и мерзко человеку на этом сайте». Я поддерживаю его, даже если реально он – глумливая женщина. Захотелось хорошие стихи почитать – возьми книжку и почитай.
    Справедливо и логично, что на кривом сайте и рейтинг кривой. Теоретически так и должно быть. А Борис Панкин – он на всех один. Где замену найдете? Живите мирно и не ссорьтесь!
   «Лемминг» жил, жив и будет жить.
   Ох, вконец сплющило. Кто прочел, тот дурак.

   (не стал удалять, в чем-то согласен).


Рецензии
Странно. Врач, а почерк разборчивый. Диагноз какой-то такой. Серьёзный. Может таблетки какие выпишите? Хотя у меня подозрения, что Вы и не врач вовсе. Сколько врачей не спрашивал, никто про книгу Тихонова не знает. Прочёл. Поумнел.

Алексей Кашеваров   26.07.2012 22:38     Заявить о нарушении
я не врач, рисунки не мои
из таблеток порекомендую колеса

Рисунки Врача   26.07.2012 22:56   Заявить о нарушении
мне не всегда удаются шутки

Рисунки Врача   26.07.2012 23:08   Заявить о нарушении
Всё хорошо у нас с чувством юмора, я надеюсь. Успехов

Алексей Кашеваров   26.07.2012 23:26   Заявить о нарушении
На это произведение написано 5 рецензий, здесь отображается последняя, остальные - в полном списке.