Сборник Алгоритм оценки популярности авторов сайта
Алгоритм отлажен, проверен на РЕАЛЬНЫХ ДАННЫХ и на РЕАЛЬНЫХ ОБЪЕМАХ. При наличии интереса – процесс можно запустить НА САЙТЕ.
Содержание
1. Проблема адекватной оценки творчества конкретного автора (26-10-2005)
2. Предварительные оценки статистики потока публикаций (31-10-2005)
3. Первые результаты «прочесывания потока» (02-11-2005)
4. Корректировка параметров «прочесывания потока» (04-11-2005)
5. Итоговые результаты тестов «прочесывания потока» (07-11-2005)
***************************
1. Проблема адекватной оценки творчества конкретного автора (26-10-2005)
***************************
Путешествуя по сайту, столкнулся с проблемой адекватной оценки творчества конкретного автора с точки зрения «собственных личных предпочтений».
Во-первых : на вкус и цвет – товарищей нет, понятия «плохо» и «хорошо» в данном случае – сугубо индивидуальны.
Во-вторых : объем публикаций настолько велик, что метод «прямого перебора» никоим образом не поможет – просто такого объема свободного времени физически нет.
В-третьих : обобщенные данные об авторе и о конкретном произведении (число произведений, рецензий, читателей, тематика и т.п. – как показал опыт, слишком грубая оценка и к желаемому результату (найти стихо, которое «точно ляжет на душу») – не приводит.
Даже более простая задача – отслеживание публикаций уже выбранных авторов – что называется «в лоб» тоже не решается. Стихо сортируется по разделам, а компьютеры (так получается) у меня – по большей части случайные (вплоть до Интернет-кафе).
Разработал алгоритм автоматического выбора из потока интересующих меня стихо, сохраняющий найденные ссылки в промежуточный файл. Пока отлаживал программу, естественно, выдавал все промежуточные данные на экран. Обнаружил ряд интересных закономерностей, которыми хочу поделиться с уважаемой аудиторией.
1. Ежедневный поток публикаций (около 2000 произведений) формируется группой авторов емкостью в 700-800 человек.
2. ДВЕ ТРЕТИ авторов формируют всего ОДНУ ТРЕТЬ потока.
3. Из оставшейся трети авторов 10-30 % публикуют 5 и более стихо.
4. Из оставшейся трети авторов 5-10 % публикуют 10 и более стихо.
5. Из оставшейся трети авторов 1-2 % публикуют 20 и более стихо.
Наблюдения – тривиальные, ничего криминального, что называется – «не наказуемо».
Удивление появляется после элементарного анализа приведенных выше параметров.
Если предположить, что публикации осуществляются РАВНОМЕРНО ВСЕМИ авторами, то вероятность встретить в потоке стихо конкретного автора не превышает 0.005.
Даже если бы у меня не было приведенных выше статистических данных, я по опыту знаю, что НИКАКОЙ равномерности публикаций – нет. Получается, что ДО ПОЛОВИНЫ авторских страниц – БРОШЕННЫЕ, или отслеживаются автором не чаще одного раза в год. Возникает законный вопрос : зачем это надо?
Ответ я уже слышал, не один раз : это – фонд российской поэзии.
Но, простите, кто же так поступает с национальным достоянием?. Если есть что хранить, пестовать и пропагандировать, так сказать, то возьмите на себя труд УПОРЯДОЧИТЬ и облегчить доступ к сокровищам. А то, что лежит по принципу «оно есть не просит – чего его трогать» называется другим словом – хлам, и отношение к нему – соответствующее. В конце концов существуют вполне цивилизованные механизмы перевода подобных страниц в категорию «архив» с соответствующим корректным оповещением автора.
У самого возникло одно возражение : возможно, что автор публикует ТОЛЬКО рецензии, но страница – в весьма активном состоянии. Решил разобраться с механизмом формирования потока рецензий. И вот тут выяснилась одна интересная подробность.
Можно ли формировать рецензии «автоматически», без участия человека? Оказалось – можно. Элементарный алгоритм «сборщика росы». Не буду приводить подробностей, дабы не прослыть «подстрекателем». Приведу конечную оценку производительности алгоритма : 2000 баллов в час.
Если до этого додумался я, а я – не самый гениальный человек в мире, то это означает, что алгоритм УЖЕ РАБОТАЕТ? Естественно - не все так просто, помимо алгоритма авторизации, который легко обходится, существует опасность «оставить следы» в счетчике читателей. Но, во-первых, можно плодить клонов и безнаказанно «собирать урожай», а во-вторых – что же это за следы, которые оставит алгоритм?
Разработал другой алгоритм - автоматического анализа читательской аудитории. Выявились следующие подробности.
1. 60-80% читателей – авторы, которые обратились к творчеству автора ОДИН раз за все время существования страницы (это – читатели?).
2. Из оставшихся 20-40% - БОЛЕЕ ПОЛОВИНЫ – члены неформальных групп авторов, объединенных по принципу «и автор и читатель одновременно» (пример : автор А является читателем авторов В и С, а те, в свою очередь – являются читателями автора А).
3. Оставшиеся 10-20% читателей распределяются (по числу обращений), по кривой, асимптотически ДОЛГО И МЕДЛЕННО уходящей от горизонтальной оси с координатой «2».
Все, что я говорю – поймите меня правильно – не злопыхательства. Просто ОЧЕНЬ хотелось бы иметь на сайте некий параметр автора, «зацепившись» за который можно было бы более-менее объективно оценить его (автора) ВЕС, если хотите. Ведь авторов же ТАК МНОГО! Почему не добавить что-то вроде «рейтинга»?
Сразу отвечу на возражения, связанные с наличием проводимых конкурсов. В математической статистике существует такое понятие : «представительная выборка». Это понятие всего-навсего определяет границы выборки опытных данных, на основании обработки которых можно говорить о том, полученные оценки – ЧЕГО ТО СТОЯТ, что они не изменятся при изменении выборки. Если кто-то все же хочет поспорить – поделитесь статистикой (если она у вас есть) ОХВАТА (в процентах) конкурсами объема сайта.
Поскольку алгоритмы показали прекрасную производительность, решил проверить, возможно ли, все-таки, автоматизация, если не поиска, то, хотя бы фильтрации потока (например, с целью избавить себя от чтения стихо с ненормативной лексикой). Оказалось – возможно! Более того – оказалось возможным выбирать стихо «как в электронной библиотеке» - по набору ключевых слов и речевых оборотов. Я уже не говорю об автоматическом определении числа строк и стихотворного размера.
Не сказал самого главного. Алгоритм работает в двух режимах :
1. Получение указанных выше данных ДО ЧТЕНИЯ стихо.
2. Сохранение в промежуточном файле ссылок на стихо, удовлетворяющих УСЛОВИЯМ ОТБОРА.
Ну, а дальше – еще интереснее. Если можно фильтровать, то – почему нельзя СРАВНИВАТЬ? Я не про «поверить алгеброй гармонию» - упаси Боже!. Все гораздо утилитарнее и прозаичнее : можно АВТОМАТИЧЕСКИ выявлять клонов. Правда, пока эффективность алгоритма невелика – всего 70%, но это уже – не «пальцем в небо».
Так вот, по поводу «пока». Вся эта возня с алгоритмами отнимает много времени. Я хотел бы выяснить у уважаемой аудитории всего один вопрос : это интересно еще кому-нибудь КРОМЕ МЕНЯ, или я увлекся по глупости никому не нужным делом?
***************************
2. Предварительные оценки статистики потока публикаций (31-10-2005)
***************************
В первой публикации, посвященной вопросам статистики потока авторов и произведений сайта, я попытался разобраться в общей картине потока, проанализировать имеющиеся общие закономерности : общие числовые характеристики ежедневного потока авторов (произведений), механизмы и качественные параметры процессов формирования списков рецензий и читателей.
Повторяться не буду. Кому интересно - http://www.stihi.ru/2005/10/26-1138
Меня с самого начала интересовал, собственно говоря, ЕДИНСТВЕННЫЙ ВОПРОС : МОЖНО ЛИ ПОРУЧИТЬ КОМПЬЮТЕРУ ЗАДАЧУ ОПРЕДЕЛЕНИЯ РЕЙТИНГА АВТОРА.
Естественно, для начала – неплохо было бы разобраться в том, на основании каких параметров может быть сформирован этот самый рейтинг.
Вот об этом и – продолжение беседы.
ЧТО Я СДЕЛАЛ?
1. Я взял поток одного дня и вырезал из него «активных авторов» (ссылку на материалы – см. выше).
2. «Опросил» страницы указанных авторов и для каждой из них вычислил значение следующих коэффициентов :
2.1. Число произведений.
2.2. Число написанных рецензий.
2.3. Число полученных рецензий.
2.4. Число читателей.
2.5. Отношение числа читателей к числу произведений.
2.6. Отношение числа полученных рецензий к числу читателей.
3. Далее – построил статистику каждого параметра.
Получил следующие результаты (НИЖЕ ИДУТ ГРАФИКИ, СТРУКТУРА КОТОРЫХ – ТИПОВАЯ : значение параметра – процент потока авторов для данного значения данного параметра»
Первые четыре графика ЧЕТКО разбиваются на две группы, внутри каждой из которых – практически «близнецы-братья».
Первая группа – число ПРОИЗВЕДЕНИЙ и число ЧИТАТЕЛЕЙ :
До 70 произведений (и соответственно до 700 читателей) – 63%-66%
До 310 произведений (и соответственно до 3100 читателей) – 23%-24%
Свыше 310 произведений (и соответственно до 3100 читателей) – 10%-14%
Для примера – один график :
Число читателей.
0-10 :*********************** (23%)
11-30 : ********************** (22%)
31-70 : ****************** (18%)
71-150 : *************** (15%)
151-310 : ******** (8%)
311-470 : ****** (7%)
470 : ******* (7%).
Вторая группа – число ПОЛУЧЕННЫХ и НАПИСАННЫХ рецензий :
До 70 рецензий – 75%-76%
До 310 рецензий – 10%-15%
Свыше 310 рецензий – 10%-14%
Для примера – один график :
Число НАПИСАННЫХ рецензий
0-10 : ***************************************** (41%)
11-30 : ******************* (19%)
31-70 : *************** (15%)
71-150 : ******** (8%)
151-310 : ******* (7%)
311-470 : ** (2%)
470 : ******** (8%).
Это подтверждает сделанные ранее выводы о том, что сайт – ПО ПРЕИМУЩЕСТВУ (БОЛЕЕ, ЧЕМ НА 2/3) - «молодой» и используется авторами как «СРЕДСТВО ОБЩЕНИЯ», не более того.
Гораздо более интересные результаты получены для оставшихся двух параметров. Приведу графики целиком.
Отношение числа читателей к числу произведений.
0-1 :** (2%)
1-2 : **** (4%)
2-3 : *** (3%)
3-4 : ******* (7%)
4-5 : ********* (9%)
5-6 : **** (4%)
6-7 : **** (4%)
7-8 : ** (2%)
8-9 : **** (4%)
9-10 : *** (3%)
10-11 : *** (3%)
11-12 : * (1%)
12-13 : ** (2%)
13-14 : *** (3%)
14-15 : * (1%)
15-16 : (0%)
16-17 : ** (2%)
17-18 : * (1%)
18-19 : * (1%)
19-20 : * (1%)
И ТАК ДАЛЕЕ…
Отношение числа полученных рецензий к числу читателей.
0.00-0.05 : ******************************************************** (56%)
0.05-0.10 : ************************ (24%)
0.10-0.15 : ******** (8%)
0.15-0.20 : ***** (5%)
0.20-0.25 : **** (4%)
0.25-0.30 : * (1%)
0.30-0.35 : * (1%)
0.35-0.40 : * (1%)
И ВСЕ, ДАЛЕЕ – ПО НУЛЯМ, как говорится…
Из анализа этих двух графиков можно сделать два ОЧЕНЬ ИНТЕРЕСНЫХ вывода.
1. Существует четко выраженный пик отношения числа читателей к числу произведений, а именно : в районе значения «5». Далее – график идет по нисходящей примерно до значения «15» и «замирает там в райне «1%»
2. Существует четко выраженный предел относительного числа читателей, которые НЕ ТОЛЬКО ЧИТАЮТ, но ОСТАВЛЯЮТ НА СТРАНИЦЕ СВОЕ МНЕНИЕ о стихо – это значение порядка «0.4»
Эти два вывода позволяют напрямую выйти на формулу НЕЗАВИСИМОГО АВТОМАТИЗИРОВАННОГО РЕЙТИНГА любого автора.
Но – прежде – два слова о шкале измерений. Как видно из вышеизложенного, для формирования графиков была использована «прогрессивная» шкала. Иными словами – каждая последующая отметка графика отстоит от предыдущей НА ВСЕ БОЛЕЕ ЗНАЧИМОЕ РАССТОЯНИЕ (10 – 30 – 70 – 150…). Конкретно было использовано правило «3+7» : «три интервала – семь делений шкалы». Это – СТАНДАРТНОЕ ПРАВИЛО при формировании рейтингов и «означает» оно простую и понятную истину : КАЖДОЕ ПОСЛЕДУЮЩЕЕ ЗНАЧЕНИЕ В РЕЙТИНГЕ ДОЛЖНО «ЗАВОЕВЫВАТЬСЯ» БОЛЬШИМ НАПРЯЖЕНИЕМ СИЛ.
Так вот, о самом рейтинге : предлагаю использовать семь градаций, а именно :
Любитель (далее – «Л»);
Ученик (далее – «У);
Профессионал (далее – «П»);
Мастер (далее – «М»);
Элит (далее – «Э»);
Супер (далее – «С»);
Абсолют (далее – «А»).
Для первых трех градаций предлагаю использовать ТОЛЬКО отношения числа читателей к числу произведений, поскольку ВНУТРИ рейтинга - это градации «растущих» авторов (над собой растущих). И только начиная с градации «М» (Мастер) – учитывать отношение числа полученных рецензий к числу читателей.
Пик на графике отношение числа читателей к числу произведений предлагаю использовать для фиксации градации «Л». Это – логично, поскольку ПРЕОДОЛЕВАЮТ этот рубеж только 25% потока. И означает само это «преодоление», что автор «вышел на достаточно устойчивый уровень интереса аудитории».
Диапазон «свыше 5» разобьем на отрезки с весом ( в % или в значениях параметра), не меньшим, чем первый. Получаем :
Любитель - до 5;
Ученик - свыше 5 и до 11;
Профессионал – свыше 10 и до 15;
Мастер - свыше 15;
При этом последняя из указанных градаций рейтинга МОЖЕТ БЫТЬ ПРИСВОЕНА автору ТОЛЬКО ПРИ УСЛОВИИ выполнения ограничений по второму анализируемому параметру : отношение числа полученных рецензий к числу читателей.
Это – логично : ВЫШЕЛ НА УРОВЕНЬ МАСТЕРА – ПОДТВЕРДИ АМБИЦИИ ЧИТАТЕЛЬСКИМ ИНТЕРЕСОМ.
Применим ко второму параметру правило «3+7». Получаем :
Мастер – свыше 15 читателей на одно стихо и не менее – 0.05 рецензий у читателей.
Элит – свыше 15 читателей на одно стихо и не менее – 0.15 рецензий у читателей.
Супер – свыше 15 читателей на одно стихо и не менее – 0.35 рецензий у читателей.
Абсолют – свыше 15 читателей на одно стихо и не менее – 0.75 рецензий у читателей.
Как видно из приведенного выше статистического материала на сегодня (по крайней мере – по материалам ограниченной выборки данных, использованных для проведения исследования) «Абсолютов» НА САЙТЕ НЕТ (ИЛИ – ТОЧНЕЕ – ПОКА НЕ НАЙДЕНО).
Это – логично. Удивительно было бы обратное.
Итак, рейтинг (правила определения градаций) – сформирован.
Следующий этап – попробовать проанализировать дневной поток и НАЙТИ СТИХО, КОТОРОЕ ТОЧНО «ЛЯЖЕТ НА ДУШУ» - НА ОСНОВАНИИ ОПРЕДЕЛЕНИЯ РЕЙТИНГА АВТОРА В АВТОМАТИЧЕСКОМ РЕЖИМЕ.
***************************
3. Первые результаты «прочесывания потока» (02-11-2005)
***************************
Как и обещал, публикую результаты «прочесывания» дневного потока с помощью алгоритма оценки РЕЙТИНГА автора.
Теория алгоритма изложена в «Статистике…» и «Статистике-2..». Ссылки – не даю. Кому интересно будет – сам найдет.
НО : два слова О СУТИ АЛГОРИТМА (уже получил отклики и понял, что – плохо объяснил СВОИ ЦЕЛИ).
Я не претендую на оценку КАЧЕСТВА автора. Ни Боже мой!!!!!!!
Все, что я хочу сделать – это ОТФИЛЬТРОВАТЬ ПОТОК ПУБЛИКАЦИЙ по критерию «предложение / спрос» автора, для того, чтобы РАЗДЕЛИТЬ АВТОРОВ на семь категорий (по значению указанного критерия).
Вы спросите : на кой ляд тебе это надо? Я отвечу.
Много слышал о том, что сайт развивается по демократическим, Свободным, РЫНОЧНЫМ правилам. НО, ПАРДОН : в какой это демократии, на каком это рынке покупатель НЕ ИМЕЕТ ПРАВА ОЦЕНИТЬ потребительские качества товара ДО его ПОКУПКИ?!!!
Демократия – это хорошо, о чем тут спорить. НО КАК я найду стихо, которое точно «ляжет на душу» СРЕДИ 80000 АВТОРОВ? А как же мои права – КАК ЧИТАТЕЛЯ? Что – КУШАТЬ ВСЕ ПОДРЯД? Это – какая-то однобокая демократия, больше похожая на разнузданную стихию абсолютно свободного рынка. …Но, это – лирика, так сказать.
Суть в том, что АЛГОРИТМ РАБОТАЕТ!!!
По предыдущим откликам я понял, что перегружать публикации цифрами и научными терминами – «не в коня – корм». Поэтому – только сухой остаток.
Распределение авторов дневного потока по категориям «Любитель» - «Ученик» - «Профессионал» - «Мастер» - «Элит» - «Супер» - «Абсолют».
«Любитель» - ************************ (23.7%)
«Ученик» - *********************************** (35.3%)
«Профессионал» - ****************************** (30.8%)
«Мастер» - ******** (8%)
«Элит» - ** (1.5%)
«Супер» - * (0.7%)
«Абсолют» - (0%).
ЕСТЕСТВЕННО, что коэффициенты НАДО ПРАВИТЬ – все замечания ОБЯЗАТЕЛЬНО УЧТУ – форма графика ЕСТЕСТВЕННО, должна быть ИНОЙ.
Я сейчас НЕ ОБ ЭТОМ! АЛГОРИТМ РАБОТАЕТ!!!
Я взял ссылки категории «Элит» и «Супер» - и ПОЧИТАЛ… Это – ЧТО-ТО!!! Методом «научного тыка» я бы этих авторов В ЖИЗНИ НЕ НАШЕЛ!
А рецензии какие! «Эх, мне б так...», «Вoт этo дa!», «Я прoстo в aуте…»…
КОРОЧЕ : Алгоритм – ДОРАБОТАЮ. Но первые результаты – есть, по крайней мере – мне нравится.
***************************
4. Корректировка параметров «прочесывания потока» (04-11-2005)
***************************
Как и обещал, публикую результаты «прочесывания» дневного потока с помощью СКОРРЕКТИРОВАННОГО алгоритма оценки РЕЙТИНГА автора.
Теория алгоритма изложена в «Статистике…» и «Статистике-2..». Результаты первого «прочесывания» - «Статистике-3..». Ссылки – не даю. Кому интересно будет – сам найдет.
По предыдущим откликам я понял, что перегружать публикации цифрами и научными терминами – «не в коня – корм». Поэтому – только сухой остаток.
Отреагировал на ТРИ СУЩЕСТВЕННЫХ ЗАМЕЧАНИЯ :
1. Некорректно выбраны названия категорий рейтинга.
2. Некорректно учитывалось число полученных рецензий.
3. Не учитывалось время существования страницы автора.
Категории рейтинга.
БЫЛО :«Любитель» - «Ученик» - «Профессионал» - «Мастер» - «Элит» - «Супер» - «Абсолют».
ТЕПЕРЬ : «Лемминг» – «Кролик» – «Сайгак» - «Вепрь» - «Зубр» – «Мастодонт» – «Динозавр».
Ныне ни у кого не возникнет желания произнести фразу типа «А я знаю еще одного автора ЭЛИТ-КЛАССА, который в рейтинг не попал».
Число полученных рецензий.
Ныне число читателей и число полученных рецензий просто суммируются
Время существования страницы.
Для приведения оценки к некому универсальному относительному показателю используется метод моделирования потока откликов на стихо по схеме «убывающего интереса, распределенного во времени» :
-----*-----*-----*----
-----**----**----**---
-----***---***---***--
-----****--****--****-
ДНИ 1 2 3 4 5 6 7 8 9 10 …
По вертикали – число читателей (в процентах).
Такая схема – ОЧЕНЬ близка к действительности. В любом случае – МАКСИМУМ ОТКЛИКОВ ПРИХОДИТСЯ НЕПОСРЕДСТВЕННО НА ПЕРИОД ПУБЛИКАЦИИ.
Вычисляется (С УЧЕТОМ МОДЕЛИ) значение одного показателя – СУММАРНОЕ ЧИСЛО ЧИТАТЕЛЕЙ И РЕЦЕНЗИЙ В ДЕНЬ ПУБЛИКАЦИИ (естественно полученное значение получается МЕНЬШЕ ОБЫЧНОГО ОТНОШЕНИЯ числа читателей и числа произведений.
Зато – позволяет сравнивать авторов С РАЗНЫМ ВРЕМЕНЕМ ЖИЗНИ НА САЙТЕ.
Результаты тестирования таковы (цифры – номер КАТЕГОРИИ РЕЙТИНГА)
По горизонтали - месяцы существования страницы автора
По вертикали - параметр, вычисляемый на основе числа читателей, полученных рецензий, числа произведений и времени существования страницы.
Самая близкая аналогия для этого параметра следующая : ЕСЛИ РАСПОЛОЖИТЬ ВНУТРИ ПЕРИОДА СУЩЕСТВОВАНИЯ СТРАНИЦЫ ВСЕ ПРОИЗВЕДЕНИЯ АВТОРА РАВНОМЕРНО, ТО С УЧЕТОМ УМЕНЬШЕНИЯ ИНТЕРЕСА К СТИХО В ДЕНЬ ПУБЛИКАЦИИ ПРИДЕТСЯ НЕКОЕ ПИКОВОЕ ЧИСЛО ЧИТАТЕЛЕЙ.
Формулу привести - не могу, это значение - не вычисляется по формуле, работает некий "сходящийся" алгоритм, это не прямая задача - ОБРАТНАЯ.
МЕСЯЦЫ
----12345678901-12345678901-12345678901-12345678901-
--1.1-*--------!-----------!-----------!-----------!
--2.1-*2---22--!-----------!-----------!.(25%-35%).!
--3.1-*2---2---2---------2-!-----------!..КРОЛИК...!
--4-11*2---2--2!22-------2-!-----------!-----------!
--5.11---------!-----------!-----------!-----------!
--6.11*----3---3-3-3----3-3!-----3--3--!-----------!
--7.11*3-3-----!--------33-!-----------!-----------!
--8.1-*3----3--3----3--3---!---33------3-----------!
--9.11*---3----!-----------!------3-3--!-----------!
-10.-1*********************************************!
-11.11*-----4--!----------4!-----------!-(10%-15%)-!
-12.1-*--4-----!4-----4----!-----------!..САЙГАК...!
-13.-1*--------!-----------!-----------!----4------!
-14.--*-----4--!------4----4--4--------!-----------!
-15.***--------!-----------!-----------!-----------!
-16...*--------!-----------!-----------!-----------!
-17.0.*--------!-----------!-----------!--4--------!
-18...*-----4--!-----------!-----------!-----------!
-19...*--------!-----------!-----------!-----------!
-20...*********************************************!
-21...*----5--5!-----------!-----------!--(5%-6%)--!
-22....*-------!---------5-!-----------!...ВЕПРЬ...!
-23....*-------!-----------!-----------!-----------!
-24....*-------!-----------!-----------!-----------!
-25....*-------!-----------!-----------!-----------!
-26.....*------!-----------!-----------!-----------!
-27.....*---5--!-----------!-----------!-----------!
-28.....*------!-----------!-----------!------5----!
-29......*-----!-----------!-----------!-----------!
-30......********************************5*********!
-31.......*----!-----------!-----------!--(.1%)---!
-32.......*----!-----------!-----------!.МАСТОДОНТ.!
-33........*---!-----------!-----------!-----------!
-34........*---!-----------!-----------!-----------!
-35.........*--!-----------!-----------!-----------!
-36.........*--!-----------!-----------!-----------!
-37..........*-!-----------!-----------!-----------!
-38..........*-!-----------!-----------!--------6--!
-39...........*!-----------!-----------!-----------!
-40............************************************!
-41.............*----------!-----------!---(0%)----!
-42..............*---------!-----------!.ДИНОЗАВР..!
-43...............*--------!-----------!-----------!
-44................*-------!-----------!-----------!
-45.................*------!-----------!-----------!
-46..................*-----!-----------!-----------!
-47...................*----!-----------!-----------!
-48....................*---!-----------!-----------!
-49......................*-!-----------!-----------!
-50........................*-----------!-----------!
Как и ожидалось – больше всего –“Леммингов”, более 50%.
Из побочных результатов самый интересный следующий :
Выявлены ряд страниц, авторы которых регулярно проводят операцию “ОМОЛОЖЕНИЯ СТРАНИЦЫ” – либо удаления старых стихо (что, в общем, не наказуемо), либо – что уже на грани корректного поведения – ПЕРЕПЕЧАТКА МАТЕРИАЛА ПАЧКАМИ (с сохранением числа читателей).
В этом случае – стихо проходит НЕСКОЛЬКО ПУБЛИКАЦИЙ.
Именно для этого – “слепая зона” на графике. Таких авторов я просто УДАЛИЛ ИЗ ПОТОКА.
***************************
5. Итоговые результаты тестов «прочесывания потока» (07-11-2005)
***************************
ИТОГОВЫЕ РЕЗУЛЬТАТЫ тестирования алгоритма автоматического определения рейтинга автора сайта.
Теория алгоритма изложена в «Статистике…» и «Статистике-2..». Результаты первых «прочесываний» и процесса устранения замечаний - в «Статистике-3..», «Статистике-4..» и «Статистике-5..». Ссылки – не даю. Кому интересно будет – сам найдет.
1. Алгоритм определяет УСПЕШНОСТЬ автора в координатах «предложение / спрос». НЕ БОЛЕЕ ТОГО. Ни о какой оценке творческой значимости речь не идет.
2. Алгоритм составлен так, чтобы ИСКЛЮЧИТЬ ВЛИЯНИЕ АНОНСОВ на результаты тестирования.
3. Объективность оценок, формируемых алгоритмом определяется тем, что в ходе оценки используются следующие параметры :
- p1 - число читателей;
- p2 - число опубликованных произведений;
- p3 - число полученных рецензий;
- p4 - число дней существования страницы автора;
- наличие «пикового выброса» числа читателей и числа полученных рецензий.
Анализируются три параметра :
К1 = (р1 + р3) / р2;
К2 = р4 / р2;
К3 = р4 / 30
«Отсечка» анонсов выполняется в два этапа.
1. Для приведения оценки к некому универсальному относительному показателю используется метод моделирования потока откликов на стихо по схеме «убывающего интереса, распределенного во времени» (вычисляется значение К22 - СУММАРНОЕ ЧИСЛО ЧИТАТЕЛЕЙ И РЕЦЕНЗИЙ В ДЕНЬ ПУБЛИКАЦИИ с учетом принятой модели). В данном случае публикация – вещь УСЛОВНАЯ (см. «Статитика-4..» и см. «Статитика-5..»).
К2 используется в модели "убывающего интереса" (см. указанные выше документы).
2. Не участвуют в оценке авторы, у которых К3 меньше (0.024 * К1 * К1 – 0.96 * К1 + 12). Параметры формулы получены эмпирическим путем с помощью обработки выборки нескольких последовательных дневных потоков публикаций
ВСЕГО категорий в рейтинге – 8.
Лемминг : К22 меньше 10 при ограничениях модели публикаций ПО ВРЕМЕНИ.
Кролик : К22 меньше 10 за исключением «Леммингов».
Сайгак : 11..К22..20 при ограничениях модели публикаций.
Вепрь : 21..К22..30 при ограничениях модели публикаций.
ЗУБР : 31..К22..40 при ограничениях модели публикаций.
МАСТОДОНТ : 41..К22..50 при ограничениях модели публикаций.
ДИНОЗАВР : К22 больше 50.
НЕ ИСПОЛЬЗОВАНО : ограничение для К3 в алгоритме «отсечки».
Результаты тестирования нескольких дневных потоков (процент авторов по каждой категории) С УЧЕТОМ ВСЕХ ВЫШЕУКАЗАННЫХ КОРРЕКТИРОВОК алгоритма следующие :
Лемминг : *************** (30%)
Кролик : ******************** (40%)
Сайгак : ********** (20%)
Вепрь : ** (5%)
ЗУБР : (1%)
МАСТОДОНТ : (1%)
ДИНОЗАВР : (0%)
НЕ ИСПОЛЬЗОВАНО : ** (5%)
Категория «ЗУБР» - найден один автор – С.Захаров (zahar)
Категория «МАСТОДОНТ» - найден один автор – Игорь Белкин (prioritet)
«Вепрей» - тоже – НЕМНОГО, но имен не указываю, поскольку будет выглядеть как реклама.
ЗУБРЫ и МАСТОДОНТЫ – вне конкуренции.
ЗАЧЕМ Я ВСЕ ЭТО ПИШУ?
Меня интересовала одна задача – автоматический поиск в дневном потоке авторов, «ДОСТОЙНЫХ ВНИМАНИЯ». Я эту задачу РЕШИЛ.
Категория «Вепрь» - «молодые» (по значению параметра К22), «агрессивные», активно печатающиеся авторы, упорно идущие к границе категории «ЗУБР».
Их имена можно было бы огласить ПОСЛЕ СООТВЕТСТВУЮЩЕГО ТЕСТИРОВАНИЯ заинтересованной аудиторией.
МОГУ взять НА СЕБЯ разработку МАТЕМАТИКИ ПРОЦЕССА ТЕСТИРОВАНИЯ (без отсебятины, с использованием ТОЛЬКО ПРОВЕРЕННЫХ МЕХАНИЗМОВ теории распознавания образов и принятия решений в условиях неопределенности).
ЭТО КОМУ-НИБУДЬ , кроме меня, ИНТЕРЕСНО?
Свидетельство о публикации №105112801510
танцевали краковяк,
Вепрь, Зубр и Мастадонт
рейтин прятали под зонт,
ну а Путник Михаил
это всё определил!
Разве времени не жалко?
Все же знают - сайт есть свалка!
:-)
С уважением!
Дмитрий Тиме 11.09.2006 18:31 Заявить о нарушении
Это часто один человек!
Прав ли Гек? Иль прав Чук?
Знает только Кравчук
Сколько здесь на Стихире тыщ «чек»!
:-)
Дмитрий Тиме 18.09.2006 09:48 Заявить о нарушении