Anecdotes search

Поиск анекдотов

Статистика работы поисковой системы расположенной на http://tiger.kulichki.net/an_search.htm

Сразу следует оговориться: речь идет об уникальной программе, не потому, что сложной, а просто никто этим не занимался.

Русскоязычных поисковых систем я знаю штук двадцать, но эта ищет только по своей базе данных. Анекдоты, истории ит.п. База содержит порядка 12М текста. Ограничение на поиск только одно: слово не короче трех букв, дабы ограничить размер вывода. И несколько особенно матерных выражений тоже заблокированы. Итак, обработано порядка 17000 обращений.

Лидирует, разумеется, попытка поиска вообще без ключевого слова: 654 раза. Еще 110 вызовов - с ключами короче трех символов. Следом за ним - вовочка, штирлиц, секс в русском и английском написаниях, новый русский, прочие сильно отстали.

Использованные кодировки (цифры округлены):
Win-1251 15700
KOI8 1020
Транслит 300
866 100
MAC 100
ISO-8859 60










Неправильно заданных ключей было порядка тысячи ста (15.5%). Неправильный в данном случае означает не поиск, дающий пустой вывод, а заведомо неверный ключ. Ошибки заслуживают отдельного разбора...

Грамматические ошибки в словах. Порядка 1800. Непреодолимая преграда. Трудно искать черную кошку в темной комнате, если ее там нет.
Алкаголик
Ананист
Чепаев
Честушки

Ключевые слова, не связанные с темой страницы, то бишь, юмором.
смоленский банк
Кастанеда
служба занятости
поиск работы москва
секс фотографии молодых девочек
секс+связывание
mutual masturbation

Все это - несмотря на здоровенное заглавие "Поиск анекдотов" в начале страницы.

Ключевые слова, заданные транслитом (кому-то было лениво переключать клавиатуру). 2200 обращений. Без комментариев...

Неверно заданные разделители между ключами. Вина автора. Не предусмотрел вероятность сложного поиска.

Ключи в неверной кодировке.
Трудно винить системщика Куличек, вроде, все работает. Автор программы тоже вины за собой не чувствует: проверялось в двух основных кодировках. Кривые руки и плохо настроенный софт у пользователя? Это его вина, но беда - владельца страницы. Рецепта нету.

Мораль: во всякой поисковой системе на заглавной странице должна быть соответствующая информация фонтом размера не меньше H3. Причем, не оставляющая возможности двух толкований.

Попыток сложных запросов: около ста пятидесяти. К сожалению, сложные запросы не поддерживаются. По той причине, что за полтора года существования страницы никто не попросил их реализовать.

Некоторые запросы удивляют своей фантазией.
xxx вас Василий иванович
Чивильдеев
девелопмент
еврейский пароход
заяц разодранным очком
Елена Львовна
PIZDA00654
славик свинья корова попугай
гусарские баллады

Неужели кто-то всерьез предполагал, что бывают анекдоты с подобными словосочетаниями?

60 наиболее часто встречающихся ключевых слов

василий иванович 00027
жена 00027
ржевский 00027
футбол 00027
свадьба 00028
армян 00029
винни 00029
медицина 00029
нарк 00029
любовник 00031
спорт 00031
холмс 00031
хакер 00032
школа 00032
гаи 00033
поручик 00033
русский 00033
брежнев 00035
негр 00035
прапорщик 00037
пятачок 00037
врач 00039
рабинович 00039
доктор 00040
заяц 00040
петька 00040
ежик 00043
пиво 00046
хохол 00047
ё 00049
новый 00050
штирлиц 00050
евреи 00051
жопа 00052
пизда 00054
программист 00054
компьютер 00056
марта 00058
теща 00060
vovochka 00062
ленин 00062
армия 00065
студент 00065
вовочка 00067
любовь 00068
xxx 00079
ельцин 00082
наркоман 00085
еврей 00087
грузин 00089
новые русские 00091
ржевский 00098
хуй 00107
чапаев 00108
чукча 00129
новый русский 00153
sex 00222
секс 00237
штирлиц 00263
вовочка 00325
















































































Выводы:

  • преобладающие в поиске слова - из предлагаемого пользователю списка наиболее вероятных ключей.
    Этот список был в свое время аннулирован, чтобы подстегнуть фантазию юзера. Тем не менее, Вовочка и Штирлиц остались любимы народом.
  • Проблема неверного написания слов несущественна: получив пустой вывод, поневоле заподозришь грамматическую ошибку.
  • Если пользователю дается хотя бы минимальная свобода помимо нажатия кнопок, будут совершены все возможные ошибки и еще парочка, которые автор и представить себе не мог. Посему, инструкция должна быть четкой и исчерпывающей, как устав караульной службы.
    Виктор Болотников, tiger@kulichki.com