В пресс-релизе, выпущенном сегодня, участники проекта Nigma.ru сообщили свою оценку количества документов в Рунете. Оценка проводилась путем сравнения объемов выдачи всех поисковых систем с выдачей эталонной системы, о которой известны данные по размеру базы. Результат, оглашенный в пресс-релизе таков - по состоянию на 16-е мая 2005 годв в Интернете имеется примерно 1 миллиард 52 миллиона 227 тысяч 229 русскоязычных документов. Виктор Лавренко, руководитель проекта Nigma.ru, комментирует полученный результат: - Это вторая попытка группы посчитать размер Рунета - первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. "устойчивостью" - при изменении некоторых параметров, оценка количества документов не колебалась около т.н. "равновесного решения", а резко изменялась. Новый алгоритм лишен этого недостатка. - Как учитывалось наличие дублей в выдачах систем? - Склейка дублей первоначально была организована по url и заголовкам, но большого отличия от простой склейки по url алгоритм не давал, поэтому мы пренебрегли этим фактором - это допустимо было сделать, т.к. используя частотный словарь, мы выбирали достаточно редкие документы, у которых мало дублей. - А насколько большое количество документов, по вашей оценке, не проиндексировано вообще ни одной системой - и не попало в сообщенное вами число? - По косвенной оценке, оно может составлять от 20 до 30 процентов от названного нами числа - т.е. 200-300 миллионов документов. Напомним, что объем базы Яндекса на данный момент составляет 683 406 837 уникальных документа - таким образом, можно говорить, что реально Яндекс проиндексировал лишь половину (с учетом непроиндексированных вовсе документов) Рунета. Объем базы Рамблера системой не разглашается.
Рунет и дизайн >>
Дата публикации: 27/08/2005
|