Объем Рунета от Nigma


Объем Рунета от Nigma

В пресс-релизе, выпущенном сегодня, участники проекта Nigma.ru сообщили свою оценку количества документов в Рунете. Оценка проводилась путем сравнения объемов выдачи всех поисковых систем с выдачей эталонной системы, о которой известны данные по размеру базы. Результат, оглашенный в пресс-релизе таков - по состоянию на 16-е мая 2005 годв в Интернете имеется примерно 1 миллиард 52 миллиона 227 тысяч 229 русскоязычных документов.
Виктор Лавренко, руководитель проекта Nigma.ru, комментирует полученный результат:
- Это вторая попытка группы посчитать размер Рунета - первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. "устойчивостью" - при изменении некоторых параметров, оценка количества документов не колебалась около т.н. "равновесного решения", а резко изменялась. Новый алгоритм лишен этого недостатка.
- Как учитывалось наличие дублей в выдачах систем?
- Склейка дублей первоначально была организована по url и заголовкам, но большого отличия от простой склейки по url алгоритм не давал, поэтому мы пренебрегли этим фактором - это допустимо было сделать, т.к. используя частотный словарь, мы выбирали достаточно редкие документы, у которых мало дублей.
- А насколько большое количество документов, по вашей оценке, не проиндексировано вообще ни одной системой - и не попало в сообщенное вами число?
- По косвенной оценке, оно может составлять от 20 до 30 процентов от названного нами числа - т.е. 200-300 миллионов документов.
Напомним, что объем базы Яндекса на данный момент составляет 683 406 837 уникальных документа - таким образом, можно говорить, что реально Яндекс проиндексировал лишь половину (с учетом непроиндексированных вовсе документов) Рунета. Объем базы Рамблера системой не разглашается.

Рунет и дизайн >>


Дата публикации: 27/08/2005


По материалам "Nigma.ru"все новости  › › ›