Мій сайт
Головна » 2011 » Березень » 13 » Побажання Яндексу
13:15
Побажання Яндексу
За більш ніж рік роботи наших сайтів, у нас з'явилися такі побажання Яндексу, які можуть зробити роботу цієї пошукової системи більш дружелюбною до інтернет-сайтам які вона індексує.
За кожним з цих побажань коштує окрема історія, яка аргументує його важливість, крім того, багато хто з цих побажань досить просто виконати.

Використовуйте достатньо великий Сrawl-delay «за замовчуванням»
Одного разу у нас впав сайт, як виявилося робот YandexSomething скачував до 12 сторінок в секунду. Та у нас не було сrawl-delay, але це не повинно дозволяти роботу пошукової системи робити так багато запитів в секунду, установка цього параметра за замовчуванням хоча б в 1 секунду дозволила б уникнути таких проблем, ті хто хочуть швидше можуть налаштувати цей параметр, але сайти не знають про існування YandexSomething не повинні страждати від цього.

Розділяйте User-agent: YandexSomething і Yandex/1.01.001
Нашої реакцією на DoS атаку робота було заборонити його в robots.txt, тим більше що пошукавши ми виявили що це якийсь новинний бот. Це було логічно, але як виявилося дуже нерозумно. Отже (до речі про це побічно зазначено в документації) це призвело до того, що нас перестав відвідувати і Yandex/1.01.001 (Yandex/1.03.003 ходив справно). Про це ми дізналися через тиждень від наших користувачів, в результаті сайт був викинутий з Яндекса. Трафік почав падати з затримкою в 5-6 днів і тому ми не могли виявити дану помилку. Варто зазначити що служба підтримки визнала нелогічність даної поведінки і обіцяли виправитися. Крім того gray в твіттері підказав, що правильніше поставити crawl-delay, що я і зробив.

Враховуйте час віддачі контенту, навіть якщо стоїть crawl-delay
У нас на сайті крім головного домену example.net використовуються піддомени виду компанія.example.net, навіть встановивши Сrawl-delay ми не убезпечить від DoS атаки роботів так як robots.txt і відповідно Сrawl-delay буде різним для всіх піддоменів (а їх десятки тисяч в нашому випадку) і, формально, робот має право покласти сайт з будь-яким значенням затримки заходячи на 10 000 сайтів одночасно. Сьогодні вночі наш сайт кілька разів перезавантажився саме з цієї причини, тому що кількість запитів в секунду втричі перевищувало Сrawl-delay. Не знаю як, але Google робить все коректно і мало того що не навантажує сильно сервер, так ще й завантажує сторінки рівномірно, мені здається він враховує час віддачі контенту і не запитує паралельно багато сторінок з однієї IP адреси, чому б не спробувати робити це Яндексу ?

Завантажуйте сторінки рівномірно
У нашому випадку, робот заходить на основний домен вкрай нерівномірно. Виглядає це так: робот заходить на основний домен, кілька годин дуже активно індексує і потім іде на 10-30 годин обробляти піддомени. Так як на сайт постійно додається інформація, у нас є спеціальні сторінки з останніми оновленнями, з яких є посилання на новий контент. Зрозуміло що заходячи раз на 10-30 годин робот пропускає багато чого, і це призводить до скарг користувачів, що їх сайти часом не з'являються в індексі Яндекса місяцями. Знову ж таки Google за пару місяців знайшов ці сторінки і регулярно їх викачує, як результат дуже рідко проходить більше 3-х днів до індексації. Зрозуміло що місяць для того щоб Яндекс поіндексіровал сайт це не термін, але і з цим думаю можна боротися.

Будьте більш лояльними і передбачуваними по відношенню до нових сайтів
Всі колись починали, і не на всіх були відразу посилання з топ сайтів, в нашому випадку Яндекс знадобилося більше 2-х місяців щоб почати індексувати основний домен , і це почалося тільки після листування з службою підтримки, судячи з досвіду колег це звичайна справа, навіть не дивлячись на унікальний контент і наявність зовнішніх посилань. Знову таки і тут Google веде себе більш дружелюбно, він доданий нас майже відразу, і поступово рівномірно підвищував кількість сторінок і швидкість індексації, та ми були не високо в пошуку, але ми там були і все розвивалося передбачувано.

Метою цього списку було не показати що Яндекс поганий а хтось хороший. Яндекс - це лідер пошуку в рунеті, напевно найбільш технологічний і успішний проект і це багато що означає, в тому числі і те що багато хто вважає його пошук гарним, не кажучи вже про те, що наявність альтернативи завжди краще ніж її відсутність. Просто хочеться щоб Яндекс став ще краще, і більш відповідально ставився до сайтів, існування яких багато в чому залежить від нього. Тим більше мені здається це не дуже складно.

Я думаю у багатьох читачів є що доповнити до цього списку. Можливо було б непогано, якби Яндекс реалізував можливість посилати feature request з обговоренням і голосуванням, краще від цього стало б усім. А поки це можна зробити в коментарях.

Заздалегідь дякую Яндексу, якщо що-небудь з цього списку буде почуто і реалізовано.
Переглядів: 462 | Додав: w1zard | Рейтинг: 0.0/0

Категорії розділу

Події [3]
Тільки екстренні та надзвичайні новини
Світові події [4]
Останні події, що трапились у світі.
Українські події [8]
Події, які трапились в межах нашої державии, чи стосуються України
Бізнес [3]
Новини та події із бізнес-світу
Наука і техніка [3]
Новини, що трапились у світі науки або технічних досліджень
Спорт [1]
Спортивні новини та досягнення
Культура та мистецтво [2]
Новини культурного та художнього світу
Форма входу

Наше опитування

Оцініть мій сайт
Всього відповідей: 47

Друзі сайту

Статистика


Онлайн всього: 1
Гостей: 1
Користувачів: 0