Сканирование большого сайта с помощью Screaming Frog

Техно и ценовая сторона, есть 2 оси:
Оперативная память: чем больше, тем лучше!
64 бита иначе ничего
Настройка файла ScreamingFrogSEOSpider.l4j.ini
Фильтруйте полезные и ненужные URL
Игнорировать страницы в noindex
Не переходите по ссылкам в nofollow
Респект robots.txt
Ограничить глубину URL-адресов
Пропустить интеграцию Google Analytics и консоли поиска
Сегментация сайта
Обратите внимание также на ресурсы веб-сервера!
Переместите Кричащую Лягушку в облако

Вспомните для тех, кто попал в SEO, полезность сканера: это программа (онлайн-сервис или «бот»), которую просят просмотреть сайт с ссылками для сбора урожая. все данные, используемые в SEO (заголовок, мета, размер, количество исходящих ссылок, глубина и т. д.). Существует множество бесплатных услуг «все включено», где лучше не иметь морских ежей в карманах. В любом случае, сканер необходим, если вы хотите проанализировать сайт.

Техно и ценовая сторона, есть 2 оси:

Настольные решения , которые являются традиционными приложениями, установленными на его рабочей станции (Screaming Frog является одним из них),
онлайн-решения , иногда называемые «облачными» или «Saas» решениями (программное обеспечение как услуга).

Настольные решения , которые являются традиционными приложениями, установленными на его рабочей станции (Screaming Frog является одним из них), онлайн-решения , иногда называемые «облачными» или «Saas» решениями (программное обеспечение как услуга)

Screaming Frog SEO Spider , безусловно, является звездой сканеров настольных компьютеров. Сделанный SEO для SEO, он очень популярен в сообществе благодаря своему беспрецедентному соотношению цены и качества.
Screaming Frog SEO Spider , безусловно, является звездой сканеров настольных компьютеров
В 95% случаев (эта цифра может варьироваться от одного провайдера / проекта к другому), Screaming Frog будет «проглатывать» любой сайт ... но, учитывая большой проект, поймите более 100 000 URL, сканер быстро обнаруживается при купании нижних зубов: наиболее пресловутые эффекты - прерывание ползания, замедление, вылет, насыщенная оперативная память. В отличие от сканеров Saas, Screaming Frog зависит от производительности вашей машины. Это не масштабируется. И наихудшим является, вероятно, обработка данных позже в Excel, например, где малейшая операция может привести к успеху. На самом деле, первое, что нужно проверить на Screaming Frog, это то, что опция «Пауза при высоком использовании памяти» включена (это по умолчанию), просто чтобы потом сохранить и возобновить сканирование.

На самом деле, первое, что нужно проверить на Screaming Frog, это то, что опция «Пауза при высоком использовании памяти» включена (это по умолчанию), просто чтобы потом сохранить и возобновить сканирование

Но вы увидите, что решения для расширения границ не отсутствуют! Цель этого поста двоякая: ограничить потребление ресурсов Screaming Frog и особенно облегчить экспорт данных, чтобы «заставить их говорить», а затем в Excel (или другой электронной таблице).

Оперативная память: чем больше, тем лучше!

Чем больше область сайта для сканирования, тем больше оперативной памяти потребуется для хранения данных. Если вы запустите Screaming Frog на ноутбуке с менее чем 4 ГБ ОЗУ, ваш просмотр, вероятно, остановится на 40000 URL. Если ваша машина имеет более 4 ГБ ОЗУ, потребуется выполнить некоторую настройку, но будьте уверены, это очень просто.

64 бита иначе ничего

Чтобы использовать более 4 ГБ ОЗУ, ваша среда должна быть «полна 64 битами». В частности, ваша операционная система (особенно Windows) должна быть в 64-битной версии. Но это еще не все, Screaming Frog также придется запускать с версией Время выполнения Java в 64 битах если вы хотите, чтобы ваш любимый гусеничный робот не оставался анорексией! Не волнуйтесь, в Windows 64-битная установка может очень хорошо сосуществовать с 32-битной версией. Но чтобы максимально использовать вашу оперативную память, нужно сделать еще один ...

Настройка файла ScreamingFrogSEOSpider.l4j.ini

Теперь вы должны установить Screaming Frog, чтобы определить выделенную память. В каталоге установки отредактируйте файл ScreamingFrogSEOSpider.l4j.ini: если у вас есть, например, 16 ГБ ОЗУ, поместите -Xmx12g story, чтобы не задыхаться в вашей операционной системе. Внимание, по умолчанию базовое значение фиксируется на раз ромашках, 512 мес ОЗУ!

Теперь, когда ваши слоты памяти работают на постоянном токе, а в ОЗУ установлена небольшая луковица, есть еще множество рычагов для увеличения емкости Screaming Frog и превращения ее в избыток данных. Вы можете даже рассмотреть сайты около миллиона URL-адресов! Теперь вам нужно настроить SF.

Фильтруйте полезные и ненужные URL

Ненужные ресурсы

URL-адрес не обязательно означает HTML-страницу ;-) Я имею в виду, что любой другой ресурс, такой как javascript, image, css и т. Д., Не имеет большого интереса к SEO. На самом деле, если мы попытаемся сэкономить ОЗУ, постарайтесь не загружать зуммер лишними URL-адресами! Но не дайте себя одурачить: недостаточно просто снять все, что не интересно для SEO (img, js, css и т. Д.) В Configuration > Spider > Basic , потому что Screaming Frog будет по-прежнему сохранять URL этих ресурсов , Чтобы сделать это правильно, вам нужно создать правило исключения следующим образом:
В меню « Конфигурация» > « Исключить» добавьте следующие строки (которые должны быть адаптированы при необходимости):
. *. Jpg. *
. *. Jpeg, *.
. *. Png. *
. *. Gif. *
. *. Css. *
. *. Js. *
. *. Zip. *

Если вы привыкли к регулярным выражениям, вы заметите, что я не выбрал формат. * Jpg $, потому что иногда URL-адреса «изображение» представляют собой параметры, как это видно на примере WordPress.

Я по-прежнему рекомендую запустить первый частичный обход, например, 10 или 20%, без каких-либо исключений, чтобы увидеть вызванные ресурсы. Иногда существуют сценарии для отображения изображений, таких как photo.php? Id = xxx, которые не представляют интереса для возможного анализа. В этом случае необходимо добавить правило исключения в разделе « Конфигурация» > « Исключить с (например)». * Photo.php. *.

Игнорировать страницы в noindex

Вы также можете пожертвовать страницы в noindex, выбрав в меню « Spider» > « Advanced » галочку «Respect Noindex» . Если объем важен, он освобождает оперативную память и особенно экспорт в CSV / XLS.

Не упустите крайние эффекты с этой опцией! Страница категории, которая не имеет причин для индексации (дублированный контент и т. Д.), Имеет множество веских причин для использования директивы noindex. Но если мы исключим эти страницы из сканера, будет очень трудно найти страницы, которые в результате! Кроме того, noindex не обязательно связан с nofollow.

Опять же, я рекомендую запустить частичное сканирование, чтобы оценить типологию страниц noindex. Если сценарии стиля form.php или basket.php составляют основную часть URL-адресов в noindex, то будет лучше исключить их, как упоминалось ранее. В любом случае необходимо позаботиться о том, чтобы как можно меньше препятствовать обнаружению страниц сканером (и двигателями!).

Не переходите по ссылкам в nofollow

В целом, если ссылка имеет атрибут nofollow, это означает, что вы не хотите видеть целевую страницу в поисковых системах. Поэтому мы можем без колебаний снять флажки, связанные с nofollow, в разделе « Конфигурация» > « Паук» > « Основные» . Это также помогает приблизиться к «движку зрения» (Googlebot). После того, как я должен признаться, что я часто встречаю издателей, которые без каких-либо различий ассоциируют noindex и nofollow с известными нам последствиями. Поэтому иногда необходимо выполнить сканирование, заставляя SF следить за историей nofollow, чтобы увидеть, не осталось ли там URL-адресов.

Респект robots.txt

Как и упомянутый выше nofollow, мы также можем попросить Screaming Frog следовать инструкциям robots.txt. В некоторых проектах объем URL-адресов, представляемых для запрета, иногда является значительным. Снимите флажок «Показать внутренние URL-адреса, заблокированные Robots.txt» в разделе « Конфигурация» > « Паук» > « Основные» , а также «Игнорировать Robots.txt» . Я до сих пор помню, что этот совет особенно полезен для уменьшения оперативной памяти, но такой вариант может принести больше неоспоримых в обычное время.

Ограничить глубину URL-адресов

Кощунство, что за идея! Сканирование действительно только в том случае, если оно завершено! Ты скажешь мне ...
Конечно! Особенно во время аудита, если мы хотим показать клиенту, что его страницы уровня 6 и + не истощают органический трафик, мы должны собирать их. За исключением того, что все еще есть случаи, когда мы можем применить это ограничение: я неоднократно работал над проектами «дуршлаг», которые генерировали URL с бесконечным циклом, Drupal был моим победителем в этом реестре. Поэтому либо исправьте (быстро) проблему, либо установите предел, меню « Конфигурация» > « Паук» > « Лимит» . Кроме того, мы приближаемся к определенному «видению двигателя», потому что через некоторое время индексирующие роботы обнаруживают бесконечные петли (ловушки пауков) и прекращают ползать.

Эту логику также можно адаптировать к параметру «Ограничить количество строк запроса», другими словами, к параметрам URL, которые накапливаются бесконечно. На сайтах с плохо структурированной URL-архитектурой лучше установить ограничение, особенно когда оно начинается в бесконечном цикле.

Пропустить интеграцию Google Analytics и консоли поиска

Начиная с версий 4 и 5 Screaming Frog, возможно восстановить данные GA и SC благодаря API этих последних. Эта комбинация данных, безусловно, превосходна и ей не хватает SF по сравнению с конкурентами Saas. Но на участках с большим объемом данных фактически увеличивается масса собираемых данных. Мой совет - зайти в тупик при сканировании, но потом восстановить / связать эти данные, например, в Excel (см. Мое руководство по vlookup и супер комбо SEO ).

Сегментация сайта

Это идея, которая имеет смысл, но не является несущественной. Таким образом, мы осуществляем несколько сканирований в соответствии с различными частями сайта: поддомен, блог, каталог и т. Д. На самом деле это решение последней инстанции, чтобы увидеть утопию. Если сайт настолько велик, что придется сегментировать его, все экспорты, анализы, перекрестные проверки, ассоциации и т. Д. Также будут разделены. Лично я не могу так работать. Мне нужен обзор, чтобы получить достоверную статистику. Это не мешает мне впоследствии идентифицировать различные темы / части сайта для публикации сегментированной статистики.
Когда есть несколько миллионов страниц, это уже случилось со мной, поэтому я собираюсь перейти к Saas-решениям, таким как Deepcrawl, например. Но я нахожу его гораздо менее гибким (и более дорогим), чем комбо SF + Excel. У каждого свое дело в конце концов.

Обратите внимание также на ресурсы веб-сервера!

Даже если это немного не по теме, будьте снисходительны к сайту сервера, который вы будете сканировать, особенно если это URL-адреса приемника! Если вы не ограничиваете количество просканированных URL-адресов в секунду, вы рискуете подчеркнуть это или даже поставить на колени. Предпочитаю ночные обходы и обрежьте в Конфигурация > Скорость .

Переместите Кричащую Лягушку в облако

Маневр может показаться интересным: использовать силу облака для запуска Screaming Frog. Amazon и Google предлагают аренду «масштабируемых» виртуальных машин, которые теоретически позволяют SF проглотить любой тип проекта. На эту тему советую почитать это очень подробная статья (EN) подробно объясняет, как продолжить установку.
Если вы хотите, чтобы моя точка зрения, это не вариант для меня. Стоимость и время установки заставляют меня обратиться к таким инструментам в Saas, как Botify или Deepcrawl. Вопрос привычки тоже!

Php?

Обход большого сайта с помощью Screaming Frog