— Как индексировать сайт в Google? Как работает поиск Google?
Чтобы ответить на вопрос, как индексировать сайт в Google, нужно понять принцип работы Гугл поиска.
В Интернете постоянно появляются миллионы новых страниц. Для того, чтобы Google нашел их, понял, какую информацию они предлагают, и занес эту информацию в свою базу, разработана специальная программа – поисковый робот, задачами которого являются сканирование (изучение) страниц и их индексирование.
Сканирование осуществляет робот Googlebot (еще одно его название — «паук»).
Прежде чем новая страница появится в результатах поиска, она должна пройти три этапа:
- Сканирование
- Индексирование
- Ранжирование
В этой статье я расскажу о сканировании и индексировании. О ранжировании нужно писать не одну, а много статей. Это объемная тема.
А сейчас посмотрим, что такое сканирование и как индексировать сайт в Google.
Сканирование
Googlebot постоянно обходит Интернет, он ищет новые или измененные страницы. Робот переходит на них по ссылкам, используя следующие источники:
- файлы sitemap.xml
- ссылки с других страниц
- редиректы (перенаправления).
Некоторые сервисы (например, Wix и Blogger) сами сообщают Google о добавленных или измененных страницах.
Поисковик сканирует их, анализируя контент (текстовый и нетекстовый), а также дизайн. В результате бот устанавливает, по каким поисковым запросам конкретную страницу можно будет показывать пользователям.
Правила, которые обязательно нужно выполнить для того, чтобы сканирование было эффективным:
1. На каждую страницу сайта прописать хотя бы одну ссылку с другой страницы, уже проиндексированной роботом.
2. В анкор (текст) ссылки добавить ключевые слова страницы, на которую сделана ссылка.
3. Если ссылка проставлена с изображения, прописать alt (подпись к картинке) с описанием изображения.
4. Предоставить доступ к страницам ресурса. Это значит:
- Не блокировать правилами файла robots.txt страницы, изображения, файлы CSS и т.д.
- Не использовать авторизацию для входа на сайт. Googlebot не сможет просканировать сайт или отдельный каталог, если для входа нужны авторизация и пароль. В то же время, с помощью пароля можно скрыть конфиденциальные данные от поисковой системы Google.
- Проверить время загрузки сайта. Долгое время загрузки приведет к тому, что роботы прекратят его сканирование. Время ответа сервера, по рекомендации Google, должно составлять менее 200 миллисекунд.
- Создать и отправить в Google файл sitemap.xml. В нем содержится информация о страницах, видео, изображениях и т.д.
5. Использовать ЧПУ (человекопонятные url).
Между процессами сканирования и индексирования робот ищет возможные дубликаты между новой или измененной страницей и другими страницами ресурса, проиндексированными ранее. Дубликаты сканируются гораздо реже. Их робот объединит в один документ, выберет одну каноническую (основную) и будет сканировать ее намного чаще, чем все остальные копии.
Индексирование
После того, как страница обнаружена (просканирована), Google анализирует ее контент, систематизирует изображения и видео. Этот процесс называется индексированием, потому что вся информация хранится в базе данных Google, то есть в индексе. Непроиндексированные страницы ресурса в поиске показаны не будут.
Чтобы добиться эффективного индексирования, сделайте следующее:
- Основную часть материалов сайта представьте в виде текста, потому что быстрее и точнее Google обрабатывает текстовый формат.
- Googlebot может распознать некоторые видео и изображения. Но для повышения эффективности индексирования, добавьте к ним текстовое описание.
- Составьте для каждой страницы информативный и уникальный title (заголовок), добавьте в него ключевые слова. Избегайте дубликатов title на сайте, неточных и слишком длинных заголовков. Заголовок должен легко читаться и соответствовать содержанию страницы. В него можно добавить бренд фирмы или название ресурса, адрес, направления деятельности. Содержание title может появиться в результатах поиска Google.
- Внедрите на сайт микроразметку
- Заблокируйте в robots.txt страницы, на которые можно вносить изменения: корзину покупок, создание аккаунтов и т.д.
- Переведите сайт на безопасный протокол https.
- Проверьте, кроссбраузерность (ресурс должен одинаково хорошо открываться в разных браузерах).
- Проверьте мобильную версию ресурса и скорость ее загрузки, потому что теперь сканирование и индексирование осуществляет, в первую очередь, Googlebot для смартфонов.