robots.txt и sitemap.xml простыми словами

Вы вложились в сайт, наняли подрядчика, написали тексты про свои услуги — а поисковый трафик почему-то не растёт месяцами. Проверяете позиции, донастраиваете рекламу, а органики как не было, так и нет. Причина иногда прячется в паре скромных файлов, о которых владелец бизнеса обычно даже не слышал: robots txt и sitemap.xml. Эти файлы управляют тем, как поисковый робот ходит по вашему сайту — и если в них ошибка, Яндекс и Google могут вообще не показывать ваши страницы в выдаче. Давайте разберёмся, что это за файлы, зачем они нужны и что вам как собственнику важно про них знать.

Кто такой поисковый робот и почему ему нужны инструкции

Представьте, что к вам на объект приезжает новый сотрудник, который никогда тут не был. Ему нужно быстро понять: куда идти можно, куда нельзя, где склад, а где закрытая бухгалтерия. Без плана он либо будет ходить кругами, либо забредёт туда, куда посторонним не надо.

Поисковый робот (его ещё называют «краулер» или «паук») — это программа, которая обходит страницы сайтов, читает их и решает, что добавить в базу поисковика. Именно из этой базы потом складывается выдача, где вас находят клиенты. Робот заходит на сайт тысячи раз, но время и внимание у него ограничены. Чтобы он не тратил силы впустую и не лез куда не надо, ему оставляют два «служебных документа» — robots.txt и sitemap.xml.

robots.txt — инструкция «куда можно, куда нельзя»

Это простой текстовый файл, который лежит в корне сайта по адресу site.ru/robots.txt. Открыть его может кто угодно — попробуйте прямо сейчас подставить свой домен. Внутри — несколько строк, которые говорят роботу, какие разделы обходить, а какие обходить не нужно.

Зачем вообще что-то закрывать? На любом сайте есть страницы, которым в поиске делать нечего:

  • служебные и технические разделы (админка, страницы входа);
  • корзина и оформление заказа в интернет-магазине;
  • результаты внутреннего поиска по сайту;
  • дубли — одна и та же страница, доступная по нескольким адресам;
  • всякий мусор вроде страниц с метками рекламных ссылок.

Если всё это отдать роботу, он потратит своё ограниченное внимание на бесполезные страницы вместо ваших услуг и статей. А дубли ещё и путают поисковик: он не понимает, какую из одинаковых страниц показывать. Поэтому в robots.txt пишут строчки вида Disallow: /cart/ — «в корзину не заходи». Это как таблички «служебное помещение» на дверях: клиенту туда не надо, значит и роботу тоже.

sitemap.xml — карта сайта для робота

Второй файл — это карта. Лежит обычно по адресу site.ru/sitemap.xml. Внутри — список всех важных страниц вашего сайта, которые вы хотите видеть в поиске. По сути это оглавление: «вот все мои услуги, вот статьи, вот страница контактов, заходи и забирай».

Зачем это нужно, если робот и так умеет ходить по ссылкам? Затем, что по ссылкам он может добраться не до всего и не сразу. Свежая страница, на которую пока мало внутренних ссылок, может ждать своей очереди неделями. А если она есть в карте сайта — робот узнаёт о ней сразу и приходит быстрее. Особенно это важно для новых сайтов и для тех, где регулярно появляются новые материалы: карточки услуг, статьи блога, кейсы.

Важно не путать: sitemap.xml — это карта для робота, машинный список адресов. Есть ещё «карта сайта» в виде обычной страницы с ссылками для людей — это другое. Нам сейчас интересна именно XML-версия.

Как эти два файла работают вместе

По отдельности каждый полезен, а вместе они образуют аккуратную систему для индексации — то есть для попадания ваших страниц в поиск.

  1. Робот заходит на сайт и первым делом читает robots.txt — узнаёт, куда ему нельзя.
  2. Там же, в robots.txt, обычно указана ссылка на sitemap.xml — робот берёт карту.
  3. По карте он быстро обходит все нужные страницы, не тратя время на закрытые разделы.

Получается разумное распределение: robots.txt отсекает лишнее, sitemap.xml показывает главное. В итоге робот тратит своё внимание там, где вам это выгодно — на страницах, которые должны приводить клиентов.

Одна строка, которая закрывает весь сайт

А теперь про самую опасную ошибку. В robots.txt есть строчка, которая способна убрать из поиска весь ваш сайт целиком:

Disallow: /

Один символ «/» — и это уже не «не заходи в корзину», а «не заходи никуда». Робот честно разворачивается и уходит. Ваши страницы постепенно вылетают из выдачи, трафик падает до нуля, а вы можете месяцами не понимать почему — ведь сайт открывается, работает, всё вроде на месте.

Откуда берётся эта строка? Чаще всего это забытая настройка. Когда сайт разрабатывают, его специально закрывают от индексации, чтобы поисковик не показывал недоделанную версию. Это нормально и правильно. Проблема в одном: перед запуском этот запрет нужно снять — а про него забывают. Сайт уходит в бой закрытым.

Живой пример: полгода в тишине

Небольшая компания заказала новый сайт — студия ремонта квартир. Сделали красиво: услуги, портфель работ, отзывы, форма заявки. Запустили, параллельно включили контекстную рекламу. Реклама приносила заявки, все были довольны.

Через полгода владелец решил снизить расходы на рекламу и посмотрел, что там с бесплатным поиском. А там — ноль. Сайт не находился вообще ни по одному запросу, даже по названию компании. Позвали специалиста, тот открыл site.ru/robots.txt — и в первой же строке увидел Disallow: /. Тот самый запрет с этапа разработки, который забыли убрать.

Убрали одну строку — и через несколько недель страницы начали появляться в выдаче. Но полгода органического трафика были потеряны безвозвратно, а всё это время бизнес переплачивал за рекламу то, что мог бы частично получать бесплатно. Вся беда — из-за одного символа, который никто не проверил.

Что проверить вам лично, без специалиста

Хорошая новость: чтобы застраховаться от самой дорогой ошибки, глубокие знания не нужны. Достаточно нескольких простых проверок, которые под силу любому владельцу.

  • Откройте site.ru/robots.txt в браузере (подставьте свой домен). Если видите строку Disallow: / без ничего после слэша — бейте тревогу, зовите подрядчика, сайт закрыт от поиска.
  • Откройте site.ru/sitemap.xml. Должен открыться список адресов или ссылка на него. Если страница не открывается совсем — карты сайта нет, стоит попросить её настроить.
  • Загляните в Яндекс.Вебмастер и Google Search Central. Это бесплатные панели для владельцев сайтов. Там прямо показано, сколько страниц в поиске и нет ли ошибок с robots.txt или картой сайта. Если страниц в индексе подозрительно мало или ноль — это сигнал.

Ещё проще: наберите в поиске site:ваш-домен.ru (без пробела после двоеточия). Поисковик покажет, какие ваши страницы он знает. Пусто — повод разбираться.

Нужно ли вам самому редактировать эти файлы

Нет. И это, пожалуй, главная мысль. Настройка robots.txt и sitemap.xml — работа технического специалиста. Одна неверная строка тут, как мы видели, стоит месяцев трафика, так что экспериментировать вручную не стоит.

Но знать про эти файлы вы обязаны. Разница как с бухгалтерией: вы не сводите баланс сами, но понимаете, что он есть, зачем нужен и по каким признакам видно, что что-то не так. Точно так же и здесь — вы не пишете код, но умеете открыть два адреса и задать подрядчику правильный вопрос. Этого достаточно, чтобы вас не подвели по-тихому.

Типичные ошибки и мифы

  • Миф: «robots.txt защищает закрытые страницы от посторонних». Нет. Это просьба к добросовестным роботам, а не замок. Секретные данные так не прячут — для этого есть пароли и настройки доступа.
  • Миф: «карта сайта гарантирует, что все страницы попадут в поиск». Нет. Она ускоряет обход и подсказывает роботу, но решение показывать страницу или нет поисковик принимает сам, по качеству контента.
  • Ошибка: закрыть в robots.txt то, что должно быть в поиске. Иногда по неосторожности закрывают целый раздел услуг — и он пропадает из выдачи, хоть остальной сайт работает.
  • Ошибка: карта сайта устарела. В ней старые адреса, а новых страниц нет. Робот ходит по несуществующим ссылкам. Карта должна обновляться автоматически.
  • Ошибка: два файла противоречат друг другу. Страница есть в карте сайта, но закрыта в robots.txt. Робот получает взаимоисключающие команды и запутывается.

Короткий вывод и что делать дальше

robots.txt и sitemap.xml — два скромных файла, от которых зависит, увидит ли вас поиск вообще. Первый говорит роботу, куда не ходить, второй показывает, что обойти в первую очередь. Вместе они помогают вашим страницам быстрее попадать в выдачу — а одна забытая строка в robots.txt способна закрыть весь сайт на месяцы.

Что сделать сегодня: откройте site.ru/robots.txt и site.ru/sitemap.xml на своём домене и убедитесь, что там нет запрета на весь сайт и что карта существует. Если хоть что-то смущает — не правьте руками, а покажите тому, кто отвечает за сайт.

А если разбираться в этом самому не хочется совсем — это нормально. Когда мы делаем сайт под ключ и берём его на продвижение, все технические файлы настроены правильно с первого дня: сайт открыт для поиска, карта обновляется автоматически, лишнее закрыто, а нужное — нет. Вы просто получаете сайт, который поисковик видит и показывает клиентам, и не думаете про строчки, из-за которых можно потерять полгода трафика.

ПРОДВИГАЕМ САЙТЫ В ТОП

Бесплатная консультация и расчёт продвижения под вашу нишу