3 способи вилучити непотрібні сторінки блогу з Google

Діджитал 03 травня 2024

Ви вірите в те, що якщо щось публікується в Інтернеті, воно публікується назавжди? Що ж, сьогодні ми збираємося розвіяти цей міф.

Розблокуйте чит-лист «Кращі поєднання клавіш пошуку Google» прямо зараз!
3 способи вилучення сторінок блогу з мережі
Просто вилучіть сторінку
Вилучити сторінку з результатів пошуку Google
Видалити окрему сторінку з метатегами
Ідея «видалення» контенту

Розблокуйте чит-лист «Кращі поєднання клавіш пошуку Google» прямо зараз!

Це підпише вас на нашу розсилку

Введіть адресу електронної пошти

[] [] [] [] розблокування

Прочитайте нашу політику конфіденційності

Правда в тому, що в багатьох випадках цілком можливо викорінити інформацію з Інтернету. Звичайно, є запис веб-сторінок, які були видалені, якщо ви шукаєте Wayback Machine, вірно? Так, абсолютно. На Wayback Machine є записи про веб-сторінки, що з'явилися багато років тому - сторінки, які ви не знайдете в пошуку Google, тому що веб-сторінка більше не існує. Хтось видалив його, або сайт був закритий.

Так що, обійти це неможливо, вірно? Інформація назавжди буде вигравірувана на камені Інтернету, що там побачать покоління? Ну, не зовсім так.

Правда в тому, що, хоча може бути важко або неможливо знищити основні новинні сюжети, які поширюються з одного новинного сайту або блогу на інший, як вірус, насправді досить легко повністю видалити веб-сторінку або кілька веб-сторінок з усіх записів. існування - вилучити цю сторінку як для пошукових систем, так і для машини Wayback. Звичайно, є одна заковика, але ми повернемося до цього.

3 способи вилучення сторінок блогу з мережі

Перший метод - той, який використовують більшість власників веб-сайтів, тому що вони не знають нічого кращого - просто видаляють веб-сторінки. Це може статися через те, що ви зрозуміли, що на вашому сайті є дубльований контент, або через те, що у вас є сторінка, яку ви не хочете показувати в результатах пошуку.

Просто вилучіть сторінку

Проблема з повним видаленням сторінок з вашого веб-сайту полягає в тому, що, оскільки ви вже створили сторінку в мережі, швидше за все, будуть посилання з вашого власного сайту, а також зовнішні посилання з інших сайтів на цю конкретну сторінку. Коли ви вилучаєте його, Google негайно розпізнає вашу сторінку як відсутню.

Таким чином, видаляючи свою сторінку, ви не тільки створили проблему з помилками сканування «Не знайдено» для себе, але і створили проблему для всіх, хто коли-небудь посилався на сторінку. Зазвичай користувачі, які потрапляють на ваш сайт по одному з цих зовнішніх посилань, побачать вашу сторінку 404, що не становить великої проблеми, якщо ви використовуєте щось на зразок користувацького коду 404 Google, щоб дати користувачам корисні пропозиції або альтернативи. Але ви могли б подумати, що можуть бути більш витончені способи видалення сторінок з результатів пошуку, не використовуючи всі ці 404 для існуючих вхідних посилань, вірно?

Ну, є.

Вилучити сторінку з результатів пошуку Google

Перш за все, ви повинні розуміти, що якщо веб-сторінка, яку ви хочете видалити з результатів пошуку Google, не є сторінкою з вашого власного сайту, то вам не пощастило, якщо на те немає законних причин або сайт опублікував вашу особисту інформацію. інформація онлайн без вашого дозволу. У такому випадку скористайтеся засобом усунення неполадок при видаленні Google, щоб надіслати запит на видалення сторінки з результатів пошуку. Якщо у вас є дійсна справа, ви можете досягти успіху, видаливши сторінку - звичайно, ви можете досягти ще більшого успіху, просто зв'язавшись з власником сайту. як я описав, як це зробити ще в 2009 році.

Тепер, якщо сторінка, яку ви хочете вилучити з результатів пошуку, знаходиться на вашому власному сайті, вам пощастило. Все, що вам потрібно зробити, це створити файл robots.txt і переконатися, що ви заборонили вказувати не потрібні вам сторінки в результатах пошуку або весь каталог з вмістом, який ви не хочете індексувати. Ось як виглядає блокування однієї сторінки.

Користувач-агент: *
Disallow: /my-deleted-article-that-i-want-removed.html

Ви можете заблокувати боти від сканування цілих каталогів вашого сайту наступним чином:

Користувач-агент: *
Disallow: / content-about-personal-stuff /

У Google є відмінна сторінка підтримки, яка може допомогти вам створити файл robots.txt, якщо ви ніколи його не створювали. Це працює дуже добре, як я недавно пояснив у статті про структурування угод з синдикації. про операції по про операції по щоб вони не заподіяли вам шкоди (попросивши партнерів по синдикації заборонити індексацію своїх сторінок там, де ви синдиковані). Як тільки мій партнер по синдикації погодився зробити це, сторінки з дубльованим контентом з мого блогу повністю зникли з пошукових списків.

Тільки основний веб-сайт займає третє місце для сторінки, де вони перераховують наш заголовок, але мій блог тепер вказаний як на першому, так і на другому місці; щось, що було б майже неможливо, якби сайт з більш високим авторитетом залишив проіндексовану дубльовану сторінку.

Багато людей не розуміють, що цього також можна досягти за допомогою Інтернет-архіву (Wayback Machine). Ось рядки, які потрібно додати до файлу robots.txt, щоб це сталося.

Користувач-агент: ia_archiver
Disallow: / зразок категорії/

У цьому прикладі я кажу інтернет-архіву, що потрібно видалити що-небудь з підкаталогу категорії-зразка на моєму сайті з Wayback Machine. Інтернет-архів пояснює, як це зробити, на сторінці довідки про виключення. Тут також пояснюється, що «Інтернет-архів не зацікавлений у наданні доступу до веб-сайтів або інших інтернет-документів, автори яких не хочуть, щоб їхні матеріали перебували в колекції».

Це суперечить загальноприйнятій думці, що все, що публікується в Інтернеті, потрапляє в архів на всю вічність. Ні, веб-майстри, які володіють контентом, можуть спеціально видалити контент з архіву, використовуючи підхід robots.txt.

Видалити окрему сторінку з метатегами

Якщо у вас є лише кілька окремих сторінок, які ви хочете видалити з результатів пошуку Google, вам взагалі не потрібно використовувати підхід robots.txt, ви можете просто додати правильний метатег «роботи» на окремі сторінки, і сказати роботам не індексувати і не переходити за посиланнями на всій сторінці.

Ви можете використовувати вищенаведену мету «роботи», щоб заборонити роботам індексувати сторінку, або ви можете спеціально вказати роботу Google не індексувати сторінку, щоб сторінка видалялася тільки з результатів пошуку Google, а інші пошукові роботи могли як і раніше отримувати доступ до вмісту сторінки.

Вам слід вирішувати, як ви будете керувати тим, що роботи робитимуть зі сторінкою, і чи буде сторінка у списку. Для декількох окремих сторінок це може бути найкращим підходом. Щоб видалити весь каталог вмісту, використовуйте robots.txt.

Ідея «видалення» контенту

Такого роду ідея «видалення контенту з Інтернету» перекинулася з ніг на голову. Технічно, якщо ви видалите всі свої власні посилання на сторінку на своєму сайті і видалите її з Пошуку в Google та Інтернет-архіву з використанням методу robots.txt, ця сторінка для всіх намірів і цілей буде «видалена» з Інтернету. Круто те, що якщо посилання на сторінку вже існують, вони все одно будуть працювати, і ви не викличете 404 помилки для цих відвідувачів.

Це більш «щадний» підхід до видалення контенту з Інтернету без повного спотворення існуючого посилання вашого сайту в Інтернеті. Зрештою, як ви вчините з управлінням контентом, що збирається пошуковими системами, і Інтернет-архів залежить від вас, але завжди пам'ятайте, що, незважаючи на те, що люди говорять про тривалість життя речей, що публікуються в Інтернеті, це дійсно повністю під вашим контролем.