Jesteś w trakcie tworzenia wersji testowej swojej nowej strony internetowej. Modyfikujesz witrynę kilkadziesiąt razy dziennie wrzucając na nią nieraz mało spójne treści tylko po to, aby sprawdzić, czy wizualnie wygląda w porządku.
Nie chcesz, aby ktokolwiek był w stanie do niej dotrzeć inaczej niż przez adres URL, który na razie zna tylko nieliczne grono Twoim znajomych.
To tylko jeden ze scenariuszy, w którym właściciel strony nie chce, aby jej całość lub poszczególne podstrony były indeksowane przez Google. Jeśli ręcznie nie zablokujemy takiej możliwości, to nasza strona prędzej czy później zostanie zaindeksowana i znajdzie się w wynikach wyszukiwania.
W niniejszym przewodniku pokażę Ci dwa proste sposoby, jak usunąć stronę z Google lub zablokować nową witrynę przed zaindeksowaniem.
Metoda 1: Wykorzystanie pliku robots.txt
Ta metoda poniżej blokuje przed crawlowaniem. Aby usunąć stronę z indeksu, należy dodać „no-index”.
Najprostszym i zdecydowanie najszybszym sposobem na usunięcie strony z wyników wyszukiwania jest modyfikacja pliku robots.txt.
Jeśli nasza strona została już zaindeksowana, to dzięki tej metodzie zostanie usunięta z indeksu już po ok. 24 godzinach. To najlepszy sposób, jeśli jakieś treści zostały przypadkowo zaindeksowane (np. kilka różnych wersji testowych witryny), a nam zależy na ich jak najszybszym usunięciu.
Plik robots.txt możemy utworzyć w każdym edytorze tekstowym (polecam darmowy Notepad++). Wszystko, co musimy zrobić, to umieścić w nim odpowiednie dyrektywy, zapisać go jako „robots.txt” oraz wgrać do katalogu głównego domeny.
Jeśli zależy nam, aby cała strona była indeksowana, nie musimy tworzyć ani modyfikować tego pliku. Więcej na temat pliku robots.txt dowiesz się tutaj.
Dyrektywa blokująca całą stronę przed indeksowaniem przez roboty wszystkich wyszukiwarek
Aby zablokować całą witrynę przed indeksowaniem wystarczy umieścić poniższe dwie linijki kodu w pliku robots.txt.
User-agent: * oznacza, iż dyrektywa odnosi się do robotów wszystkich wyszukiwarek internetowych (nie tylko Google).
Disallow: / oznacza zablokowanie przed indeksowaniem całej witryny. / wskazuje, aby cała strona była wyłączona z indeksowania.
Dyrektywa blokująca niektóre części strony
W większości przypadków nie będziesz chciał blokować całej witryny, a tylko jej poszczególne części (katalogi lub konkretne plki).
Aby zablokować dany katalog witryny, wystarczy wpisać po Disallow: po prostu nazwę katalogu. Aby zablokować konkretny plik należy wpisać jego URL.
Pamiętaj, że w pliku robots.txt nie wpisujemy nigdy nazwy domeny głównej.
Dyrektywa blokująca dostęp tylko robotowi Google
Jeśli chcemy, aby tylko jeden konkretny robot nie indeksował naszej witryny lub jej części, to po User-agent: zamiast * wpisujemy po prostu jego nazwę.
Listę nazw istniejących robotów znajdziesz tutaj. Na przykładzie poniżej blokujemy dostęp robotowi Google.
Oczywiście postępujemy analogicznie jak powyżej, jeśli chcemy, aby robot nie indeksował tylko poszczególnych katalogów lub plików.
Metoda 2: Usunięcie witryny z serwera
Drugą nieco bardziej radykalną metoda jest po prostu usunięcie danej treści lub całej witryny z serwera. W tym przypadku efekt naszego działania będzie natychmiastowy.
Aby usunąć stronę z serwera uczynić musisz mieć do niej dostęp FTP. Po podłączeniu po prostu skasuj wszystkie pliki witryny oczywiście uprzednio tworząc ich kopię zapasową.
Należy jednak pamiętać, że istnieje dużo serwisów wyświetlających historyczne wersje stron internetowych, więc zawsze istnieje ryzyko, że kopia naszej stronie przez jakiś czas w takim serwisie będzie nadal dostępna. Również czasami wyszukiwarka może jeszcze przez niedługi czas wyświetlać archiwalną wersję strony (np. Google cache).
Aby przyspieszyć proces wyświetlania nieistniejącej już strony z wyników wyszukiwania Google, możesz skorzystać z formularza Google do usuwania nieaktualnych treści.
Zazwyczaj prośby rozpatrywane są bardzo szybko i w przeciągu kilku godzin wiesz, czy Google usunęło podany przez Ciebie URL z wyników.
Masz jakieś pytania, niejasności? Komentuj śmiało!
Co robić w przypadku gdy mamy pewien artykuł w sieci widoczny w indeksie, a nie chceby by on się wyświetlał bo np dotyczy nazwiska danej osoby, a ta osoba nie chce aby ten artykuł się wyświetlał w wynikach organicznych. Nie chodzi tu o wspomnianą sytuację, że autor wpisu zmienił info w artykule i zgłaszamy to przez wspomniane narzędzie.
Chodzi o coś w stylu 'bycia zapomnianym’ ale w odniesieniu do danego jednego artykułu.
A co w wypadku subdomeny. Zorientowałem się że dodanie zakazu indeksowania subdomeny w pliku robots.txt dotyczącym domeny nie zadziałało. Czy wobec tego trzeba wygenerować robots.txt z blokadą googlebota dla subdomeny, założyć osobną usługę w Search console i tam podać link do tego pliku?
Jeśli tak to trochę dużo roboty z tym 🙁
A jak tą operację z GSC odkręcić ?
Usunęłam w GSC url – a teraz chciałabym, aby był widoczny ?