Οι περισσότεροι έμπειροι bloggers ξέρουν σίγουρα τι είναι το robots.txt και γιατί χρειάζεστε αυτό το αρχείο. Αλλά λίγοι συγγραφείς σπεύδουν να δημιουργήσουν ένα αρχείο robots.txt μετά την εγκατάσταση ενός ιστολογίου στο WordPress.
Το Robots.txt είναι ένα αρχείο κειμένου που μεταφορτώνεται στον ριζικό κατάλογο του ιστότοπού σας και περιέχει οδηγίες για προγράμματα ανίχνευσης. Ο κύριος σκοπός της χρήσης του είναι να απαγορεύσει την ευρετηρίαση μεμονωμένων σελίδων και ενοτήτων στον ιστότοπο. Ωστόσο, χρησιμοποιώντας το robots.txt, μπορείτε επίσης να καθορίσετε τον σωστό καθρέφτη τομέα, να ορίσετε τη διαδρομή προς το χάρτη ιστότοπου και τα παρόμοια.
Οι περισσότερες σύγχρονες μηχανές αναζήτησης έχουν μάθει να περιηγούνται καλά στο δημοφιλές CMS και συνήθως δεν προσπαθούν να ευρετηριάσουν περιεχόμενο που δεν προορίζεται για αυτό. Για παράδειγμα, η Google δεν θα ευρετηριάσει την περιοχή διαχειριστή ιστολογίου WordPress, ακόμη και αν δεν την καθορίσετε απευθείας στο robots.txt. Ωστόσο, σε ορισμένες περιπτώσεις, η χρήση άμεσων απαγορεύσεων μπορεί ακόμα να είναι χρήσιμη. Και μιλάμε κυρίως για την απαγόρευση του διπλού περιεχομένου.
Ορισμένοι webmaster φτάνουν στο βαθμό που απαγορεύουν την ευρετηρίαση των κατηγοριών και των σελίδων ετικετών, καθώς το περιεχόμενό τους αντιγράφει εν μέρει το περιεχόμενο της κύριας σελίδας. Ωστόσο, οι περισσότεροι περιορίζονται στην απαγόρευση σελίδων παρακολούθησης και τροφοδοσίας, οι οποίες αντιγράφουν πλήρως το περιεχόμενο του άρθρου και δεν προορίζονται καθόλου για μηχανές αναζήτησης. Μια τέτοια προφύλαξη όχι μόνο θα κάνει τα αποτελέσματα του ιστότοπου "καθαρότερα", αλλά και θα σας σώσει από πιθανά φίλτρα αναζήτησης, ειδικά μετά την εισαγωγή του νέου αλγορίθμου Google Panda.
Ακολουθούν οι προτεινόμενες οδηγίες για ένα αρχείο robots.txt (θα λειτουργήσει για σχεδόν οποιοδήποτε ιστολόγιο WordPress):
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-include Disallow: / wp-content / plugins Απαγορεύεται: / wp-content / cache Απαγόρευση: / wp-content / θέματα Απαγόρευση: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Λάβετε υπόψη ότι στο robots.txt οι φάκελοι διαχείρισης wp-admin και wp-include είναι εντελώς κλειστοί για ευρετηρίαση. Ο φάκελος wp-content είναι μερικώς κλειστός, καθώς περιέχει τον κατάλογο μεταφορτώσεων, ο οποίος περιέχει όλες τις εικόνες από το ιστολόγιό σας που πρέπει να ευρετηριαστούν.
Το μόνο που χρειάζεται να κάνετε είναι να αντιγράψετε τις οδηγίες από τον παραπάνω κώδικα (σημειώστε ότι κάθε οδηγία πρέπει να γραφτεί σε μια νέα γραμμή), να τις αποθηκεύσετε σε ένα αρχείο κειμένου που ονομάζεται robots.txt και να τις ανεβάσετε στον ριζικό κατάλογο του ιστότοπού σας.
Μπορείτε πάντα να ελέγξετε αν το robots.txt λειτουργεί σωστά μέσω των διεπαφών Εργαλείων για Webmasters Google και Yandex Webmaster.