Πώς να συνθέσετε ένα αρχείο Txt ρομπότ

Πίνακας περιεχομένων:

Πώς να συνθέσετε ένα αρχείο Txt ρομπότ
Πώς να συνθέσετε ένα αρχείο Txt ρομπότ

Βίντεο: Πώς να συνθέσετε ένα αρχείο Txt ρομπότ

Βίντεο: Πώς να συνθέσετε ένα αρχείο Txt ρομπότ
Βίντεο: Πως να κάνετε συμπίεση ή αποσυμπίεση αρχείων zip ή rar 2024, Νοέμβριος
Anonim

Ένα από τα εργαλεία για τη διαχείριση της ευρετηρίου των ιστότοπων από τις μηχανές αναζήτησης είναι το αρχείο robots.txt. Χρησιμοποιείται κυρίως για να αποτρέψει τη λήψη όλων ή μόνο ορισμένων ρομπότ του περιεχομένου συγκεκριμένων ομάδων σελίδων. Αυτό σας επιτρέπει να απαλλαγείτε από "σκουπίδια" στα αποτελέσματα της μηχανής αναζήτησης και, σε ορισμένες περιπτώσεις, να βελτιώσετε σημαντικά την κατάταξη του πόρου. Είναι σημαντικό να έχετε το σωστό αρχείο robots.txt για επιτυχημένη εφαρμογή.

Πώς να συνθέσετε ένα αρχείο txt ρομπότ
Πώς να συνθέσετε ένα αρχείο txt ρομπότ

Απαραίτητη

επεξεργαστής κειμένου

Οδηγίες

Βήμα 1

Δημιουργήστε μια λίστα με ρομπότ για τα οποία θα οριστούν ειδικοί κανόνες αποκλεισμού ή οδηγίες του εκτεταμένου προτύπου robots.txt, καθώς και μη τυπικές και συγκεκριμένες οδηγίες (επεκτάσεις μιας συγκεκριμένης μηχανής αναζήτησης). Εισαγάγετε σε αυτήν τη λίστα τις τιμές των πεδίων User-Agent των κεφαλίδων αιτήματος HTTP που αποστέλλονται από τα επιλεγμένα ρομπότ στον διακομιστή τοποθεσίας. Τα ονόματα των ρομπότ μπορούν επίσης να βρεθούν στις ενότητες αναφοράς των ιστότοπων της μηχανής αναζήτησης.

Βήμα 2

Επιλέξτε τις ομάδες διευθύνσεων URL των πόρων του ιστότοπου στις οποίες δεν επιτρέπεται η πρόσβαση σε καθένα από τα ρομπότ στη λίστα που καταρτίζεται στο πρώτο βήμα. Εκτελέστε την ίδια λειτουργία για όλα τα άλλα ρομπότ (ένα αόριστο σύνολο bots ευρετηρίου). Με άλλα λόγια, το αποτέλεσμα θα πρέπει να είναι αρκετές λίστες που περιέχουν συνδέσμους προς ενότητες του ιστότοπου, ομάδες σελίδων ή πηγές περιεχομένου πολυμέσων που απαγορεύονται από την ευρετηρίαση. Κάθε λίστα πρέπει να αντιστοιχεί σε ένα διαφορετικό ρομπότ. Θα πρέπει επίσης να υπάρχει μια λίστα απαγορευμένων διευθύνσεων URL για όλα τα άλλα bots. Δημιουργήστε λίστες με βάση τη σύγκριση της λογικής δομής του ιστότοπου με τη φυσική τοποθεσία των δεδομένων στο διακομιστή, καθώς και ομαδοποιώντας τις διευθύνσεις URL των σελίδων σύμφωνα με τα λειτουργικά χαρακτηριστικά τους. Για παράδειγμα, μπορείτε να συμπεριλάβετε στις λίστες άρνησης τα περιεχόμενα οποιωνδήποτε καταλόγων υπηρεσιών (ομαδοποιούνται κατά τοποθεσία) ή όλες τις σελίδες προφίλ χρήστη (ομαδοποιημένες κατά σκοπό).

Βήμα 3

Επιλέξτε τα σημάδια διεύθυνσης URL για καθένα από τους πόρους που περιέχονται στις λίστες που συντάσσονται στο δεύτερο βήμα. Κατά την επεξεργασία λιστών εξαιρέσεων για ρομπότ χρησιμοποιώντας μόνο τυπικές οδηγίες robots.txt και απροσδιόριστα ρομπότ, επισημάνετε τα μοναδικά τμήματα URL του μέγιστου μήκους. Για τα υπόλοιπα σύνολα διευθύνσεων, μπορείτε να δημιουργήσετε πρότυπα σύμφωνα με τις προδιαγραφές συγκεκριμένων μηχανών αναζήτησης.

Βήμα 4

Δημιουργήστε ένα αρχείο robots.txt. Προσθέστε ομάδες οδηγιών σε αυτό, καθεμία από τις οποίες αντιστοιχεί σε ένα σύνολο απαγορευτικών κανόνων για ένα συγκεκριμένο ρομπότ, η λίστα των οποίων καταρτίστηκε στο πρώτο βήμα. Το τελευταίο πρέπει να ακολουθείται από μια ομάδα οδηγιών για όλα τα άλλα ρομπότ. Ξεχωριστές ομάδες κανόνων με μία κενή γραμμή. Κάθε σύνολο κανόνων πρέπει να ξεκινά με μια οδηγία User-agent που να προσδιορίζει το ρομπότ, ακολουθούμενη από μια οδηγία Disallow, η οποία απαγορεύει την ευρετηρίαση ομάδων URL. Κάντε τις γραμμές που αποκτήθηκαν στο τρίτο βήμα με τις τιμές των οδηγιών Απαγόρευση. Διαχωρίστε τις οδηγίες και τις έννοιες τους με άνω και κάτω τελεία. Εξετάστε το ακόλουθο παράδειγμα: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Αυτό το σύνολο οδηγιών καθοδηγεί το κύριο ρομπότ του Μηχανή αναζήτησης Yandex για μη ευρετηρίαση της διεύθυνσης URL που περιέχει το substring / temp / data / images /. Αποτρέπει επίσης όλα τα άλλα ρομπότ να ευρετηριάζουν διευθύνσεις URL που περιέχουν / temp / data /.

Βήμα 5

Συμπληρώστε το robots.txt με εκτεταμένες τυπικές οδηγίες ή συγκεκριμένες οδηγίες μηχανών αναζήτησης. Παραδείγματα τέτοιων οδηγιών είναι: Host, χάρτης ιστοτόπου, ποσοστό αιτήσεων, χρόνος επίσκεψης, καθυστέρηση ανίχνευσης.

Συνιστάται: