Τι είναι η εντροπία αρχείων

Τι είναι η εντροπία αρχείων
Τι είναι η εντροπία αρχείων

Βίντεο: Τι είναι η εντροπία αρχείων

Βίντεο: Τι είναι η εντροπία αρχείων
Βίντεο: Εντροπία: Το θερμοδυναμικό βέλος του χρόνου 2024, Απρίλιος
Anonim

Κάθε αρχείο υπολογιστή αποτελείται από byte. Ένα byte μπορεί να λάβει τιμές από 0 έως 255. Η εντροπία πληροφοριών είναι μια στατιστική παράμετρος που δείχνει την πιθανότητα εμφάνισης ορισμένων byte σε ένα αρχείο.

Τι είναι η εντροπία αρχείων
Τι είναι η εντροπία αρχείων

Μπορείτε να αξιολογήσετε οπτικά τον βαθμό εντροπίας χρησιμοποιώντας ένα ιστόγραμμα - την κατανομή της πιθανότητας επανάληψης των ίδιων byte σε ένα αρχείο. Από την εντροπία του αρχείου, μπορούμε να μαντέψουμε τι είδους αρχείο βρίσκεται μπροστά μας, βλέποντας μόνο το ιστολόγιό του.

Για επίδειξη, ας πάρουμε τρία αρχεία διαφορετικών τύπων και συγκρίνουμε τα ιστογράμματά τους. Αφήστε το πρώτο να είναι ένα αρχείο κειμένου (*. TXT). Το ιστόγραμμά του φαίνεται στο σχήμα:

гистограмма=
гистограмма=

Το αρχείο κειμένου περιέχει μόνο κείμενο. Κάθε χαρακτήρας του κειμένου κωδικοποιείται με συγκεκριμένα byte σύμφωνα με τον πίνακα κωδικοποίησης. Αν και υπάρχει μεγάλος αριθμός τύπων κωδικοποίησης, είναι προφανές ότι υπάρχει ένας περιορισμένος αριθμός αλφαριθμητικών χαρακτήρων, ο οποίος συνήθως είναι μικρότερος από 255. Επομένως, μόνο στο πρώτο ιστόγραμμα καταλαμβάνουν μόνο ορισμένες περιοχές και ορισμένα byte δεν είναι καθόλου.

Το ακόλουθο αρχείο θα είναι σε μορφή PDF:

гистограмма=
гистограмма=

Αυτό το αρχείο περιέχει όλα τα πιθανά byte, καθώς το PDF κωδικοποιείται διαφορετικά από τα αρχεία κειμένου. Αποθηκεύει πολλές πληροφορίες υπηρεσίας: μορφοποίηση, γραμματοσειρές, εικόνες κ.λπ. Αλλά το ιστογράμμά του δείχνει ότι μερικά από τα bytes εμφανίζονται με σχεδόν ίση πιθανότητα, ενώ άλλα - πολύ πιο συχνά από άλλα. Εξ ου και οι πολλαπλές αιχμηρές εκρήξεις στο ιστόγραμμα, και γενικά έχει μια μάλλον «κουρελιασμένη» εμφάνιση, αν και καταλαμβάνει ολόκληρο το διαθέσιμο πλάτος.

Και το τελευταίο αρχείο συμπιέζεται σε μορφή 7Z:

гистограмма=
гистограмма=

Αυτό το ιστόγραμμα έχει δύο κύρια χαρακτηριστικά: πρώτον, όλα τα bytes βρίσκονται στο αρχείο με φερμουάρ με λίγο ή πολύ ίση πιθανότητα (αρκετά επίπεδη άνω άκρη) και δεύτερον, ουσιαστικά δεν υπάρχει ελεύθερος χώρος πάνω από το ιστόγραμμα, κάτι που υποδηλώνει σχεδόν πλήρη απουσία απόλυσης ενός τέτοιου αρχείου. Ως εκ τούτου, μπορούμε να συμπεράνουμε ότι ο αλγόριθμος του αρχειοθέτη κατά κάποιον τρόπο "αναμιγνύει" τα byte του αρχείου προκειμένου να επιτευχθεί η μέγιστη ομοιόμορφη κατανομή τους.

Έτσι, η εντροπία στην επιστήμη των υπολογιστών, όπως στη φυσική, είναι ένα μέτρο της διαταραχής στο σύστημα, στην περίπτωση αυτή, η διαταραχή στην κατανομή των bytes στο αρχείο. Το Entropy σάς επιτρέπει να κρίνετε το βαθμό συμπίεσης του αρχείου και - έμμεσα - σχετικά με τον τύπο του.

Συνιστάται: