mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-06 16:56:40 +08:00
Add Greek test files.
Taken from Greek Wikipedia: https://el.wikipedia.org/wiki/UTF-8 https://el.wikipedia.org/wiki/ISO_8859-7 https://el.wikipedia.org/wiki/ISO_8859-7#Windows-1253 Windows-1253 test fails and returns "ISO-8859-7". They are actually fairly close for main letters, except for Ά, which make them difficult to differentiate.
This commit is contained in:
parent
c8532f63a8
commit
601e59bd83
3
test/el/iso-8859-7.txt
Normal file
3
test/el/iso-8859-7.txt
Normal file
@ -0,0 +1,3 @@
|
||||
Η τυποποιημένη κωδικοποίηση χαρακτήρων του διεθνούς οργανισμού τυποποιήσεων με το όνομα ISO 8859-7, γνωστή και σαν Ελληνικά, είναι μια 8-μπιτη κωδικοποίηση χαρακτήρων, μέρος του προτύπου ISO 8859. Σχεδιάστηκε με τον σκοπό να καλύπτει τη σύγχρονη ελληνική γλώσσα καθώς και μαθηματικά σύμβολα προερχόμενα από τα ελληνικά.
|
||||
|
||||
Η αρχική έκδοση το 1987 είχε τις ίδιες αναθέσεις χαρακτήρων με το Ελληνικό πρότυπο ELOT 928, που εκδόθηκε το 1986. Ο πίνακας σε αυτό το άρθρο δείχνει την ανανεωμένη έκδοση του 2003, που προσθέτει τρεις χαρακτήρες, συμπεριλαμβανομένου και του σύμβολου του ευρώ.
|
||||
3
test/el/utf-8.txt
Normal file
3
test/el/utf-8.txt
Normal file
@ -0,0 +1,3 @@
|
||||
Το UTF-8 (8-bit Unicode Transformation Format) είναι ένα μη-απωλεστικό σχήμα κωδικοποίησης χαρακτήρων μεταβλητού μήκους για το πρότυπο Unicode που δημιουργήθηκε από τους Ken Thompson και Rob Pike. Χρησιμοποιεί ομάδες από byte για να αναπαραστήσει τα κωδικά σημεία του Unicode. Είναι ιδιαίτερα χρήσιμο για μετάδοση δεδομένων σε 8bit συστήματα ηλεκτρονικού ταχυδρομείου.
|
||||
|
||||
Συγκεκριμένα χρησιμοποιεί ένα μέχρι τέσσερα byte ανά χαρακτήρα ανάλογα με το σύμβολο και το κωδικό του σημείο. Για παράδειγμα χρειάζεται μόνο ένα byte του UTF-8 για την κωδικοποίηση των 128 ASCII χαρακτήρες στο διάστημα του Unicode U+0000 μέχρι U+007F.
|
||||
5
test/el/windows-1253.txt
Normal file
5
test/el/windows-1253.txt
Normal file
@ -0,0 +1,5 @@
|
||||
Windows-1253
|
||||
|
||||
Η κωδικοποίηση των χαρακτήρων είναι σχεδόν ίδια με την κωδικοποίηση Windows-1253. Η βασική διαφορά στα γράμματα είναι η θέση του τονούμενου κεφαλαίου άλφα το οποίο βρίσκεται (στα Windows-1253) στη δεκαεξαδική θέση "A2". Αυτό έχει ως αποτέλεσμα να εμφανίζεται σε αυτόν τον χαρακτήρα διαφορετικό σύμβολο (το σημάδι της παραγράφου ή ένας σκέτος τόνος), όταν επιλεγεί διαφορετική κωδικοποίηση, ενώ τα υπόλοιπα γράμματα εμφανίζονται κανονικά.
|
||||
|
||||
’λλες γλώσσες
|
||||
Loading…
x
Reference in New Issue
Block a user