mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-07 01:06:40 +08:00
It actually breaks "zh:big5" so I'm going to hold-off a bit. Adding more language and charset support is slowly starting to show the limitations of our legacy multi-byte charset supports, since I haven't really touched these since the original implementation of Mozilla. It might be time to start reviewing these parts of the code. The test file contents comes from 'Μαρμότα' page on Wikipedia in Greek (though since 2 letters are missing in this encoding, despite its popularity for Greek, I had to be careful in choosing pieces of text without such letters).
232 lines
10 KiB
Plaintext
232 lines
10 KiB
Plaintext
= Logs of language model for Greek (el) =
|
||
|
||
- Generated by BuildLangModel.py
|
||
- Started: 2022-12-18 20:25:01.002309
|
||
- Maximum depth: 4
|
||
- Max number of pages: 200
|
||
|
||
== Parsed pages ==
|
||
|
||
Πρωτεύοντα (revision 9792164)
|
||
Ευαρχοντομυωξοί (revision 9475530)
|
||
Φολιδωτά (θηλαστικά) (revision 8966182)
|
||
Ανθρώπινη εξέλιξη (revision 9731824)
|
||
Υδατάνθρακες (revision 9276169)
|
||
Άνθρωπος (revision 9804050)
|
||
National Library of the Czech Republic (revision 9499518)
|
||
Ταξινομία (revision 6174527)
|
||
Δεοξυριβόζη (revision 9735675)
|
||
Συστηματική ταξινόμηση (revision 9163863)
|
||
Οικογένεια (βιολογία) (revision 8380547)
|
||
Μονοσακχαρίτης (revision 8520367)
|
||
Ευλιπότυφλα (revision 8635098)
|
||
Γαλάγος (revision 9624211)
|
||
Ανθρωποειδή (revision 9802784)
|
||
Μυρμήγκι (revision 9743672)
|
||
Primates (revision 9792164)
|
||
Εθνική Βιβλιοθήκη της Μποτσουάνα (revision 9771961)
|
||
Εθνική Βιβλιοθήκη της Σλοβακίας (revision 9545464)
|
||
Κίνα (revision 9794230)
|
||
Μονοσακχαρίτες (revision 8520367)
|
||
Άνθρακας (revision 9698608)
|
||
Τερμίτης (revision 8570600)
|
||
Virtual International Authority File (revision 9547787)
|
||
Διεθνής πρότυπος αριθμός βιβλίου (revision 9525547)
|
||
International Union for Conservation of Nature (revision 9555075)
|
||
Neogene (revision 7970278)
|
||
Ανθρωπoειδή (revision 9802784)
|
||
Λάρυγγας (revision 8037233)
|
||
Θηλαστικά (revision 9802762)
|
||
IUCN Red List (revision 9104016)
|
||
Δισακχαρίτης (revision 9301054)
|
||
Ινσουλίνη (revision 9193560)
|
||
Αρχαϊκοί Homo sapiens (revision 9496339)
|
||
Εθνική Βιβλιοθήκη της Μοζαμβίκης (revision 9771960)
|
||
Εθνική Βιβλιοθήκη της Πολωνίας (revision 9771967)
|
||
Ολιγοσακχαρίτης (revision 9784937)
|
||
Θεσμός (revision 9409922)
|
||
Μοριακό βάρος (revision 8588261)
|
||
Παράνθρωποι (revision 9187211)
|
||
Χρονολόγιο της ανθρώπινης εξέλιξης (revision 9494488)
|
||
Κοινός πρόγονος (revision 7955205)
|
||
Ασία (revision 9640488)
|
||
Εθνική Βιβλιοθήκη του Βανουάτου (revision 9510031)
|
||
Συνομοταξία (revision 8090691)
|
||
Διαδίκτυο (revision 9818610)
|
||
Τριγλυκερίδιο (revision 8991916)
|
||
Εθνική Βιβλιοθήκη της Λετονίας (revision 9736743)
|
||
Εθνική βιβλιοθήκη της Σουηδίας (revision 9741133)
|
||
Ζώα (revision 9797988)
|
||
Απειλούμενα είδη (revision 9387012)
|
||
Εθνική Βιβλιοθήκη της Μιανμάρ (revision 9771959)
|
||
Silurian (revision 7083264)
|
||
Γερμανική γλώσσα (revision 9768836)
|
||
Ζωολογία (revision 9597532)
|
||
Σπονδυλωτά (revision 8936763)
|
||
Χορδωτά (revision 9800855)
|
||
Εθνική Βιβλιοθήκη του Ελ Σαλβαδόρ (revision 9608126)
|
||
Μακρομόρια (revision 8962637)
|
||
Homo sapiens (revision 9804050)
|
||
Γλυκίδια (revision 8976376)
|
||
Κατάλογος καθιερωμένων όρων (revision 9747802)
|
||
Paleogene (revision 7772183)
|
||
Γένος (βιολογία) (revision 8620951)
|
||
Βραδυποδόμορφα (revision 8793874)
|
||
Εθνική Βιβλιοθήκη της Ουκρανίας (revision 9818749)
|
||
Περίοδος (γεωλογία) (revision 9598229)
|
||
Γραμμομόριο (revision 9175982)
|
||
Νουκλεϊκά οξέα (revision 9020237)
|
||
Γάλα (revision 9473543)
|
||
Μετάλλαξη (revision 9662655)
|
||
Γαλακτόζη (revision 8983758)
|
||
Φάλαινα (revision 9455804)
|
||
Εθνική Βιβλιοθήκη της Ισπανίας (revision 9771953)
|
||
Γλυκογόνο (revision 8033277)
|
||
Ισπανική γλώσσα (revision 9751022)
|
||
Φωνητικές χορδές (revision 9179304)
|
||
Κανονικές συνθήκες (revision 9776846)
|
||
Άλπεις (revision 9759633)
|
||
Αντίδραση συμπύκνωσης (revision 8965637)
|
||
National Diet Library (revision 9533181)
|
||
Εθνική Βιβλιοθήκη της Βραζιλίας (revision 9516238)
|
||
Homo sapiens sapiens (revision 9804050)
|
||
Εθνική Βιβλιοθήκη των Μπαρμπάντος (revision 9608141)
|
||
Μουντάνεουμ (revision 9387431)
|
||
Ζώο (revision 9797988)
|
||
Εθνική και Πανεπιστημιακή Βιβλιοθήκη της Ισλανδίας (revision 9510045)
|
||
Μόριο (revision 9737689)
|
||
Εθνική Βιβλιοθήκη της Ανδόρας (revision 9771949)
|
||
Βασίλειο (βιολογία) (revision 9171746)
|
||
Εθνική και Πανεπιστημιακή Βιβλιοθήκη «Άγιος Κλήμης της Αχρίδας» (revision 9608210)
|
||
Κλίμα (revision 9262599)
|
||
Δακτυλιοσκώληκες (revision 8985128)
|
||
Ασπάλακας (revision 9429446)
|
||
Μόλυνση (revision 8512424)
|
||
International Standard Name Identifier (revision 6861942)
|
||
Υδροξυλομάδα (revision 9719647)
|
||
Εθνική Βιβλιοθήκη του Κουβέιτ (revision 9511761)
|
||
Homo rhodesiensis (revision 7605622)
|
||
Αγγλική γλώσσα (revision 9779698)
|
||
Περιβαλλοντική εκπαίδευση (revision 7971138)
|
||
Γουανίνη (revision 8392293)
|
||
Γριβάδι (revision 9370003)
|
||
Διεθνής Επιτροπή Στρωματογραφίας (revision 9796210)
|
||
Εχινόδερμα (revision 9101031)
|
||
Εθνική Βιβλιοθήκη των Φιλιππινών (revision 9511751)
|
||
Αρτίγονος (revision 9753577)
|
||
Εθνική Βιβλιοθήκη της Σρι Λάνκα (revision 9511705)
|
||
Περιβαλλοντικά προβλήματα (revision 9555971)
|
||
Υπερτάξη (revision 7554395)
|
||
Κατάλογος αντιστοιχίας Λατινικών-Ελληνικών όρων ταξινομικών μονάδων (revision 9562399)
|
||
Κόκκινος κατάλογος της IUCN (revision 9104016)
|
||
Κοινοβουλευτική Βιβλιοθήκη της Γεωργίας (revision 9508234)
|
||
Ασπόνδυλα (revision 9049085)
|
||
Τάξη (βιολογία) (revision 7554395)
|
||
Γρυλοβλαττοειδή (revision 6401187)
|
||
Γλυκόζη (revision 9770284)
|
||
Τουρκικές γλώσσες (revision 9284882)
|
||
Εκπνοή (revision 9611418)
|
||
Ανθρωπίνοι (revision 9103976)
|
||
Εθνική Βιβλιοθήκη του Μαυρικίου (revision 9736776)
|
||
Σαρκοφάγα (revision 8222140)
|
||
Χημική ένωση (revision 9478321)
|
||
Νουκλεοτίδια (revision 8520133)
|
||
Πλειστόκαινο (revision 9225169)
|
||
Υποοικογένεια (revision 8380547)
|
||
Πόδι (έντομα) (revision 7865328)
|
||
Δημόσια Βιβλιοθήκη Τσαρλς Α. Χάλμπερτ (revision 9607718)
|
||
Δισακχαρίτες (revision 9301054)
|
||
Νορβηγική γλώσσα (revision 9527903)
|
||
Σορβόζη (revision 9702780)
|
||
Bibliothèque nationale de France (revision 9636186)
|
||
1778 (revision 9509259)
|
||
Αμυλοπηκτίνη (revision 7348804)
|
||
Υφομοταξία (revision 9796614)
|
||
Κοινή καταγωγή (revision 7955205)
|
||
Βιβλιοθήκη του Βατικανού (revision 9791596)
|
||
Κράμα (revision 8491814)
|
||
Orrorin tugenensis (revision 8021796)
|
||
Εθνική Βιβλιοθήκη της Γερμανίας (revision 9533197)
|
||
Εθνική Βιβλιοθήκη της Ελλάδος (revision 9771951)
|
||
Κάρολος Λινναίος (revision 9170651)
|
||
Εθνική Βιβλιοθήκη της Μαυριτανίας (revision 9771958)
|
||
Εθνική Βιβλιοθήκη της Σαουδικής Αραβίας (revision 9777111)
|
||
Εθνική Βιβλιοθήκη της Ιορδανίας (revision 9510012)
|
||
Κλαδιστική (revision 7593647)
|
||
Κετόζες (revision 9015709)
|
||
Υδροξύλιο (revision 9719647)
|
||
Απειλούμενο είδος (revision 9387012)
|
||
Νέφος (revision 9753949)
|
||
Κατάρρινοι (revision 9802799)
|
||
Επικοινωνία (revision 9810024)
|
||
Χημικός τύπος (revision 9478340)
|
||
Εθνικά Αρχεία και Βιβλιοθήκη της Αιθιοπίας (revision 9608078)
|
||
Ολιγόκαινος εποχή (revision 8882927)
|
||
|
||
== End of Parsed pages ==
|
||
|
||
- Wikipedia parsing ended at: 2022-12-18 20:30:49.244663
|
||
|
||
62 characters appeared 918903 times.
|
||
|
||
Most Frequent characters:
|
||
[ 0] Char α: 9.042630179681641 %
|
||
[ 1] Char ο: 7.761537398397872 %
|
||
[ 2] Char τ: 7.389680956531865 %
|
||
[ 3] Char ι: 7.071584269503963 %
|
||
[ 4] Char ν: 6.1224090029089036 %
|
||
[ 5] Char ε: 5.937188147171138 %
|
||
[ 6] Char κ: 4.257359046602308 %
|
||
[ 7] Char ρ: 4.217311294010358 %
|
||
[ 8] Char σ: 4.050373107934135 %
|
||
[ 9] Char η: 3.6424954538183028 %
|
||
[10] Char π: 3.53171118170253 %
|
||
[11] Char ς: 3.3343018795237365 %
|
||
[12] Char μ: 3.2733596473185957 %
|
||
[13] Char υ: 3.02023173283796 %
|
||
[14] Char λ: 2.6589313561932 %
|
||
[15] Char ί: 2.381426548830508 %
|
||
[16] Char ό: 1.9545044471505697 %
|
||
[17] Char ά: 1.8594998601593422 %
|
||
[18] Char γ: 1.7558980654106038 %
|
||
[19] Char δ: 1.6237840120230318 %
|
||
[20] Char έ: 1.569806606355622 %
|
||
[21] Char ω: 1.5474973963519545 %
|
||
[22] Char ή: 1.323969994656672 %
|
||
[23] Char χ: 1.1194870405254962 %
|
||
[24] Char ύ: 1.0730185884690766 %
|
||
[25] Char θ: 1.0217618181679675 %
|
||
[26] Char ώ: 0.7902901612030867 %
|
||
[27] Char φ: 0.7704839357364162 %
|
||
[28] Char β: 0.7675456495408112 %
|
||
[29] Char ξ: 0.4437900409510035 %
|
||
[30] Char ζ: 0.4305133403634551 %
|
||
[31] Char a: 0.4036334629444022 %
|
||
[32] Char e: 0.39601568391875963 %
|
||
[33] Char i: 0.3618445037180203 %
|
||
[34] Char n: 0.3161378295641651 %
|
||
[35] Char o: 0.31026125717295516 %
|
||
[36] Char s: 0.2842519830711185 %
|
||
[37] Char r: 0.2519308349194638 %
|
||
[38] Char t: 0.23560702272165832 %
|
||
[39] Char l: 0.20110936627696285 %
|
||
[40] Char c: 0.19925933422787825 %
|
||
[41] Char h: 0.1609527882703615 %
|
||
[42] Char d: 0.14419367441394795 %
|
||
[43] Char u: 0.13690237163226152 %
|
||
[44] Char m: 0.1365758953883054 %
|
||
[45] Char p: 0.11328725665276966 %
|
||
[46] Char ψ: 0.10240471518756604 %
|
||
|
||
The first 47 characters have an accumulated ratio of 0.9949875014011275.
|
||
The first 6 characters have an accumulated ratio of 0.4332502995419538.
|
||
All characters whose order is over 31 have an accumulated ratio of 0.03350734517136193.
|
||
|
||
1389 sequences found.
|
||
|
||
First 849 (typical positive ratio): 0.9950207709120384
|
||
Next 223 (1072-849): 0.003984435961508326
|
||
Rest: 0.0009947931264532306
|
||
|
||
- Processing end: 2022-12-18 20:30:49.348223
|