uchardet/script/BuildLangModelLogs/LangLithuanianModel.log
Jehan eb8308d50a src, script: regenerate all existing language models.
Now making sure that we have a generic language model working with UTF-8
for all 26 supported models which had single-byte encoding support until
now.
2022-12-14 00:23:13 +01:00

167 lines
5.1 KiB
Plaintext

= Logs of language model for Lithuanian (lt) =
- Generated by BuildLangModel.py
- Started: 2021-03-16 19:23:31.104161
- Maximum depth: 4
- Max number of pages: 100
== Parsed pages ==
Karūna (laivas) (revision 5105933)
1650 (revision 5301814)
1654 (revision 5301823)
1664 (revision 5301833)
1665 (revision 5301834)
1668 (revision 5301872)
1669 (revision 5301873)
1672 (revision 5301876)
1676 (revision 5801857)
1718 (revision 5301969)
1909 (revision 6129929)
1928 (revision 6176161)
1932 (revision 6195207)
1956 (revision 6150066)
1980 (revision 6190258)
Baltijos jūra (revision 6193053)
Burinis laivas (revision 6040752)
Flagmanas (laivas) (revision 5987584)
Grimzlė (revision 5989647)
Kalmaras (Švedija) (revision 5604914)
Karo laivas (revision 5994228)
Karolis XI (revision 5480144)
Karolis XII (revision 5880104)
Kilis (revision 5995782)
Koordinačių sistema (revision 6044079)
Laivo vėliava (revision 6208955)
Liepos 1 d. (revision 5779083)
Nyderlandai (revision 6196943)
Olando mūšis (revision 6020430)
Rugpjūčio 10 (revision 5793253)
Varytuvas (revision 6020287)
Vaza (laivas) (revision 6203069)
XVIII a. (revision 6031323)
XVII a. (revision 6025004)
Švedija (revision 6205204)
Švedų kalba (revision 5560532)
1590 (revision 5801846)
1596 (revision 5552466)
1608 (revision 5637570)
1610 (revision 5301721)
1647 m. (revision 5301819)
1648 m. (revision 5301818)
1649 m. (revision 5301820)
1651 m. (revision 5301821)
1652 m. (revision 5301836)
1653 m. (revision 5301822)
1702 (revision 5301912)
1704 (revision 5301925)
1722 (revision 5301973)
1723 (revision 5301974)
1737 (revision 5302020)
2 tūkstantmetis (revision 5976362)
ATR (revision 6212255)
Abiejų Tautų Respublika (revision 6212255)
Adomas Freitagas (revision 6152308)
Armėnų kalendorius (revision 5965695)
Bahajų kalendorius (revision 6168286)
Bajorai (revision 6040220)
Berberų kalendorius (revision 4926904)
Birželio 21 (revision 6172033)
Bizantijos kalendorius (revision 5300569)
Budistų kalendorius (revision 5979182)
Dešimtmetis (revision 5982040)
Dominikonai (revision 6068818)
Dominikonų ordinas (revision 6068818)
Emanuelis Vladislovas Tiškevičius Logoiskis (revision 5761120)
Filosofas (revision 5836448)
Gegužės 26 (revision 6075204)
Grafas (titulas) (revision 5832187)
Grigaliaus kalendorius (revision 5989624)
Hebrajų kalendorius (revision 5990271)
Iraniečių kalendorius (revision 4964854)
Japonų kalendorius (revision 6082601)
John Churchill (revision 5350480)
Jurgis Kasakauskis (revision 5047829)
Jurgis Kazimieras Ancuta (revision 5059404)
Jurgis Mikalojus Tiškevičius (revision 5481136)
Kalijugos kalendorius (revision 5741238)
Kazimieras Tiškevičius Logoiskis (revision 5481143)
Kinų kalendorius (revision 5995873)
Koptų kalendorius (revision 5996919)
Korėjiečių kalendorius (revision 5996955)
LDK (revision 6130316)
Lapkričio 14 (revision 5943612)
Lelija (herbas) (revision 5999126)
Lietuvių kalba (revision 6201110)
Lietuvos Didžioji Kunigaikštystė (revision 6130316)
Metai (revision 5765072)
Mianmaro kalendorius (revision 5979182)
Mokslų daktaras (revision 6172930)
Motiejus Juozapas Ancuta (revision 4951716)
Musulmonų kalendorius (revision 4705912)
Nekeliamieji metai, prasidedantys šeštadienį (revision 6004293)
Profesorius (revision 6009297)
René Descartes (revision 6201538)
Saka kalendorius (revision 6109866)
Senovės indų kalendoriai (revision 6012785)
Spauda (revision 5345510)
Stanislovas Kristupas Naruševičius (revision 5481106)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2021-03-16 19:26:36.949228
68 characters appeared 398895 times.
First 40 characters:
[ 0] Char i: 13.296732222765389 %
[ 1] Char a: 11.103673899146392 %
[ 2] Char s: 8.654407801551786 %
[ 3] Char o: 6.708030935459205 %
[ 4] Char e: 5.518244149462891 %
[ 5] Char r: 5.427493450657441 %
[ 6] Char t: 5.170533599067424 %
[ 7] Char n: 5.082039133105203 %
[ 8] Char u: 4.293109715589315 %
[ 9] Char k: 4.091302222389351 %
[10] Char l: 3.876208024668146 %
[11] Char m: 3.384349264844132 %
[12] Char d: 3.0411511801351234 %
[13] Char v: 2.8220459018037327 %
[14] Char j: 2.286817332882087 %
[15] Char p: 2.243196831246318 %
[16] Char g: 1.902756364456812 %
[17] Char ė: 1.5700873663495405 %
[18] Char b: 1.55980897228594 %
[19] Char y: 1.2637410847466124 %
[20] Char ų: 1.1800097770089872 %
[21] Char š: 0.9924917584828087 %
[22] Char ž: 0.8423269281389839 %
[23] Char c: 0.557289512277667 %
[24] Char č: 0.49461637774351647 %
[25] Char f: 0.40336429386179323 %
[26] Char ū: 0.3863172012685043 %
[27] Char ą: 0.36901941613707867 %
[28] Char z: 0.362501410145527 %
[29] Char h: 0.3604958698404342 %
[30] Char į: 0.3070983592173379 %
[31] Char ę: 0.15618145125910327 %
[32] Char x: 0.09777008987327492 %
[33] Char w: 0.05715789869514534 %
[34] Char ó: 0.027325486656889657 %
[35] Char á: 0.014289474673786336 %
[36] Char é: 0.011531856754283708 %
[37] Char ã: 0.011030471678010504 %
[38] Char ö: 0.008523546296644481 %
[39] Char q: 0.007270083605961468 %
The first 40 characters have an accumulated ratio of 0.9994234071622861.
1138 sequences found.
First 512 (typical positive ratio): 0.9919219576954762
Next 512 (512-1024): 0.008423269281389839
Rest: 0.00033781981757727893
- Processing end: 2021-03-16 19:26:37.062994