uchardet/script/BuildLangModelLogs/LangEstonianModel.log

233 lines
7.0 KiB
Plaintext

= Logs of language model for Estonian (et) =
- Generated by BuildLangModel.py
- Started: 2022-12-14 23:51:10.973727
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
Harilik pohl (revision 6214729)
Okasmets (revision 4634930)
Kajakas (revision 5877896)
Hendrik Relve (revision 6239649)
Euraasia (revision 5979562)
Klass (bioloogia) (revision 3489567)
Põhja-Ameerika (revision 6057090)
Leesikas (revision 6078259)
Nõmm (revision 5979536)
Juurestik (revision 3341159)
Ida-Euroopa (revision 6093192)
Tuhk (revision 5757120)
Laanemets (revision 6263946)
Antarktis (revision 6241944)
Juurekael (revision 5994523)
Kuldmikrofon (revision 6268376)
Maailmajagu (revision 5713103)
Masuut (revision 5343618)
Eesti Maaülikool (revision 6242625)
Maa (planeet) (revision 6267326)
Melaneesia (revision 3521152)
Kattekold (revision 5583465)
Vingugaas (revision 6037399)
Regioon (revision 6001414)
1948 (revision 5944400)
Mineraal (revision 6017794)
1967 (revision 6260590)
Lõuna-Aafrika (revision 5329241)
Kultuur (revision 5849872)
Leseleht (revision 5411820)
Jääkajakas (revision 5726751)
Ida-Siber (revision 5500451)
Küttepuud (revision 6212731)
Põhja-Euroopa (revision 6205189)
Harilik ussilakk (revision 6126452)
Euroopa (revision 6164900)
Metsatulekahju (revision 6201635)
Lõuna-Ameerika manner (revision 5969300)
Imetajad (revision 6259823)
Männik (revision 5798754)
Tallinna Reaalkool (revision 6203404)
Rahva Raamat (revision 6223805)
Tiiu Relve (revision 6140880)
Sinilill (revision 6078788)
Kivisüsi (revision 6130479)
Karbuskajakas (revision 5726756)
Harilik mänd (revision 6214719)
Vaskvitriol (revision 5293135)
Elu (revision 5979638)
Eesti Metsakorralduskeskus (revision 6147611)
Edela-Euroopa (revision 5491146)
Uus-Hispaania asekuningriik (revision 5973763)
Kanarbik (revision 6160743)
Pruunsüsi (revision 5536362)
Alamklass (bioloogia) (revision 5129886)
Tõmmukajakas (revision 6206529)
Lääne-Siber (revision 5060366)
Põhja-Ameerika manner (revision 5482041)
Vaikne ookean (revision 5614735)
Triibus (revision 5827255)
Võrse (revision 6248963)
Vaarikas (revision 6118808)
Äraspidimunajas leht (revision 5015991)
Magma (revision 5876846)
Farmakopöa (revision 4639831)
Perekond (bioloogia) (revision 6200916)
Kanada (revision 6239766)
Polüneesia (revision 4031998)
Tuhaplokk (revision 6141202)
Ladina keel (revision 6173071)
Kaug-Ida (revision 5644298)
Põhjavesi (revision 6035090)
Alamliik (revision 5278935)
Kuslapuu (revision 6147930)
Põhja-Aasia (revision 5161593)
Mikroneesia (revision 5131008)
Tartu Ülikool (revision 6267789)
Aafrika (revision 6267646)
Öland (revision 6176389)
Deliirium (revision 5734894)
Siberi seedermänd (revision 6220739)
Manner (revision 5960299)
Salumetsad (revision 6138640)
Aasia (revision 5829266)
Kagu-Euroopa (revision 5990556)
Piirkond (revision 6001414)
Austraalia ja Okeaania (revision 4983417)
Albaania (revision 6257268)
Arumetsad (revision 4779035)
Vulkaaniline tuhk (revision 5623096)
Tahm (revision 5293173)
Tsüstiit (revision 6141175)
Rumeenia (revision 6177876)
Ülemklass (revision 5432535)
Lehis (revision 6132033)
Tee (jook) (revision 6223529)
Põhja-Ameerika inglise keel (revision 5408982)
Leheroots (revision 6183341)
Keelikloomad (revision 5939581)
Austraalia ja Uus-Meremaa (revision 6145734)
Nulg (revision 5558808)
Austraalia manner (revision 5442365)
Kuusk (revision 6267330)
Liik (bioloogia) (revision 6203064)
Maailmameri (revision 6100027)
Taksaator (revision 4477687)
Mets (revision 6120783)
Tallinn (revision 6260994)
Harilik pihlakas (revision 6020517)
Turvas (revision 6166592)
USGS (revision 6227151)
Euraasia laam (revision 5375994)
Ruutkilomeeter (revision 5300255)
18. detsember (revision 6178181)
Põhja-Jäämeri (revision 6099723)
2015 (revision 6094792)
Konvektsioon (revision 5825119)
Binaarne nomenklatuur (revision 5719069)
18. sajand Eestis (revision 6110372)
Männas (revision 3543693)
19. sajand (revision 5890985)
1883 (revision 5887052)
Harilik porss (revision 5411929)
Jupiter (revision 6238990)
Kuriili lehis (revision 5411660)
Vesinik (revision 5931159)
Kurvitsalised (revision 5855153)
Palumetsad (revision 6262845)
Pruunvetikad (revision 6201643)
Polaartelg (revision 5550654)
Kultuurimaja (revision 5922863)
Antratsiit (revision 6156512)
Viljandi (revision 6205977)
Sete (revision 5976908)
Ameerika (revision 6056843)
Väike mandlipuu (revision 5397046)
Geoloogiline aeg (revision 216025)
Tarn (revision 6115293)
Polaaralad (revision 6071951)
Lääne-Aafrika (revision 5329227)
1908. aasta suveolümpiamängud (revision 5300207)
1799 (revision 4947859)
15. august (revision 6178254)
Reiu männikud (revision 5814120)
Süsinik (revision 5951019)
Maksahaigused (revision 5398828)
Merikajakas (revision 6220119)
Munajas leht (revision 3012434)
Kagu-Aasia (revision 5244191)
Tihumeeter (revision 5916725)
Ida-Eesti (revision 5944399)
Kaitsestaatus (revision 5622492)
Lõuna-Eesti (revision 5756065)
Geen (revision 6160416)
Skandinaavia poolsaar (revision 4991435)
Indoneesia (revision 6229579)
9. juuli (revision 5992613)
Hiidmanner (revision 3493207)
Tallinna Tehnikaülikool (revision 6267300)
Kuur (revision 5304082)
Liblikalised (revision 6026473)
Albaania linnad (revision 5842285)
Kristallstruktuur (revision 6188534)
Põhja-Eesti (revision 6126391)
Prantslased (revision 5984522)
Akadi keel (revision 6144297)
Muld (revision 5957717)
Külmaseen (revision 6264761)
Larus canus canus (revision 5855148)
Hoovus (revision 5754496)
Teiin (revision 5717293)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-14 23:54:01.496149
58 characters appeared 629128 times.
Most Frequent characters:
[ 0] Char a: 12.73921999974568 %
[ 1] Char e: 10.231463231647615 %
[ 2] Char i: 10.16009460713877 %
[ 3] Char s: 8.462188934525248 %
[ 4] Char t: 6.624089215549141 %
[ 5] Char l: 6.260729136201218 %
[ 6] Char u: 5.553877748248369 %
[ 7] Char n: 5.385549522513702 %
[ 8] Char k: 4.786943197568698 %
[ 9] Char o: 4.291972380819165 %
[10] Char d: 3.9700982947826193 %
[11] Char r: 3.892530613801961 %
[12] Char m: 3.7164138299360383 %
[13] Char v: 2.3497603031497563 %
[14] Char p: 1.8603527422082626 %
[15] Char g: 1.775314403428237 %
[16] Char j: 1.7096679848933765 %
[17] Char h: 1.5667717857097443 %
[18] Char ä: 1.1379242379929044 %
[19] Char õ: 0.9997965437875918 %
[20] Char b: 0.9778614208873234 %
[21] Char ü: 0.6551925840210577 %
[22] Char f: 0.22761663763176967 %
[23] Char c: 0.22666293663610582 %
[24] Char ö: 0.2026614615785659 %
[25] Char y: 0.06135476405437367 %
[26] Char w: 0.054043056420950905 %
[27] Char x: 0.031154232525018755 %
[28] Char z: 0.024160425223483932 %
[29] Char š: 0.02066352157271652 %
[30] Char ž: 0.010172810620414289 %
[31] Char q: 0.009219109624750449 %
The first 32 characters have an accumulated ratio of 0.9997552167444463.
The first 4 characters have an accumulated ratio of 0.41592966773057316.
All characters whose order is over 18 have an accumulated ratio of 0.035005595045841234.
876 sequences found.
First 431 (typical positive ratio): 0.9950077226033445
Next 157 (588-431): 0.003997910901044732
Rest: 0.000994366495610799
- Processing end: 2022-12-14 23:54:01.570903