uchardet/script/BuildLangModelLogs/LangEstonianModel.log

227 lines
6.8 KiB
Plaintext

= Logs of language model for Estonian (et) =
- Generated by BuildLangModel.py
- Started: 2022-12-14 17:59:35.360086
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
Harilik pohl (revision 6214729)
Taiga (revision 5484072)
Kanarbikulaadsed (revision 4318215)
Happeline keskkond (revision 2966453)
Lipiidid (revision 6039358)
Rootsi (revision 6230381)
Tuhk (revision 5757120)
Euraasia (revision 5979562)
Skandinaavia poolsaar (revision 4991435)
Kaukasus (revision 5875774)
E-vitamiin (revision 6259630)
Rahvameditsiin (revision 6232590)
Lumepüü (revision 6104785)
Arktika (revision 6173211)
Armeenia (revision 6255780)
Aasia (revision 5829266)
Tundra (revision 6073824)
Manner (revision 5960299)
Kilomeeter (revision 5864020)
Põhja-Euroopa (revision 6205189)
Vulkaaniline tuhk (revision 5623096)
Euroopa (revision 6164900)
Sugukond (bioloogia) (revision 5633781)
Must meri (revision 6209529)
Kanalised (revision 5958228)
Mükoheterotroof (revision 3527932)
Skandinaavia (revision 6068693)
Antioksüdant (revision 5283121)
Mineraal (revision 6017794)
Maa (planeet) (revision 6267326)
Itaalia (revision 6249954)
Kaspia meri (revision 5599349)
Rapsiõli (revision 6220266)
Hulkrakne (revision 5976930)
Valgevene (revision 6249613)
Västmanlandi lään (revision 6039606)
Skogskyrkogården (revision 6000925)
Hüpofüüs (revision 6144291)
Metsatulekahju (revision 6201635)
Igijää (revision 5305291)
Aasovi meri (revision 5443749)
Skåne maakond (revision 5898845)
Soodsas seisundis (revision 5579863)
Läänemeri (revision 6160779)
Aafrika manner (revision 6197378)
Orgaaniline aine (revision 5443322)
Barentsi meri (revision 5544511)
Iraan (revision 6168382)
Süsinik (revision 5951019)
19. veebruar (revision 6058910)
USA dollar (revision 6104587)
Fennoskandia kilp (revision 6177694)
Väike-Kaukasus (revision 5482811)
Küttepuud (revision 6212731)
Rebane (revision 6247485)
Põlevkivi (revision 6259723)
Klass (bioloogia) (revision 3489567)
Elbrus (revision 5852104)
Kask (revision 6202151)
Austraalia manner (revision 5442365)
Kivisüsi (revision 6130479)
Eulitoraal (revision 4240852)
Venemaa (revision 6252977)
Isomeer (revision 5258491)
Nurmenukulised (revision 5842619)
Meä keel (revision 6212690)
Binaarne nomenklatuur (revision 5719069)
Riik (bioloogia) (revision 6055648)
Linnud (revision 6218411)
Skulptor (revision 5941312)
Soome keel (revision 6212800)
Lipoproteiinid (revision 5758152)
Kaitsestaatus (revision 5622492)
Antioksüdandid (revision 5283121)
Pelagiaal (revision 3524195)
Suur-Kaukasus (revision 5162874)
Mälaren (revision 5790265)
Magma (revision 5876846)
Tahm (revision 5293173)
Hõimkond (revision 6055579)
Peaahelik (revision 5557886)
Mangaan (revision 6167758)
Gruusia (revision 6261387)
Miljard (revision 6192929)
Antarktis (revision 6241944)
Poolsaar (revision 5285634)
Põhja-Ameerika manner (revision 5482041)
Liik (bioloogia) (revision 6203064)
Selts (bioloogia) (revision 5233008)
Riigikirik (revision 5749017)
Maailmajagu (revision 5713103)
Steroidid (revision 5315278)
Vingugaas (revision 6037399)
Tuhaplokk (revision 6141202)
Litoraal (revision 3529895)
Rahvaarv (revision 5572845)
Lõuna-Ameerika manner (revision 5969300)
Triviaalnimetus (revision 5987887)
Norra meri (revision 5635004)
Parasvöötme okasmetsad (revision 3680619)
Hüdrotermid (revision 2106404)
Faasanlased (revision 5332197)
Atlandi ookean (revision 6248758)
Ruutkilomeeter (revision 5300255)
Vahad (revision 5657711)
Süda (revision 6226792)
Perekond (bioloogia) (revision 6200916)
Põhja-Ameerika (revision 6057090)
USGS (revision 6227151)
Alamhõimkond (revision 5416587)
Bentaal (revision 5842654)
Kaasani khaaniriik (revision 6023584)
Xaafuuni neem (revision 3164564)
Galenos (revision 6256167)
Medicina (revision 6133657)
Mootor (revision 6164617)
Maailmameri (revision 6100027)
Alamperekond (revision 3562833)
Virmalised (revision 6034517)
Süsinik-14 (revision 5438227)
Valgus (revision 6111722)
Naatriumkloriid (revision 5735729)
Söödav rannakarp (revision 5849789)
Mosambiigi väin (revision 5456772)
Saamid (revision 6267441)
Kliima (revision 5719219)
Berüllium (revision 6265103)
Eesti (revision 6265105)
Läänepoolkera (revision 5702463)
Vahemeri (revision 6242683)
322 eKr (revision 5491330)
Kalorsus (revision 5843070)
Aafrika (revision 6267646)
Viskoossus (revision 5965904)
Tahkis (revision 5641786)
Sölkupi keel (revision 6212668)
Domeen (bioloogia) (revision 5948946)
Põder (revision 6137122)
Edela-Aasia (revision 5297944)
Zooloogia (revision 5707518)
Rohumaa (revision 5416639)
Vaikne ookean (revision 5614735)
Alepõllundus (revision 4784483)
Benguela hoovus (revision 5538476)
Ubikinoonid (revision 5553988)
Marss (revision 6220107)
Juriidiline isik (revision 6019028)
NCI (revision 5398920)
Rumeenia (revision 6177876)
Põldpisikas (revision 5427796)
Aserbaidžaani keel (revision 6224462)
Kesk-Euroopa (revision 6011387)
Västerås (revision 6261231)
Orgaaniline keemia (revision 6188582)
Alamselts (revision 3769559)
Tihumeeter (revision 5916725)
Soojusenergia (revision 5677639)
Lõuna-Aasia (revision 6239881)
Šelf (revision 5747738)
Svalbard (revision 6210637)
Ida-sinivutt (revision 4824435)
Plastilisus (revision 5162815)
Nafta (revision 6219123)
Keemiline ühend (revision 6245974)
Rannavöönd (revision 5285661)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-14 18:02:05.521306
60 characters appeared 605812 times.
Most Frequent characters:
[ 0] Char a: 12.587733488276893 %
[ 1] Char i: 10.41016024773362 %
[ 2] Char e: 10.314751110905695 %
[ 3] Char s: 8.609106455468032 %
[ 4] Char t: 6.5521977115012575 %
[ 5] Char l: 5.932203389830509 %
[ 6] Char u: 5.334163073692829 %
[ 7] Char n: 5.233141634698554 %
[ 8] Char k: 4.634110912296223 %
[ 9] Char o: 4.480763008986286 %
[10] Char r: 4.1257023631093475 %
[11] Char d: 4.057859533980839 %
[12] Char m: 3.8244537909450456 %
[13] Char v: 2.4172515565885124 %
[14] Char g: 1.8652651317570466 %
[15] Char p: 1.7193452754319822 %
[16] Char j: 1.6229457323394056 %
[17] Char h: 1.546684449961374 %
[18] Char ä: 1.1340151730239745 %
[19] Char õ: 0.9801720665817119 %
[20] Char b: 0.9091929509484792 %
[21] Char ü: 0.6977412134457555 %
[22] Char f: 0.2794596343420071 %
[23] Char c: 0.22878384713409441 %
[24] Char ö: 0.21475309171822282 %
[25] Char y: 0.07147431876555763 %
[26] Char w: 0.044403214198464214 %
[27] Char z: 0.04291760480148957 %
[28] Char š: 0.03879091203211557 %
[29] Char x: 0.021458802400744784 %
[30] Char ž: 0.020468396136095024 %
[31] Char q: 0.01436089083742151 %
The first 32 characters have an accumulated ratio of 0.9996583098386959.
The first 3 characters have an accumulated ratio of 0.33312644846916206.
All characters whose order is over 18 have an accumulated ratio of 0.03563976943342159.
915 sequences found.
First 453 (typical positive ratio): 0.9950155799281164
Next 161 (614-453): 0.003991392475357514
Rest: 0.000993027596526086
- Processing end: 2022-12-14 18:02:05.599161