mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-06 16:56:40 +08:00
Not sure why we had the Bulgarian support but haven't recently updated it (i.e. never with the model generation script, or so it seems), especially with generic language models, allowing to have UTF-8/Bulgarian support. Maybe I tested it some time ago and it was getting bad results? Anyway now with all the recents updates on the confidence computation, I get very good detection scores. So adding support for UTF-8/Bulgarian and rebuilding other models too. Also adding a test for ISO-8859-5/Bulgarian (we already had support, but no test files). The 2 new test files are text from page 'Мармоти' on Wikipedia in Bulgarian language.
264 lines
10 KiB
Plaintext
264 lines
10 KiB
Plaintext
= Logs of language model for Bulgarian (bg) =
|
||
|
||
- Generated by BuildLangModel.py
|
||
- Started: 2022-12-17 18:13:39.705509
|
||
- Maximum depth: 4
|
||
- Max number of pages: 200
|
||
|
||
== Parsed pages ==
|
||
|
||
Амурски_леопард (revision 11479353)
|
||
Пектусан (revision 11051736)
|
||
Тъкан (revision 11413541)
|
||
Растителноядно животно (revision 9401552)
|
||
Козмин (залив) (revision 10801896)
|
||
Око (revision 11307426)
|
||
Руска кухня (revision 8912349)
|
||
Обединена система за таксономична информация (revision 10952587)
|
||
Лисица (revision 11570875)
|
||
Сихоте Алин (revision 10913633)
|
||
Шриланкски леопард (revision 11478652)
|
||
Фазан (revision 11554738)
|
||
Северна Корея (revision 11596651)
|
||
Протисти (revision 11599945)
|
||
Калдера (revision 10605482)
|
||
Месо (revision 11396435)
|
||
Мезозойска ера (revision 11406482)
|
||
Тамилски (revision 11536357)
|
||
Птици (revision 11599947)
|
||
Паразитизъм (revision 10905879)
|
||
Череп (revision 11382448)
|
||
Домати (revision 11568692)
|
||
Гъби (revision 11575731)
|
||
Връх (revision 11560584)
|
||
Хабаровски край (revision 11326255)
|
||
Слъзна жлеза (revision 9848117)
|
||
Клетка (биология) (revision 11599652)
|
||
Чанбайшан (revision 11436397)
|
||
Усури (revision 11485897)
|
||
Нормативен контрол (revision 11218813)
|
||
Phasianus (revision 11554738)
|
||
Перм (период) (revision 10376629)
|
||
Въздух (revision 11586473)
|
||
Растения (revision 11599967)
|
||
Лов (revision 11549760)
|
||
Култ към личността (revision 11309525)
|
||
Биология (revision 11597684)
|
||
Азиатска късоноктеста видра (revision 11530864)
|
||
Ротатории (revision 10164408)
|
||
Торонто (revision 11500811)
|
||
Епител (revision 11544065)
|
||
Животни (revision 11599450)
|
||
Animal Diversity Web (revision 11280365)
|
||
Главоноги (revision 11321675)
|
||
Новозеландски морски лъв (revision 11531150)
|
||
Общомедия (revision 11583644)
|
||
Яйцеклетка (revision 11574210)
|
||
Риба (revision 11602135)
|
||
Ялуцзян (revision 11616897)
|
||
Водорасли (revision 11589165)
|
||
Тигрова генета (revision 11532904)
|
||
Карбон (revision 11440434)
|
||
Енотовидно куче (revision 11530902)
|
||
Пинин (revision 10953442)
|
||
Морска видра (revision 11022765)
|
||
Коткови (revision 11296822)
|
||
Сметана (revision 10602821)
|
||
Просо (revision 10908234)
|
||
Корейски полуостров (revision 11532552)
|
||
Уикивидове (revision 9824200)
|
||
Източна Азия (revision 10984512)
|
||
Злато (revision 11601280)
|
||
Лист (revision 11417909)
|
||
Уикиданни (revision 10288984)
|
||
Персийски леопард (revision 10731068)
|
||
Vormela (revision 11531190)
|
||
Африкански леопард (revision 10671790)
|
||
Далечен изток (revision 10098481)
|
||
Индийски леопард (revision 10949302)
|
||
Червен списък на световнозастрашените видове (revision 10923987)
|
||
Елда (revision 11398540)
|
||
Латински език (revision 11610275)
|
||
Николай Пржевалски (revision 11378214)
|
||
Корейски език (revision 11585784)
|
||
Цитоплазма (revision 10815311)
|
||
Силур (revision 10913196)
|
||
Дърво (revision 11599411)
|
||
Амур (revision 11232524)
|
||
Оцет (revision 10974969)
|
||
Индийски солонгой (revision 11530605)
|
||
Креда (revision 11194691)
|
||
BBC News (revision 11556539)
|
||
Ендодерма (revision 10159731)
|
||
Система на Маккюн-Райшауер (revision 10199499)
|
||
Вол (revision 11486361)
|
||
Тумънцзян (revision 11405669)
|
||
Тайга (revision 11596057)
|
||
Паренхим (revision 9238563)
|
||
Бикин (река) (revision 10416126)
|
||
Национален център за биотехнологична информация на САЩ (revision 10901368)
|
||
Кокошоподобни (revision 11377806)
|
||
Телевизор (revision 11587645)
|
||
Влажност (revision 11587428)
|
||
Анатолийски леопард (revision 10986842)
|
||
Синайски леопард (revision 10737955)
|
||
Акомодация (revision 9073034)
|
||
Бульон (revision 9265335)
|
||
Мляко (revision 11599803)
|
||
Хранителна верига (revision 9990974)
|
||
Китайски език (revision 11315056)
|
||
Мъжки (revision 11120791)
|
||
Камбрий (revision 10117802)
|
||
Зигота (revision 10544543)
|
||
Листо (revision 11417909)
|
||
Кромид лук (revision 10698110)
|
||
Хрян (revision 11494398)
|
||
Ектодерма (revision 10806725)
|
||
Храст (revision 11500525)
|
||
Геология (revision 11598573)
|
||
Дългоопашат скункс (revision 11531277)
|
||
Лигавица (revision 10894252)
|
||
Горчица (revision 8753833)
|
||
Подковонос на Мехели (revision 10377709)
|
||
Бозайници (revision 11597688)
|
||
Кванмьонсон-1 (revision 11507924)
|
||
Азиатска палмова цивета (revision 11531312)
|
||
Хранителни вещества (revision 11590475)
|
||
Дмитрий Орлов (revision 10880810)
|
||
Въглероден диоксид (revision 10769242)
|
||
Ракообразни (revision 11349934)
|
||
Испански език (revision 11599556)
|
||
Уикиречник (revision 9194836)
|
||
Уретра (revision 11600909)
|
||
ISO 639 (revision 10477132)
|
||
Биологична система (revision 10872761)
|
||
Палеозой (revision 10972967)
|
||
Розетка (revision 11250355)
|
||
Ихтиозаври (revision 11141622)
|
||
Хабаровск (revision 11427125)
|
||
Хавайски тюлен монах (revision 11531012)
|
||
Кодкод (revision 11480480)
|
||
Южна Европа (revision 10119488)
|
||
Вода (revision 11606762)
|
||
URL (revision 11283400)
|
||
Ивичест зурлест скункс (revision 11476684)
|
||
Храносмилателна система (revision 11298271)
|
||
Триас (revision 10657489)
|
||
ООН (revision 11599875)
|
||
Alexa Internet (revision 11547819)
|
||
Псориазис (revision 11607604)
|
||
Партеногенеза (revision 11201489)
|
||
Картоф (revision 11611083)
|
||
Коприва (revision 11416720)
|
||
Воден плъх (revision 11351201)
|
||
Прилепи (revision 11566273)
|
||
Odobenidae (revision 11032101)
|
||
Гондвана (revision 11074999)
|
||
Домашна муха (revision 11484479)
|
||
Трахея (revision 11408131)
|
||
Безполово размножаване (revision 10972108)
|
||
Карибски регион (revision 10503045)
|
||
Географска координатна система (revision 10929840)
|
||
Entoprocta (revision 10346607)
|
||
Бадем (revision 11339812)
|
||
Удил (revision 10422385)
|
||
Южноафриканска морска котка (revision 11476346)
|
||
Библиотечно дело (revision 11477309)
|
||
Организъм (revision 11079762)
|
||
Животно (revision 11599450)
|
||
Донг Фанг Хонг I (revision 11537199)
|
||
Палеоген (revision 9895031)
|
||
Триптофан (revision 11566722)
|
||
Боливия (revision 11584461)
|
||
Суспензия (revision 11306702)
|
||
Chlorophyceae (revision 11097610)
|
||
Тетраподоморфи (revision 10796558)
|
||
Wayback Machine (revision 11423066)
|
||
Mustelidae (revision 10988654)
|
||
Епителна тъкан (revision 11544065)
|
||
Чернолапа котка (revision 11545586)
|
||
Уралски федерален окръг (revision 11412555)
|
||
Северна Африка (revision 11617946)
|
||
Корейски архипелаг (revision 11436736)
|
||
Златна палмова цивета (revision 11530618)
|
||
Макроелемент (revision 11151625)
|
||
Международен съюз за защита на природата (revision 11546091)
|
||
Пролетен горицвет (revision 11560104)
|
||
Име (revision 11387941)
|
||
Neophoca (revision 11552636)
|
||
Алвеола (revision 10429710)
|
||
Лападови (revision 9926969)
|
||
|
||
== End of Parsed pages ==
|
||
|
||
- Wikipedia parsing ended at: 2022-12-17 18:16:58.793948
|
||
|
||
59 characters appeared 866927 times.
|
||
|
||
Most Frequent characters:
|
||
[ 0] Char а: 11.195290952986813 %
|
||
[ 1] Char и: 9.90394808328729 %
|
||
[ 2] Char о: 8.887830232533997 %
|
||
[ 3] Char е: 8.05834862681633 %
|
||
[ 4] Char т: 7.773895610587743 %
|
||
[ 5] Char н: 7.376976377480457 %
|
||
[ 6] Char р: 5.300561638984598 %
|
||
[ 7] Char с: 4.85496472021289 %
|
||
[ 8] Char в: 4.23022930419747 %
|
||
[ 9] Char л: 3.41978044287466 %
|
||
[10] Char к: 3.3481481139703804 %
|
||
[11] Char д: 2.8882477994110234 %
|
||
[12] Char п: 2.700227354783044 %
|
||
[13] Char з: 2.255207185841484 %
|
||
[14] Char м: 2.1408953695063135 %
|
||
[15] Char я: 1.6356625182973883 %
|
||
[16] Char ъ: 1.4382987264210252 %
|
||
[17] Char г: 1.3491332026802718 %
|
||
[18] Char ч: 1.2814227726209935 %
|
||
[19] Char у: 1.267234726799373 %
|
||
[20] Char б: 1.132852016375081 %
|
||
[21] Char ж: 0.7340871838113243 %
|
||
[22] Char ц: 0.6595711057563094 %
|
||
[23] Char х: 0.5456053393192275 %
|
||
[24] Char й: 0.5091547500539261 %
|
||
[25] Char a: 0.437522421149647 %
|
||
[26] Char ф: 0.37927068830478233 %
|
||
[27] Char щ: 0.3754641394258109 %
|
||
[28] Char i: 0.342589399107422 %
|
||
[29] Char e: 0.3205575555957999 %
|
||
[30] Char o: 0.3129444578378571 %
|
||
[31] Char ш: 0.27326406952373156 %
|
||
[32] Char r: 0.25757647414372836 %
|
||
[33] Char n: 0.24073537910343085 %
|
||
[34] Char s: 0.236006030496224 %
|
||
[35] Char t: 0.23069993205887002 %
|
||
[36] Char c: 0.2030159402118056 %
|
||
[37] Char l: 0.19990149112901087 %
|
||
[38] Char m: 0.16322020193165054 %
|
||
[39] Char u: 0.1605671527129735 %
|
||
[40] Char ю: 0.1558378041057667 %
|
||
[41] Char p: 0.12861521212282004 %
|
||
[42] Char d: 0.12065606446678902 %
|
||
[43] Char h: 0.11258156684472856 %
|
||
[44] Char b: 0.07832262693398637 %
|
||
[45] Char y: 0.07059417921001422 %
|
||
[46] Char g: 0.07047882924398478 %
|
||
[47] Char k: 0.053637734203687275 %
|
||
[48] Char f: 0.052368884577363495 %
|
||
[49] Char v: 0.04060318804236112 %
|
||
[50] Char w: 0.024108142900151914 %
|
||
[51] Char x: 0.022493243375739824 %
|
||
[52] Char ь: 0.01799459470059186 %
|
||
|
||
The first 53 characters have an accumulated ratio of 0.9996920155907014.
|
||
The first 5 characters have an accumulated ratio of 0.4581931350621217.
|
||
All characters whose order is over 29 have an accumulated ratio of 0.03226223199877268.
|
||
|
||
1236 sequences found.
|
||
|
||
First 720 (typical positive ratio): 0.9950164618425456
|
||
Next 201 (921-720): 0.003986830525963603
|
||
Rest: 0.0009967076314908452
|
||
|
||
- Processing end: 2022-12-17 18:16:58.922580
|