uchardet/script/BuildLangModelLogs/LangArabicModel.log
Jehan b70b1ebf88 Rebuild a bunch of language models.
Adding generic language model (see coming commit), which uses the same
data as specific single-byte encoding statistics model, except that it
applies it to unicode code points.
For this to work, instead of the CharToOrderMap which was mapping
directly from encoded byte (always 256 values) to order, now we add an
array of frequent characters, ordered by generic unicode code points to
the order of frequency (which can be used on the same sequence mapping
array).

This of course means that each prober where we will want to use these
generic models will have to implement their own byte to code point
decoder, as this is per-encoding logics anyway. This will come in a
subsequent commit.
2022-12-14 00:23:13 +01:00

193 lines
7.1 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

= Logs of language model for Arabic (ar) =
- Generated by BuildLangModel.py
- Started: 2021-03-16 11:33:00.432776
- Maximum depth: 4
- Max number of pages: 100
== Parsed pages ==
الصفحة_الرئيسية (revision 52017134)
1442 هـ (revision 53072582)
1521 (revision 51053075)
15 مارس (revision 53063546)
16 مارس (revision 53079323)
1775 (revision 50066071)
17 مارس (revision 52787393)
1977 (revision 52535026)
1988 (revision 52921343)
1989 (revision 52945821)
2021 (revision 53072089)
3 شعبان (revision 53076204)
آذار (revision 50305961)
آفة (كائن حي) (revision 50728417)
أبو الريحان البيروني (revision 52901629)
أبو موسى الأشعري (revision 52327088)
أتراك (revision 52923553)
أحلام الجريتلي (revision 53054581)
أستراليا المفتوحة 2021 (revision 52951662)
ألمان (revision 51707635)
أم (revision 52894160)
أمريكا الجنوبية (revision 52623681)
إسبان (revision 53023219)
إسبانيا (revision 52945464)
إسكندنافيا (revision 52901031)
إيران (revision 53077058)
اشتباكات الصحراء الغربية 2020 (revision 52776181)
اغتيال (revision 52605819)
الإسلام (revision 53061751)
الاحتجاجات الروسية 2021 (revision 52959948)
التفسير الموضوعي (تفسير) (revision 53063711)
الجزري (revision 52615628)
الحزب التقدمي الاشتراكي (revision 52719072)
الحضارة الغربية (revision 52663404)
الحملة الصليبية الثانية (revision 53028660)
الشمس (revision 53011313)
العراق (revision 53078113)
الفتح الإسلامي لفارس (revision 52960739)
الفتح الإسلامي للشام (revision 53000955)
الفتح الإسلامي للمغرب (revision 53015306)
الفتح الإسلامي لمصر (revision 52728321)
الفلبين (revision 53043940)
القرآن الكريم (revision 53047128)
القمر (revision 52920452)
القواعد الصاروخية الإيرانية تحت الأرض (revision 50043780)
اللغة العربية (revision 52929542)
المكثرون لرواية الحديث (revision 51989111)
الهجوم الكيماوي على حلبجة (revision 52723565)
انتهازية (revision 52279176)
انقراض العصر الطباشيري-الباليوجيني (revision 52688972)
باتا (revision 46639883)
باتريك أتشي (revision 53024512)
بحث علمي (revision 51195242)
برسفيرنس (مركبة جوالة) (revision 52965815)
برنامج أبولو (revision 52571274)
بعقلين (revision 48961465)
بلاد السند (revision 52279660)
بوتان (revision 52999635)
ترابط زوجي (revision 50219604)
تسمية ثنائية (revision 53076878)
تفجيرات باتا 2021 (revision 53043062)
تقويم هجري (revision 53077283)
توقيت عالمي منسق (revision 52887567)
تونس (revision 53047571)
جائحة فيروس كورونا 201920 (revision 52954613)
جائزة الملك فيصل العالمية (revision 52691751)
جائزة الملك فيصل العالمية في الدراسات الإسلامية (revision 53078767)
جواثم (revision 49526826)
جيرارد كايبر (revision 52265632)
جيفة (revision 52535861)
حامد باكايوكو (revision 53079223)
حديث نبوي (revision 53075245)
حرس الثورة الإسلامية (revision 53019030)
حرملة بن كاهل (revision 52891720)
حرية (revision 52761732)
حصار البصرة (1775) (revision 52323981)
خوسيه دي سان مارتين (revision 49958538)
خير الدين حسيب (revision 53076407)
دير دوريت (revision 32094684)
ذكاء (revision 52187723)
روما القديمة (revision 51009123)
ساحل العاج (revision 52429752)
ساعة الفيل (revision 52709413)
سالم بن عبد الله بن عمر بن الخطاب (revision 51752881)
سرب (revision 52828105)
سرعة الصوت (revision 52975385)
سرعة الضوء (revision 52244159)
سوسن ربيع (revision 53077510)
سيبيريا (revision 52919273)
سيمون بوليفار (revision 53011030)
شريعة إسلامية (revision 53070018)
شفق (revision 48963569)
صباح عبد الجليل (revision 52995683)
صحابة (revision 52201334)
صلاة الجمعة (revision 52577966)
صلاة العيد (revision 49726428)
طائر التعريشة الساتاني (revision 44913097)
طائر القيثارة (revision 52673886)
طابا (revision 53078953)
عبد الله الرضيع (revision 50505781)
عبد الله بن عباس (revision 52388329)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2021-03-16 11:42:48.951707
101 characters appeared 1520487 times.
First 64 characters:
[ 0] Char ا: 14.550206611434364 %
[ 1] Char ل: 11.41772340046314 %
[ 2] Char ي: 7.748043883308441 %
[ 3] Char م: 6.294036055553254 %
[ 4] Char و: 5.778148711564124 %
[ 5] Char ن: 5.249304992413615 %
[ 6] Char ر: 4.93203822196441 %
[ 7] Char ت: 4.071261378755622 %
[ 8] Char ب: 3.8685631643019636 %
[ 9] Char ة: 3.2951942371095577 %
[10] Char ع: 3.235344991440243 %
[11] Char د: 2.921103567475421 %
[12] Char س: 2.615806646160079 %
[13] Char ف: 2.609032500771135 %
[14] Char ه: 2.300841769775079 %
[15] Char ق: 2.1174794654607374 %
[16] Char أ: 2.0117238753110023 %
[17] Char ك: 1.952006166445356 %
[18] Char ح: 1.788966298297848 %
[19] Char ج: 1.297939410202126 %
[20] Char ط: 0.9575221623072082 %
[21] Char ص: 0.8946475701535099 %
[22] Char ش: 0.8939898861351658 %
[23] Char إ: 0.8849796150838514 %
[24] Char ى: 0.8706421034839494 %
[25] Char خ: 0.7856693283138889 %
[26] Char ث: 0.6599201440064926 %
[27] Char ز: 0.6011231927665281 %
[28] Char ذ: 0.5680416866438187 %
[29] Char ض: 0.5665290134016273 %
[30] Char غ: 0.5086528197873444 %
[31] Char ئ: 0.3490329085352259 %
[32] Char ء: 0.29898315473923814 %
[33] Char ظ: 0.20197476203348005 %
[34] Char آ: 0.15396382869435912 %
[35] Char ؤ: 0.09148384695166746 %
[36] Char a: 0.05748158320327632 %
[37] Char e: 0.045972112882254175 %
[38] Char i: 0.042946766397871206 %
[39] Char t: 0.042223313977692675 %
[40] Char ـ: 0.03972411470798501 %
[41] Char r: 0.035778010597920275 %
[42] Char s: 0.034988789775907324 %
[43] Char n: 0.031437296076849065 %
[44] Char l: 0.030319233245664053 %
[45] Char o: 0.029661549227319933 %
[46] Char c: 0.0209143517833431 %
[47] Char m: 0.01861245771913867 %
[48] Char d: 0.018086310504463375 %
[49] Char y: 0.015060964020080407 %
[50] Char h: 0.01479789041274276 %
[51] Char p: 0.01479789041274276 %
[52] Char u: 0.014732122010908347 %
[53] Char f: 0.010194102284333902 %
[54] Char C: 0.008221050229301533 %
[55] Char b: 0.007892208220129471 %
[56] Char g: 0.007431829407288587 %
[57] Char v: 0.007234524201785348 %
[58] Char S: 0.007168755799950937 %
[59] Char E: 0.006905682192613288 %
[60] Char I: 0.006445303379772402 %
[61] Char T: 0.006379534977937989 %
[62] Char A: 0.005853387763262692 %
[63] Char B: 0.005458777352256218 %
The first 64 characters have an accumulated ratio of 0.9992864128400966.
1820 sequences found.
First 512 (typical positive ratio): 0.9644868613755061
Next 512 (512-1024): 0.0774804388330844
Rest: 0.0019191680534433112
- Processing end: 2021-03-16 11:42:49.142159