uchardet/script/BuildLangModelLogs/LangHebrewModel.log
Jehan 0974920bdd Issue #22: Hebrew CP862 support.
Added in both visual and logical order since Wikipedia says:

> Hebrew text encoded using code page 862 was usually stored in visual
> order; nevertheless, a few DOS applications, notably a word processor
> named EinsteinWriter, stored Hebrew in logical order.

I am not using the nsHebrewProber wrapper (nameProber) for this new
support, because I am really unsure this is of any use. Our statistical
code based on letter and sequence usage should be more than enough to
detect both variants of Hebrew encoding already, and my testing show
that so far (with pretty outstanding score on actual Hebrew tests while
all the other probers return bad scores). This will have to be studied a
bit more later and maybe the whole nsHebrewProber might be deleted, even
for Windows-1255 charset.

I'm also cleaning a bit nsSBCSGroupProber::nsSBCSGroupProber() code by
incrementing a single index, instead of maintaining the indexes by hand
(otherwise each time we add probers in the middle, to keep them
logically gathered by languages, we have to manually increment dozens of
following probers).
2022-12-16 23:27:52 +01:00

286 lines
10 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

= Logs of language model for Hebrew (he) =
- Generated by BuildLangModel.py
- Started: 2022-12-15 15:23:40.722736
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
יהדות_בוקרשט (revision 35182799)
בית כלא (revision 35227881)
יעקב אלמולי (revision 35001208)
טודור ולדימירסקו (revision 29886791)
בלקן (revision 33993972)
גזירות ת"ח ת"ט (revision 34763839)
סילביו ברוקאן (revision 29510407)
1912 (revision 33159662)
צבא (revision 34619941)
שיטת ספריית הקונגרס (revision 30163525)
מרסל ינקו (revision 34359400)
פנקס הקהילות (revision 34615712)
יעקב פסנתיר (revision 33120540)
בוקרשט (revision 35173617)
יהדות לוב (revision 34775645)
מדרג (revision 34420008)
קובץ בקרה משולב (revision 34980719)
צבא קבע (revision 34044374)
עברית (revision 35171043)
2003 (revision 34884225)
תומאס ג'פרסון (revision 35144907)
אפגניסטן (revision 35015482)
טנק (revision 34805353)
21 באפריל (revision 34869840)
רומנית (revision 35154129)
מערב אירופה (revision 35029137)
פינסק (revision 34882043)
בית סוהר גבעון (revision 34787725)
הקהילה היהודית הספרדית בבוקרשט (revision 32942838)
קומוניזם (revision 34968105)
אנרגיה (revision 35140939)
ספריית הוותיקן (revision 32639141)
לאו רומני (revision 34364476)
תותח (revision 35035899)
כ' בסיוון (revision 34741740)
Union List of Artist Names (revision 34992334)
בנימין גלאי (revision 33202928)
חיל הנדסה (revision 33949573)
25 באוגוסט (revision 34821302)
אנה טיכו (revision 34831809)
חייל (revision 35206828)
הלאמה (revision 34453859)
קלוויניסט (revision 34763753)
רפואה (revision 35157098)
תלמוד תורה (revision 35216490)
23 בינואר (revision 35038971)
מלחמת העולם הראשונה (revision 35191080)
כוחות מילואים (revision 32714547)
גרמנית (revision 35085309)
אוטודידקט (revision 34614272)
דיוויזיית מתנדבים 1, טודור ולדימירסקו (revision 28599203)
זית (revision 35159584)
יהדות רומניה (revision 34919407)
צבי לוקר (revision 34639828)
WorldCat (revision 34980710)
ספרי יזכור (revision 34570622)
דת (revision 35160267)
גזירות תתנ"ו (revision 34939752)
פרו (revision 35228614)
הארץ (revision 35234211)
הספרייה הלאומית (revision 35173909)
בויאר (revision 34292683)
נפוליאון בונפרטה (revision 35212132)
העולם השלישי (revision 34866022)
פנדורים (revision 22519224)
קושטא (revision 34914083)
תענית ציבור (revision 35122402)
י"ט באייר (revision 33760934)
דוד רובינגר (revision 34618241)
1886 (revision 30398678)
9 במרץ (revision 35039056)
1855 (revision 34224046)
מרד הלגיונרים ופרעות בוקרשט (revision 35067329)
1966 (revision 34533574)
יווני (revision 34012584)
אוניברסיטת בוקרשט (revision 35188136)
בוסניה והרצגובינה (revision 35162864)
נצרות (revision 35210877)
כלא שש (revision 35057829)
אלפרד מנספלד (revision 35050837)
אות (revision 34005221)
י"א באייר (revision 34914962)
5 באפריל (revision 35157784)
ישראל (revision 35213935)
קיילצה (revision 33935006)
לותרני (revision 35064164)
יום ראשון (revision 34281448)
יהדות איטליה (revision 35198843)
פרס דיזנגוף (revision 34534024)
ה' בסיוון (revision 34566809)
ח' בטבת (revision 35079706)
האימפריה הרומית (revision 35119178)
שגריר (revision 34965857)
דן מכמן (revision 34522541)
הספרייה הלאומית של צרפת (revision 34954915)
דן ריזינגר (revision 34757254)
אסטרטגיה צבאית (revision 35069854)
אביבה ברושי (revision 35050673)
טורקית (revision 34730801)
11 במאי (revision 34445764)
רב (revision 35062888)
וולוז'ין (revision 35024306)
ולאכיה (revision 33077945)
יהדות הולנד (revision 33771623)
אנגלית (revision 35222539)
אוסטרליה (revision 35084368)
חוק (revision 35117792)
נצרות אורתודוקסית (revision 35181856)
שבתאות (revision 35118251)
הספרייה הלאומית של צ'כיה (revision 34679038)
שימוש הוגן (revision 34698539)
המאה ה-19 (revision 35228599)
אולטניה (revision 35181527)
תולדות עם ישראל (revision 35227911)
1999 (revision 34550725)
טוגאי ביי (revision 29009639)
בית הדין העממי (רומניה) (revision 29292417)
יהדות (revision 35238551)
מוסלמים (revision 35186931)
סלובניה (revision 34076843)
1944 (revision 33848050)
VIAF (revision 34992335)
יחיאל שמי (revision 35169033)
משפחת אוסטרוגסקי (revision 27522789)
בוהמיה (revision 34774081)
גולאג (revision 33926313)
משה מוקדי (revision 33579655)
קרן ויקימדיה (revision 35175443)
ב' באלול (revision 33761030)
רגולציה (revision 35168860)
הקהילה היהודית הספרדית ברומניה (revision 32942827)
הרתעה (אסטרטגיה) (revision 34184585)
נובוגרודק (revision 34333750)
מודל צבא העם (revision 34762715)
מלחמת העולם השנייה (revision 35218209)
חשוון (revision 35214064)
1875 (revision 25165857)
ליידי בירד ג'ונסון (revision 35156176)
הספרייה הלאומית של ספרד (revision 34172052)
רבנים (revision 16968274)
בית סוהר מגידו (revision 33202574)
גליציה (revision 34740074)
יהדות בלארוס (revision 34770618)
יהודים (revision 35220685)
עמירם תמרי (revision 33235872)
יהדות ליטא (revision 35062246)
עלייה לרגל (revision 34764674)
המועצה לישראל יפה (revision 34627430)
יום שישי (revision 34737763)
ג'מייקה (revision 35022818)
למ"ד (revision 34438979)
שיעה (revision 35141725)
1987 (revision 32747521)
שיטפון (revision 34831666)
פרסית (revision 35135705)
קניין רוחני (revision 34598306)
תסריטאי (revision 34389192)
גשם (revision 35214991)
קצין (revision 35189304)
שמואל וודניצקי (revision 33250304)
בית חיים (revision 35213536)
אליעזר פאפו (revision 34907056)
יצחק דנציגר (revision 35163501)
ירמיהו (revision 35170413)
אלכסנדר סוורוס (revision 34549496)
יוליסס סימפסון גרנט (revision 35099753)
אלפבית עברי (revision 35167195)
יום השבת (revision 32714481)
ספרד (revision 35240234)
קרואטיה (revision 35208639)
יום כיפור קטן (revision 34566029)
דתיים לאומיים (revision 35191810)
לוניניץ (revision 34618951)
מנצ'וריה (revision 35213350)
ולנטיניאנוס הראשון (revision 35183518)
מערכת התיעוד האוניברסיטאית (צרפת) (revision 34033122)
מוזיאון תל אביב (revision 34779076)
חוזה פריז (1783) (revision 34280442)
דיקטטורה (revision 34987941)
+ (revision 34951817)
יוני (revision 33963139)
כ"ג בסיוון (revision 34929216)
דרג דיפלומטי (revision 33574252)
אנציקלופדיה בריטניקה (revision 35145787)
וגטיוס (revision 33391266)
מהרי"ל (revision 34613180)
מוזיאון סטדלייק (revision 33770681)
ספרייה דיגיטלית (revision 34044215)
עיצור שפתי-שיני, אפי (revision 34158419)
פסנתרן (revision 34558921)
צבא אוסטרליה (revision 34306538)
בוואריה (revision 35069866)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-15 15:27:25.018656
94 characters appeared 1622917 times.
Most Frequent characters:
[ 0] Char י: 11.931047613648756 %
[ 1] Char ו: 11.230395639456608 %
[ 2] Char ה: 8.702909637399818 %
[ 3] Char ר: 6.166673958064399 %
[ 4] Char ל: 6.0917471441854385 %
[ 5] Char ת: 5.755007803849488 %
[ 6] Char ב: 5.319434080732409 %
[ 7] Char מ: 5.124476482777616 %
[ 8] Char א: 4.594258363181851 %
[ 9] Char ש: 4.086160906565154 %
[10] Char נ: 3.7032700994567187 %
[11] Char ם: 2.782397374603877 %
[12] Char ד: 2.615537331853693 %
[13] Char ע: 2.5096785602714125 %
[14] Char ק: 2.2712806631515967 %
[15] Char פ: 2.233139464310251 %
[16] Char ח: 2.124939229794253 %
[17] Char ס: 2.0344232021723845 %
[18] Char כ: 1.8796401787645332 %
[19] Char ט: 1.596261546339092 %
[20] Char ג: 1.5693347226013405 %
[21] Char צ: 1.2939663581070382 %
[22] Char ן: 1.2081948737982287 %
[23] Char ז: 0.8376275558146227 %
[24] Char ך: 0.3550397216863216 %
[25] Char ף: 0.2127034222945474 %
[26] Char e: 0.16427211003396971 %
[27] Char ץ: 0.15817198291717938 %
[28] Char a: 0.14005645390368085 %
[29] Char i: 0.12958148814757625 %
[30] Char n: 0.10296275163794574 %
[31] Char r: 0.10246981207295258 %
[32] Char t: 0.08983823572000293 %
[33] Char o: 0.08287546436447459 %
[34] Char s: 0.08238252479948142 %
[35] Char l: 0.06894992165341789 %
[36] Char u: 0.052744533454267835 %
[37] Char c: 0.04947880883618817 %
[38] Char d: 0.0451039701968739 %
[39] Char h: 0.04196148047004252 %
[40] Char m: 0.03327342063703812 %
[41] Char g: 0.023414629337174975 %
[42] Char p: 0.023291394445926684 %
[43] Char y: 0.0219358106421955 %
[44] Char b: 0.020025669827847016 %
[45] Char C: 0.01990243493659873 %
[46] Char A: 0.017930676676626102 %
[47] Char B: 0.017437737111632944 %
[48] Char I: 0.017437737111632944 %
[49] Char k: 0.017437737111632944 %
[50] Char v: 0.016390240536022484 %
[51] Char f: 0.01632862309039834 %
[52] Char S: 0.015958918416653468 %
[53] Char M: 0.014418482276049855 %
[54] Char D: 0.013432603146063538 %
[55] Char T: 0.013186133363566959 %
[56] Char L: 0.012754811244197948 %
[57] Char P: 0.012508341461701369 %
[58] Char R: 0.010906287875473607 %
[59] Char E: 0.010598200647352883 %
[60] Char z: 0.010536583201728738 %
[61] Char w: 0.010474965756104595 %
[62] Char N: 0.009304234289245846 %
[63] Char G: 0.0086880598330044 %
The first 64 characters have an accumulated ratio of 0.9992796920606537.
The first 5 characters have an accumulated ratio of 0.4412277399275502.
All characters whose order is over 22 have an accumulated ratio of 0.031037939709794155.
1640 sequences found.
First 688 (typical positive ratio): 0.9950129360753337
Next 328 (1016-688): 0.0039909002477918065
Rest: 0.0009961636768744953
- Processing end: 2022-12-15 15:27:25.183725