uchardet/script/BuildLangModelLogs/LangHebrewModel.log

286 lines
10 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

= Logs of language model for Hebrew (he) =
- Generated by BuildLangModel.py
- Started: 2022-12-14 18:02:26.153331
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
יהדות_בוקרשט (revision 35182799)
1941 (revision 32659307)
משורר (revision 34978171)
ברוך טרקטין (revision 34395928)
אלכסנדר איפסילנטי (הנכד) (revision 34666729)
ולאכים (revision 34292795)
בנקאי (revision 34060002)
יוליו באראש (revision 34028115)
מלבי"ם (revision 34861779)
1873 (revision 30716465)
1866 (revision 32949259)
רומנית (revision 35154129)
לוסיאן-זאב הרשקוביץ (revision 34958893)
בראונשווייג (revision 32618810)
7 בינואר (revision 35038892)
שיטת ספריית הקונגרס (revision 30163525)
הספרייה הלאומית (revision 35173909)
סולטאן עות'מאני (revision 32081871)
תרבות (revision 35199868)
18 בינואר (revision 35165787)
ג' בניסן (revision 34787426)
ט"ו בכסלו (revision 35018392)
9 ביוני (revision 34842776)
דוקטורט (revision 34620353)
רומניה (revision 35063882)
שירה (revision 35157099)
הספרייה הלאומית של הולנד (revision 34603407)
27 במאי (revision 34455916)
מצבות (revision 35144605)
ארומנים (revision 35094875)
רוסית (revision 34696856)
כ"ד בכסלו (revision 33760689)
קומניה (revision 29898700)
ט"ו בסיוון (revision 34566812)
האוניברסיטה העברית בירושלים (revision 35179648)
ארומנית (revision 34006415)
כ"ט בחשוון (revision 35107904)
20 ביולי (revision 35167023)
השאל-החכר (revision 34945174)
ט"ז בשבט (revision 34850940)
י"ט באלול (revision 33761052)
1819 (revision 31056217)
נתן יונתן (revision 34941382)
תנועת ההשכלה היהודית (revision 34878783)
צ (revision 34299508)
אשראי (revision 32660739)
ה' באלול (revision 34228892)
שולחן ערוך (revision 34808175)
ניירות ערך (revision 33891839)
WorldCat (revision 34980710)
כ"ח בתמוז (revision 34968773)
ט"ז בכסלו (revision 33760684)
ב' בסיוון (revision 34787055)
מתרגם (revision 34685301)
הספרייה הלאומית של יוון (revision 34171107)
ספר ישעיהו (revision 34925239)
אוקראינית (revision 33750001)
18 באוקטובר (revision 34922728)
נפאלית (revision 32665998)
פזמונאי (revision 35069127)
י"ג באדר (revision 33760841)
יוונית (revision 34408463)
2007 (revision 34939693)
17 באוקטובר (revision 34652852)
סופר (revision 33825252)
אוניברסיטה (revision 34910290)
מוזיאון סטרומה (revision 33970393)
שנות ה-20 של המאה ה-20 (revision 35228618)
ג'ון גאוור (revision 31804220)
ויקישיתוף (revision 34805938)
המלחמות הנפוליאוניות (revision 35221756)
חלפנות כספים (revision 32924808)
ירושלים (revision 35190979)
1878 (revision 25165861)
ח' בסיוון (revision 34253160)
תסאליה (revision 32688328)
הצי המלכותי הבריטי (revision 34965822)
בלגיה (revision 35228590)
נסיכות מולדובה (revision 34307667)
TheMarker (revision 34197118)
מין דקדוקי (revision 34934476)
עיצור שפתי-שיני, חוכך, קולי (revision 34340638)
בנקאות (revision 34942533)
אפירוס (revision 34599005)
ישראל (revision 35213935)
27 בספטמבר (revision 34865166)
הספרייה הלאומית של צרפת (revision 34954915)
18 בנובמבר (revision 35165842)
קובץ בקרה משולב (revision 34980719)
אנציקלופדיה בריטניקה (revision 35145787)
הונגרית (revision 35067792)
30 ביוני (revision 35039061)
כ"ח בסיוון (revision 35123107)
טרגובישטה (רומניה) (revision 32714440)
בארבו שטירביי, שליט ולאכיה (revision 34183794)
משה שוורצפלד (revision 34298498)
13 בדצמבר (revision 35221687)
אנגלית (revision 35222539)
קרואטית (revision 32668378)
קונסטנטין פון נויראט (revision 34422308)
24 ביוני (revision 34627765)
ט"ז בניסן (revision 33760884)
לדינו (revision 35171060)
1792 (revision 27194308)
יוון (revision 35181767)
יערנות (revision 34963747)
כלכלה (revision 35229503)
האימפריה הרוסית (revision 34914018)
בוסנית (revision 34023564)
ג'ון מילטון (revision 35161378)
וולוצ'יסק (revision 34336310)
ממלכת רומניה (revision 35006227)
מנהל עסקים (revision 35028930)
ולוניה (revision 34063116)
יותם ראובני (revision 34897926)
הונג קונג (revision 35229624)
היסטוריון (revision 35146170)
עלפון (revision 32648914)
כ"ג באייר (revision 34415334)
6 בנובמבר (revision 35181020)
ציוני (revision 35070795)
י"ט באדר (revision 33760843)
עיצור דו-שפתי, סותם, אטום (revision 34216053)
יאשי (revision 34273547)
כל ישראל חברים (revision 35165601)
גאלאץ (revision 35110599)
1835 (revision 33984802)
ט' בניסן (revision 33760896)
גאלית סקוטית (revision 32661252)
י"ז בכסלו (revision 34317340)
באר שבע (revision 35210525)
יוונים (revision 34012584)
זואולוגיה (revision 35092786)
19 בפברואר (revision 35181055)
1 במאי (revision 34764938)
בוקרשט (revision 35173617)
האלפבית הקירילי הרומני (revision 34211902)
המערכה באוקיינוס האטלנטי (19391945) (revision 34788521)
ספריית הדיאט הלאומית (revision 35186323)
סנט וינסנט והגרנדינים (revision 34648727)
סוציולוגיה (revision 35120370)
אקונומטריקה (revision 34331016)
חגי ישראל ומועדיו (revision 35194032)
המאה ה-15 (revision 34496188)
צרפת (revision 35151383)
תואר שני (revision 35157090)
רומיאו ויוליה (revision 35155065)
פלופונסוס (מחוז) (revision 32871989)
רוברט בלייק (revision 34552047)
תכתיב וינה (revision 34846816)
קול פורטר (revision 33606049)
פאלי (revision 32666914)
בסרביה (revision 34966095)
חבר הכנסת (revision 35079939)
דת (revision 35160267)
אוניברסיטת בר-אילן (revision 34956943)
תנועות פתוחות (revision 31195015)
צה"ל (revision 35176984)
אהוד מנור (revision 35186961)
טרנסילבניה (revision 34937962)
רוסיה (revision 35232525)
כ"ג בשבט (revision 33760818)
נאסדאק (revision 34914110)
1916 (revision 32659290)
30 באוקטובר (revision 35156558)
1842 (revision 25165819)
שולחן ערוך הרב (revision 34711882)
ח' בכסלו (revision 35165253)
משה פיינשטיין (revision 35179391)
שר (revision 34558902)
יום טוב (revision 34527567)
עיראק (revision 35225563)
הקומדיה האלוהית (revision 34865795)
מדעי המידע (revision 34996637)
יום רביעי (revision 34936301)
שפה (revision 35136988)
בודג'אק (revision 34262461)
נדל"ן (revision 34581527)
כ"ה באדר א' (revision 34900966)
שער הניצחון בפריז (revision 33232994)
יצחק שמיר (revision 35187769)
תענית ציבור (revision 35122402)
קהלת (revision 34842035)
אינטלקטואל (revision 33438959)
ו' באדר א' (revision 33760856)
11 ביוני (revision 34595786)
הילך חוקי (revision 33456729)
ספירת העומר (revision 35204075)
נסיכות מוסקבה (revision 35016301)
יחזקאל (revision 35170404)
בודהה (מושג) (revision 34729970)
בית הספר רנה קסין (revision 34948521)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-14 18:05:54.188909
79 characters appeared 1358022 times.
Most Frequent characters:
[ 0] Char י: 11.821826155982745 %
[ 1] Char ו: 11.115872938730007 %
[ 2] Char ה: 8.562600605881201 %
[ 3] Char ר: 6.418747266244582 %
[ 4] Char ל: 6.179575883159478 %
[ 5] Char ת: 5.768168704188886 %
[ 6] Char ב: 5.370310642979274 %
[ 7] Char מ: 5.15993113513625 %
[ 8] Char א: 4.54315173097343 %
[ 9] Char ש: 4.304274893926608 %
[10] Char נ: 3.6775545609717666 %
[11] Char ם: 2.6959062518869357 %
[12] Char ע: 2.59642332745714 %
[13] Char ד: 2.5235231829823084 %
[14] Char פ: 2.23722443377206 %
[15] Char ק: 2.21947803496556 %
[16] Char ח: 2.1406869697250857 %
[17] Char ס: 2.012559443072351 %
[18] Char כ: 1.908142872501329 %
[19] Char ט: 1.556896721849867 %
[20] Char ג: 1.4355437540776217 %
[21] Char צ: 1.257343400916922 %
[22] Char ן: 1.2326751702107919 %
[23] Char ז: 0.8078661464983631 %
[24] Char ך: 0.3750307432427457 %
[25] Char ף: 0.1990394853691619 %
[26] Char e: 0.17253034192376854 %
[27] Char a: 0.154636670098128 %
[28] Char ץ: 0.14778847470806805 %
[29] Char i: 0.14764120168892697 %
[30] Char r: 0.11619841210230761 %
[31] Char o: 0.10198656575519395 %
[32] Char n: 0.10125020065948859 %
[33] Char t: 0.09057290677176069 %
[34] Char l: 0.07886470175004529 %
[35] Char s: 0.07636106042464702 %
[36] Char u: 0.06384285379765571 %
[37] Char c: 0.05242919481422245 %
[38] Char d: 0.039910988187231135 %
[39] Char m: 0.03475643251729354 %
[40] Char h: 0.033504611854594406 %
[41] Char M: 0.024962776744412093 %
[42] Char C: 0.022827317966866517 %
[43] Char g: 0.022238225890302218 %
[44] Char B: 0.022238225890302218 %
[45] Char p: 0.022090952871161144 %
[46] Char A: 0.021796406832878996 %
[47] Char b: 0.021649133813737922 %
[48] Char I: 0.020839132208462015 %
[49] Char v: 0.020765495698891474 %
[50] Char y: 0.02010276711275664 %
[51] Char k: 0.018998219469198583 %
[52] Char S: 0.018777309940486972 %
[53] Char D: 0.016936397201223544 %
[54] Char T: 0.01627366861508871 %
[55] Char R: 0.014727301914107429 %
[56] Char f: 0.013328208232267222 %
[57] Char P: 0.013254571722696687 %
[58] Char L: 0.013107298703555613 %
[59] Char E: 0.012002751059997556 %
[60] Char H: 0.011487295493003796 %
[61] Char V: 0.010235474830304663 %
[62] Char G: 0.010161838320734126 %
[63] Char N: 0.01008820181116359 %
The first 64 characters have an accumulated ratio of 0.9993151804609938.
The first 5 characters have an accumulated ratio of 0.4409862284999801.
All characters whose order is over 22 have an accumulated ratio of 0.031930999645072025.
1605 sequences found.
First 698 (typical positive ratio): 0.9950195693248958
Next 340 (1038-698): 0.003982282638035017
Rest: 0.000998148037069213
- Processing end: 2022-12-14 18:05:54.420188