From 569509f844b7a0b5a81e2138ded9dfc16b03729b Mon Sep 17 00:00:00 2001 From: Jehan Date: Fri, 4 Dec 2015 03:26:52 +0100 Subject: [PATCH] BuildLangModel: forgot to add logs for Thai models generation. --- script/BuildLangModelLogs/LangThaiModel.log | 141 ++++++++++++++++++++ 1 file changed, 141 insertions(+) create mode 100644 script/BuildLangModelLogs/LangThaiModel.log diff --git a/script/BuildLangModelLogs/LangThaiModel.log b/script/BuildLangModelLogs/LangThaiModel.log new file mode 100644 index 0000000..b7024c3 --- /dev/null +++ b/script/BuildLangModelLogs/LangThaiModel.log @@ -0,0 +1,141 @@ += Logs of language model for Thai (th) = + +- Generated by BuildLangModel.py +- Started: 2015-12-04 03:01:52.148282 +- Maximum depth: 3 +- Max number of pages: 50 + +== Parsed pages == + +หน้าหลัก (revision 5512633) +26 พฤศจิกายน (revision 5570053) +27 พฤศจิกายน (revision 5888433) +28 พฤศจิกายน (revision 6110206) +กล้องโทรทรรศน์อวกาศฮับเบิล (revision 5830742) +การประชุมสภาสงฆ์แห่งแคลมงต์ (revision 5463877) +ความเอนเอียงเพื่อยืนยัน (revision 6231756) +คัมภีร์พระเวท (revision 6109417) +คาบสมุทรไซนาย (revision 5661104) +จักรวรรดิโรมันตะวันออก (revision 6150148) +ชาวมุสลิม (revision 6242838) +ซุคฮอย ซู-24 (revision 6015891) +ดาวอังคาร (revision 6235017) +ดาวเคราะห์นอกระบบ (revision 5823077) +ดินแดนศักดิ์สิทธิ์ (revision 6179072) +ทฤษฎี (revision 5606447) +ทะกะอะกิ คะจิตะ (revision 6177601) +ท่าอากาศยานนานาชาติตริภูวัน (revision 6010470) +นกกาเหว่า (revision 6142782) +ประเทศอัฟกานิสถาน (revision 6216996) +ประเทศเนปาล (revision 6206980) +ปรากฏการณ์การวางกรอบ (revision 6046655) +ปารีส (revision 6222115) +พ.ศ. 1638 (revision 4723508) +พ.ศ. 2438 (revision 5737055) +พ.ศ. 2515 (revision 6197082) +พ.ศ. 2544 (revision 6189598) +พินัยกรรม (revision 5607889) +มูลนิธิวิกิมีเดีย (revision 5816103) +ระบบสุริยะ (revision 6201228) +รางวัลโนเบล (revision 5828030) +รางวัลโนเบลสาขาฟิสิกส์ (revision 6177103) +รายชื่อบทความวันนี้ในอดีต (revision 5410610) +ลักกีสไตรก์ (เพลง) (revision 6195816) +ลุฟต์ฮันซา (revision 6116038) +วิกฤตการณ์ผู้ย้ายถิ่นยุโรป (revision 6219634) +วิกิพีเดีย (revision 6086299) +วิกิพีเดียภาษาไทย (revision 6209148) +สงครามครูเสด (revision 6228828) +สงครามอังกฤษ–แซนซิบาร์ (revision 5829349) +สติ (จิตวิทยา) (revision 6039161) +สมมติฐาน (revision 6221744) +สมเด็จพระราชินีมารีแห่งโรมาเนีย (revision 6211695) +สมเด็จพระสันตะปาปาเออร์บันที่ 2 (revision 5828365) +สารานุกรม (revision 6070482) +อัลเฟรด โนเบล (revision 6214514) +อาร์เธอร์ แมคโดนัลด์ (revision 6188035) +เซนต์ปีเตอร์สเบิร์ก (revision 6162201) +เทือกเขาฮินดูกูช (revision 5218921) +เนื้อหาเสรี (revision 6160507) + +== End of Parsed pages == + +- Wikipedia parsing ended at: 2015-12-04 03:05:06.181487 + +105 characters appeared 401052 times. + +First 64 characters: +[ 0] Char า: 8.857704237854442 % +[ 1] Char น: 6.7679502907353655 % +[ 2] Char ร: 6.739026360671434 % +[ 3] Char ก: 5.388079351306065 % +[ 4] Char อ: 5.099837427565503 % +[ 5] Char ง: 4.861713692987443 % +[ 6] Char เ: 4.5198627609387305 % +[ 7] Char ม: 4.133628556895365 % +[ 8] Char ว: 3.864336794231172 % +[ 9] Char ด: 3.3152808114658447 % +[10] Char ย: 3.195844927839781 % +[11] Char ล: 3.1312647736453125 % +[12] Char ท: 2.69615910156289 % +[13] Char ส: 2.6001615750575984 % +[14] Char ะ: 2.392457835891605 % +[15] Char ค: 2.384229476476866 % +[16] Char บ: 2.3321165335168503 % +[17] Char ต: 2.196473275285998 % +[18] Char ห: 1.983782651626223 % +[19] Char ป: 1.9192024974317545 % +[20] Char แ: 1.7813151411787 % +[21] Char จ: 1.76261432432702 % +[22] Char พ: 1.5075351824701035 % +[23] Char ข: 1.3519443862641254 % +[24] Char ใ: 1.3295034060421091 % +[25] Char ไ: 1.2227840778751882 % +[26] Char ช: 1.0407627938521689 % +[27] Char โ: 0.9382823175049619 % +[28] Char ศ: 0.8078752879925796 % +[29] Char ำ: 0.7393056262030859 % +[30] Char ถ: 0.599672860377208 % +[31] Char ซ: 0.541076967575277 % +[32] Char e: 0.43734977010462484 % +[33] Char ผ: 0.43585370475649043 % +[34] Char ณ: 0.4019428901987772 % +[35] Char a: 0.3897250231890129 % +[36] Char i: 0.3657879776188624 % +[37] Char ษ: 0.3647906007201061 % +[38] Char ภ: 0.34185093204871186 % +[39] Char ธ: 0.3181632307032505 % +[40] Char o: 0.3176645422538723 % +[41] Char n: 0.3139243788835363 % +[42] Char ญ: 0.29248077556027646 % +[43] Char r: 0.28350438347147006 % +[44] Char t: 0.2705384837876385 % +[45] Char s: 0.2488455362396896 % +[46] Char l: 0.19598456060560726 % +[47] Char ฟ: 0.19473783948216192 % +[48] Char c: 0.16356981139602844 % +[49] Char ฐ: 0.15833358267755804 % +[50] Char ฤ: 0.15284800973439852 % +[51] Char ๆ: 0.14910784636406252 % +[52] Char d: 0.13090571796176056 % +[53] Char ฮ: 0.1244227681198448 % +[54] Char h: 0.12043326052481973 % +[55] Char u: 0.12043326052481973 % +[56] Char m: 0.09599752650529109 % +[57] Char y: 0.08951457666337533 % +[58] Char ฏ: 0.08677179019179557 % +[59] Char p: 0.08253293837208142 % +[60] Char f: 0.08153556147332515 % +[61] Char S: 0.07604998853016566 % +[62] Char ฝ: 0.07330720205858592 % +[63] Char ฉ: 0.0673229406660483 % + +The first 64 characters have an accumulated ratio of 0.989480167160368. + +2324 sequences found. + +First 512 (typical positive ratio): 0.8815720594354438 +Next 512 (512-1024): 7.480326740672033e-06 +Rest: 0.026341928296264486 + +- Processing end: 2015-12-04 03:05:06.800467