uchardet/script/BuildLangModelLogs/LangThaiModel.log

216 lines
9.7 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

= Logs of language model for Thai (th) =
- Generated by BuildLangModel.py
- Started: 2022-12-14 18:21:35.253839
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
หน้าหลัก (revision 9904032)
อดอล์ฟ ฮิตเลอร์ (revision 10443141)
เลขาธิการพรรคคอมมิวนิสต์จีน (revision 10311137)
พ.ศ. 2484 (revision 10439497)
รายชื่อประธานาธิบดีสาธารณรัฐประชาชนจีน (revision 9839306)
โพรงอากาศอักเสบเรื้อรัง (revision 10253728)
ประชากรโลก (revision 10416810)
การถ่ายภาพรังสีส่วนตัดอาศัยคอมพิวเตอร์แบบความละเอียดสูง (revision 10221268)
นาซา (revision 10421933)
ประเทศอินเดีย (revision 10435810)
Add oil (revision 10416705)
ยาปฏิชีวนะ (revision 10442566)
วันประกาศเอกราช (revision 8058565)
รายนามประธานาธิบดีจีน (revision 9839306)
Nebulizer (revision 9488816)
เศรษฐกิจ (revision 8451260)
ฝรั่งเศส (revision 10470508)
OECD (revision 10175968)
ชนชาติปกครอง (revision 9325428)
อักษรจีนตัวย่อ (revision 9702441)
17 พฤษภาคม (revision 9869509)
11 มีนาคม (revision 9984720)
รัฐมหาราชา (revision 10277795)
สภาประชาชนแห่งชาติ (revision 9902737)
201920 Hong Kong protests (revision 10347550)
ประเทศตูนิเซีย (revision 10477262)
10 สิงหาคม (revision 10308290)
ฝ่ายอักษะ (revision 10461857)
วันชาติ (revision 10151303)
สิงคโปร์ (revision 10413782)
โรคเหตุอาชีพ (revision 8430376)
พินอิน (revision 10344015)
30 พฤศจิกายน (revision 10453860)
ฮั่นยฺหวี่พินอิน (revision 10344015)
สาธารณรัฐประชาชนจีน (revision 10433062)
โพรงเยื่อหุ้มปอด (revision 10384510)
พ.ศ. 2505 (revision 10360535)
Nasal irrigation (revision 10158613)
การป้องกัน (revision 9815460)
Cantonese (revision 9923689)
9 กรกฎาคม (revision 10030943)
โพรงเยื่อหุ้มปอดมีอากาศ (revision 8171661)
ทวีป (revision 10436320)
โครงการอวกาศโซเวียต (revision 10176372)
ซิฟิลิส (revision 10194983)
พ.ศ. 2545 (revision 10363737)
S2CID (identifier) (revision 9511789)
นีล อาร์มสตรอง (revision 10434839)
สถานีอวกาศสกายแล็บ (revision 10160690)
Central Intelligence Agency (revision 10246925)
แฟรงคลิน ดี. รูสเวลต์ (revision 10007535)
24 พฤษภาคม (revision 10117699)
อะม็อกซีซิลลิน (revision 10251261)
ฝันจีน (revision 9869393)
28 ตุลาคม (revision 10469650)
ภาษาเบงกอล (revision 10291594)
บริการสุขภาพในประเทศจีน (revision 10435037)
ไนจีเรีย (revision 9842110)
วัลเทอร์ อุลบริชท์ (revision 10188987)
ประเทศจีน (revision 10433062)
แอนาฟิแล็กซิส (revision 9745218)
รวันดา (revision 10371439)
สี จิ้นผิง (revision 10459012)
โทชิอากิ โคเซโดะ (revision 9554543)
ศรีลังกา (revision 10388909)
ภาษาจีน (revision 10406158)
ประเทศเอริเทรีย (revision 9990023)
โรคพาร์กินสัน (revision 10467833)
สหภาพโซเวียต (revision 10443093)
เจียง เจ๋อหมิน (revision 10459105)
ปากีสถาน (revision 10434940)
จ้าว จื่อหยาง (revision 10428374)
ไมเกรน (revision 10330244)
ปฏิบัติการโอเวอร์ลอร์ด (revision 10334723)
ประเทศตุรกี (revision 10463471)
รัฐบอลติก (revision 10444373)
31 ตุลาคม (revision 10287966)
6 มีนาคม (revision 9796093)
อาร์เอ็นเอ (revision 9540049)
เชโกสโลวาเกีย (revision 9894259)
ตราแผ่นดินของอินเดีย (revision 9143600)
ภาษาจีนมาตรฐาน (revision 9655673)
พ.ศ. 2541 (revision 10480110)
องค์การสนธิสัญญาป้องกันแอตแลนติกเหนือ (revision 10406526)
มะโรง (revision 10080283)
ทางเดินหายใจส่วนล่าง (revision 10451792)
พรรคกรรมกรชาติสังคมนิยมบัลแกเรีย (revision 10198328)
ดวงจันทร์ (revision 10431798)
ดิสไทเมีย (revision 10398034)
7 กรกฎาคม (revision 10004082)
อักษรเมนเด (revision 10414027)
โปแลนด์ (revision 10001295)
1 ธันวาคม (revision 10454417)
เหงียน ฟู้ จ่อง (revision 10464682)
ลัทธิเหมา (revision 10096342)
ประเทศจาเมกา (revision 10287452)
1 มีนาคม (revision 10469587)
สโลวาเกีย (revision 10047604)
ตุลาคม (revision 10348983)
PMC (identifier) (revision 9484961)
เรอูว์นียง (revision 10275504)
ภาษาอูรดู (revision 10265669)
รายชื่อประเทศและเขตการปกครองเรียงตามร้อยละของพื้นที่แหล่งน้ำ (revision 10002026)
1 มกราคม (revision 10453060)
รายชื่อประเทศเรียงตามความหนาแน่นประชากร (revision 9864334)
จิตตะกอง (revision 9621126)
ประเทศสเปน (revision 10365654)
ลิพิด (revision 9707408)
ต่อหัว (revision 9866390)
พ.ศ. 2478 (revision 10438923)
การก่อการกำเริบในทิเบต พ.ศ. 2502 (revision 8743566)
เครือจักรภพแห่งประชาชาติ (revision 10378796)
โปรตุเกส (revision 10365575)
20 กุมภาพันธ์ (revision 10133368)
ISBN (identifier) (revision 10474803)
ความเสี่ยง (revision 6948077)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-14 18:24:15.381929
70 characters appeared 869745 times.
Most Frequent characters:
[ 0] Char า: 7.148417064771858 %
[ 1] Char น: 6.096269596260973 %
[ 2] Char ร: 5.78341927806426 %
[ 3] Char ก: 4.61043179322675 %
[ 4] Char อ: 4.214453661705442 %
[ 5] Char เ: 3.842850490661056 %
[ 6] Char ง: 3.8121518376075745 %
[ 7] Char ่: 3.7103978752392943 %
[ 8] Char ั: 3.4182432782022314 %
[ 9] Char ม: 3.324422675611817 %
[10] Char ี: 2.9437363825029172 %
[11] Char ย: 2.853709995458439 %
[12] Char ล: 2.656065858383779 %
[13] Char ว: 2.607775842344595 %
[14] Char ้: 2.560290659906064 %
[15] Char ิ: 2.543044225606356 %
[16] Char ส: 2.260202703091136 %
[17] Char ต: 2.215936855055217 %
[18] Char ท: 2.198115539612185 %
[19] Char ด: 2.1867328929743777 %
[20] Char ป: 1.924472115390143 %
[21] Char ค: 1.8667540486004517 %
[22] Char ะ: 1.8569810691639506 %
[23] Char บ: 1.6992336834359496 %
[24] Char แ: 1.590466171119121 %
[25] Char ห: 1.538496915762666 %
[26] Char จ: 1.27692599555042 %
[27] Char ช: 1.219552857446723 %
[28] Char พ: 1.1831053929600055 %
[29] Char ใ: 1.138034711323434 %
[30] Char ข: 1.0841108600796785 %
[31] Char ์: 1.012365693392891 %
[32] Char ศ: 0.9939694968065352 %
[33] Char ุ: 0.9593616519784534 %
[34] Char โ: 0.9249837596077011 %
[35] Char ื: 0.8639313821867328 %
[36] Char ไ: 0.8308182283312924 %
[37] Char ู: 0.7648218730777412 %
[38] Char ็: 0.7122777365779625 %
[39] Char ำ: 0.5964966743125859 %
[40] Char ึ: 0.5230268641958276 %
[41] Char ซ: 0.5183128388205739 %
[42] Char ภ: 0.4408188607005502 %
[43] Char ษ: 0.42771157063277165 %
[44] Char ธ: 0.4117298748483751 %
[45] Char ถ: 0.40770570684510976 %
[46] Char ผ: 0.3322813008410511 %
[47] Char ณ: 0.3189440583159432 %
[48] Char ญ: 0.31342519934003643 %
[49] Char ฐ: 0.28134683154257856 %
[50] Char ฟ: 0.20074849524860736 %
[51] Char ฮ: 0.1356719498243738 %
[52] Char ฤ: 0.12221973107060115 %
[53] Char ฝ: 0.10957234591748156 %
[54] Char ฏ: 0.09290079276109665 %
[55] Char ๆ: 0.0789886690926651 %
[56] Char ฉ: 0.06979057079948721 %
[57] Char ฎ: 0.05392385124375536 %
[58] Char ฒ: 0.050244611926484196 %
[59] Char ฑ: 0.01736141052837326 %
[60] Char ฬ: 0.01356719498243738 %
[61] Char ๋: 0.013337242525107934 %
[62] Char ฆ: 0.011612599095137082 %
[63] Char ๊: 0.011612599095137082 %
[64] Char ฯ: 0.010462836808489844 %
[65] Char ฌ: 0.005403882747242008 %
[66] Char ฺ: 0.0029893819452828127 %
[67] Char ํ: 0.00022995245732944714 %
[68] Char ฃ: 0.00011497622866472357 %
[69] Char ๅ: 0.00011497622866472357 %
The first 70 characters have an accumulated ratio of 1.0.
The first 2 characters have an accumulated ratio of 0.0755324836590035.
All characters whose order is over 43 have an accumulated ratio of 0.030663010422595123.
2476 sequences found.
First 1642 (typical positive ratio): 0.9950041430825017
Next 370 (2012-1642): 0.003999342904699388
Rest: 0.000996514012798877
- Processing end: 2022-12-14 18:24:15.979522