uchardet/script/BuildLangModelLogs/LangVietnameseModel.log

263 lines
9.3 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

= Logs of language model for Vietnamese (vi) =
- Generated by BuildLangModel.py
- Started: 2022-12-15 00:26:58.741409
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
Chữ_Quốc_ngữ (revision 69323365)
Nho giáo (revision 69390317)
Phương ngữ tiếng Việt (revision 69253911)
Serampore (revision 69215747)
Vi hiến (revision 68604810)
Bàn phím máy tính (revision 69177994)
Văn hóa Pháp (revision 54514660)
Quốc ngữ (revision 69389443)
Ngôn ngữ thanh điệu (revision 69010377)
Chữ Quốc ngữ (revision 69323365)
Đặc khu hành chính Cộng hòa Nhân dân Trung Hoa (revision 69426134)
Phân biệt chủng tộc (revision 69056376)
Tiếng Cornwall (revision 66276356)
Bảng chữ cái tiếng Việt (revision 69323365)
Tiếng Khmer (revision 69325997)
Nhóm ngôn ngữ Rôman (revision 68954316)
Tiếng Limburg (revision 68607883)
Pháp (revision 69398708)
Tiếng Yoruba (revision 69118098)
ISBN (revision 68690711)
Kathmandu (revision 68690328)
Đồng bằng sông Cửu Long (revision 69246438)
Tiếng Anh (revision 69388570)
De facto (revision 69400492)
Thành ngữ gốc Hán trong tiếng Việt (revision 69281032)
T (revision 69090121)
Sử dụng i và y trong chữ Quốc ngữ (revision 69323365)
Văn hóa cao cấp (revision 67498856)
Từ vựng tiếng Việt (revision 68581098)
Bắc Bộ Việt Nam (revision 69358947)
Duyên hải Nam Trung Bộ (revision 69340706)
Từ mượn trong tiếng Việt (revision 69411530)
Tiếng Breton (revision 66407538)
Chủ nghĩa quốc xã (revision 69296691)
BBC (revision 69385173)
Đông Nam Á (revision 69258873)
Backspace (revision 69372112)
5 (số) (revision 66943809)
Lhasa (revision 68702064)
Tây Bắc Trung Quốc (revision 68370855)
Kim Định (revision 68482544)
Nam Bộ (Việt Nam) (revision 69385658)
Chủ nghĩa dân tộc Nhật Bản (revision 69282936)
Chủ nghĩa phát xít (revision 69427677)
Độc lập (revision 69282907)
Trung Nguyên (revision 68471807)
Ký hiệu đô la (revision 68063682)
Alaska (revision 68488368)
Hiến pháp Cộng hòa Nhân dân Trung Hoa (revision 68618923)
Viện hàn lâm Pháp (revision 67842447)
Tiếng Wales (revision 69231563)
Đồng tính luyến ái ở Trung Quốc (revision 69292330)
Điện ảnh Pháp (revision 66377653)
Toán học (revision 69375403)
Ngữ pháp tiếng Việt (revision 68694548)
Ngữ hệ Nin-Sahara (revision 69193091)
Ngữ hệ Niger-Congo (revision 67824951)
Nguồn máy tính (revision 68384586)
Nhân dân tệ (revision 68764203)
Tiếng Takua (revision 64937724)
François Mauriac (revision 69191804)
Quyền công dân (revision 69280750)
Đặc khu liên bang (revision 68277202)
Đô la Singapore (revision 68820222)
V (revision 68453484)
Augustus (revision 69427224)
1955 (revision 69397550)
Tiếng Nga (revision 69231375)
Tây Ninh (revision 69265228)
Trùng Khánh (revision 69281733)
Hạ Long (revision 69237682)
Tây Bắc Bộ (revision 69246433)
Danh sách đơn vị hành chính Trung Quốc theo GDP bình quân đầu người (revision 68644474)
VIQR (revision 69426437)
Tư tưởng (revision 69179944)
CBeebies (revision 69386322)
Ngữ hệ Nam Đảo (revision 69193090)
Chủ nghĩa Trump (revision 69282945)
Công ty (revision 69075555)
Chiến tranh Đông Dương (revision 69415170)
Quy tắc đặt dấu thanh trong chữ quốc ngữ (revision 69127815)
Điện ảnh Triều Tiên (revision 69257947)
Châu Âu (revision 69335158)
Năm (revision 68407392)
Văn minh (revision 69261968)
Ngữ hệ (revision 69193082)
Bảng chữ cái Hy Lạp (revision 68485721)
Vạn lý Trường chinh (revision 69246605)
Hoài Hà (revision 68738981)
Tiếng Xá Phó (revision 65405578)
JSTOR (định danh) (revision 68334098)
Diode (revision 69383509)
Ngũ Chỉ Sơn (núi Trung Quốc) (revision 65453256)
Hương (Trung Quốc) (revision 67193970)
Thành ngữ (Tiếng Việt) (revision 69235423)
Síp (revision 69329436)
Baht Thái Lan (revision 69145112)
Lý thuyết hình thái (revision 68862337)
Jerusalem (revision 69289046)
Ổ đĩa cứng (revision 69048111)
Cà chua (revision 69199560)
Kuala Lumpur (revision 69364800)
Chủ nghĩa phân biệt chủng tộc (revision 69056376)
Nam Giang, Quảng Nam (revision 68988006)
Truyện ngắn (revision 69179000)
Ẩm thực Pháp (revision 68242821)
Cư Kuin (revision 68704228)
Kiểm soát tính nhất quán (revision 69202370)
Thư viện Quốc gia Pháp (revision 69229836)
Nhóm ngôn ngữ Oïl (revision 66609000)
Su hào (revision 69219380)
Amin Maalouf (revision 64372255)
Nguyễn Quảng Tuân (revision 65740823)
Khải Định (revision 69352546)
Úc (revision 69392760)
Chủ nghĩa quốc tế (revision 68941294)
SQL (revision 68382997)
Huelgoat (revision 36181427)
Hôn nhân màu tím (revision 64517405)
Đế quốc Đông La Mã (revision 69311499)
Phương ngữ Thanh Hóa (revision 69393354)
Quần đảo Alexander (revision 68217402)
Rết (revision 69210397)
OCLC (định danh) (revision 68689511)
Biến áp (revision 69414052)
1888 (revision 69378216)
Nhà nước Palestine (revision 69193568)
Tenge Kazakhstan (revision 65144240)
Vương Kỳ Sơn (revision 69243189)
ISO 639-2 (revision 67773556)
Tiếng Afrikaans (revision 68890705)
Ngữ hệ DenéEnisei (revision 67228355)
Hệ ngôn ngữ (revision 69193082)
Văn học dân gian (revision 68803869)
Maastricht (revision 68124834)
Louis de Funès (revision 68905491)
Tây Tạng (revision 69238053)
Máy chủ (revision 66645190)
Yên Lộc, Kim Sơn (revision 67718890)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-15 00:50:53.987711
107 characters appeared 1640238 times.
Most Frequent characters:
[ 0] Char n: 11.695497848482963 %
[ 1] Char h: 8.696177018213211 %
[ 2] Char t: 6.726036099639199 %
[ 3] Char c: 6.444918359408818 %
[ 4] Char i: 5.80403575578666 %
[ 5] Char g: 5.410800139979686 %
[ 6] Char a: 3.645263675149582 %
[ 7] Char u: 3.0321819150635454 %
[ 8] Char đ: 2.4478154999457398 %
[ 9] Char o: 2.4337321778912573 %
[10] Char m: 2.4094064397971513 %
[11] Char à: 2.1078038674875232 %
[12] Char r: 2.0719554113488408 %
[13] Char v: 2.0377530577879552 %
[14] Char l: 2.0084280451983187 %
[15] Char p: 1.8263203266842984 %
[16] Char á: 1.625922579528093 %
[17] Char ư: 1.563004880998977 %
[18] Char s: 1.5177065767284992 %
[19] Char b: 1.3103586186882634 %
[20] Char y: 1.2965191636823437 %
[21] Char k: 1.1537350067490206 %
[22] Char d: 1.0767339861654224 %
[23] Char e: 1.0382639592546936 %
[24] Char ế: 0.9937582228920436 %
[25] Char ộ: 0.8638380527703906 %
[26] Char â: 0.8303063335930517 %
[27] Char ệ: 0.8017129221491028 %
[28] Char ố: 0.7481231382275012 %
[29] Char ạ: 0.7387342568578463 %
[30] Char ô: 0.7038003021512732 %
[31] Char ê: 0.6733778878431057 %
[32] Char ủ: 0.6715488849788872 %
[33] Char ó: 0.6418580718164072 %
[34] Char q: 0.6322862901603303 %
[35] Char ả: 0.6050951142456156 %
[36] Char ớ: 0.5788794065251507 %
[37] Char ữ: 0.5116940346461916 %
[38] Char ờ: 0.4946843080089597 %
[39] Char ợ: 0.48773409712492943 %
[40] Char ề: 0.4856612272121485 %
[41] Char í: 0.4462157321071698 %
[42] Char ấ: 0.44463059629151375 %
[43] Char ị: 0.44188709199518605 %
[44] Char ể: 0.41652491894468974 %
[45] Char ậ: 0.4031731980358948 %
[46] Char ự: 0.38982147712709986 %
[47] Char ă: 0.3869560393064909 %
[48] Char ơ: 0.37067791381494636 %
[49] Char ầ: 0.3274524794572495 %
[50] Char x: 0.32318480610740635 %
[51] Char ã: 0.3056263786109089 %
[52] Char ở: 0.30526057803806517 %
[53] Char ì: 0.29763973277048816 %
[54] Char ứ: 0.29264045827495766 %
[55] Char ọ: 0.2834954439538652 %
[56] Char ụ: 0.2792887373661627 %
[57] Char ồ: 0.25880390528691566 %
[58] Char ừ: 0.24593991847524566 %
[59] Char ổ: 0.24423284913530843 %
[60] Char ù: 0.21685877293417177 %
[61] Char ắ: 0.1993003454376743 %
[62] Char ú: 0.18064451622264574 %
[63] Char ặ: 0.16912179817806927 %
[64] Char ò: 0.1583306812791802 %
[65] Char ử: 0.1311395053644654 %
[66] Char ĩ: 0.12790826697101274 %
[67] Char ằ: 0.1251037959125444 %
[68] Char f: 0.12418929448043516 %
[69] Char ỉ: 0.12144579018410742 %
[70] Char ũ: 0.12120192313554497 %
[71] Char ý: 0.1130323770087024 %
[72] Char é: 0.09620555065789232 %
[73] Char w: 0.0915720767352055 %
[74] Char ỏ: 0.0730991478065988 %
[75] Char j: 0.0643809008204907 %
[76] Char ẫ: 0.06328349910195959 %
[77] Char ễ: 0.05816229108214783 %
[78] Char ẩ: 0.05712585612575736 %
[79] Char ỳ: 0.04938307733389911 %
[80] Char ẽ: 0.04688344008613384 %
[81] Char ỷ: 0.046273772464727685 %
[82] Char z: 0.03883582748357251 %
[83] Char ỗ: 0.03883582748357251 %
[84] Char ỹ: 0.033714619463760746 %
[85] Char è: 0.02395993752126216 %
[86] Char ẳ: 0.023898970759121542 %
[87] Char ẻ: 0.022557701992027987 %
[88] Char ẹ: 0.01755842749649746 %
[89] Char õ: 0.017314560447934994 %
[90] Char ỡ: 0.016521992540106986 %
[91] Char ẵ: 0.005791842403358537 %
[92] Char ç: 0.005182174781952375 %
[93] Char ỵ: 0.0038409060148588197 %
The first 94 characters have an accumulated ratio of 0.9998957468367395.
The first 6 characters have an accumulated ratio of 0.4477746522151054.
All characters whose order is over 57 have an accumulated ratio of 0.03172832235321948.
1992 sequences found.
First 1145 (typical positive ratio): 0.9950096057827752
Next 346 (1491-1145): 0.003994365518613985
Rest: 0.000996028698610818
- Processing end: 2022-12-15 00:50:54.611610