uchardet/script/BuildLangModelLogs/LangVietnameseModel.log

271 lines
9.4 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

= Logs of language model for Vietnamese (vi) =
- Generated by BuildLangModel.py
- Started: 2022-12-14 18:24:52.192639
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
Chữ_Quốc_ngữ (revision 69323365)
Lăng Chủ tịch Hồ Chí Minh (revision 69298748)
Thư pháp Đông Á (revision 69132694)
1651 (revision 66197493)
Đường kách mệnh (revision 68815747)
Viết tắt (revision 69415552)
Tự Lực văn đoàn (revision 69317098)
Jean-Louis Taberd (revision 67514265)
Chữ b đuôi quặp (revision 69392696)
Christoforo Borri (revision 67524125)
Khu di tích Phủ Chủ tịch (revision 68919870)
Tháp Rùa (revision 69105162)
Sơn La (revision 69308697)
Tắc Thiên văn tự (revision 55964733)
Doãn Quốc Sỹ (revision 69403395)
Mao Trạch Đông (revision 69175184)
Nhà thờ Lớn Hà Nội (revision 69237166)
Danh sách thập niên (revision 68854472)
TV (revision 69409669)
Máy ảnh (revision 69387279)
Phỏng Tống thể (revision 64919952)
Hồ Thiền Quang (revision 68703435)
Hoàng Phủ (revision 68019503)
Tổng binh (revision 43993985)
Quần đảo Hoàng Sa (revision 69406680)
Roma (revision 69409828)
Quế Ngọc Hải (revision 69385814)
Lịch Bắc Triều Tiên (revision 69236869)
Chiến dịch Từ Táo (revision 67065161)
Trắng (revision 68736506)
Bến Nhà Rồng (revision 69411845)
Nhà khoa học (revision 68195413)
Bảo vật quốc gia (Việt Nam) (revision 69346155)
Hiragana (revision 69360768)
Hồ Chí Minh toàn tập (revision 66841200)
Việt Nam (revision 69406532)
1820 (revision 68935390)
Lịch Gregory (revision 68970753)
Toán học (revision 69375403)
Ngày Bác Hồ ra đi tìm đường cứu nước (revision 69209816)
21 tháng 10 (revision 69161103)
Giải thưởng Hồ Chí Minh (revision 68103872)
VB (revision 68764429)
Natsume Sōseki (revision 69386133)
Hoạt động của Hồ Chí Minh trong giai đoạn 19111941 (revision 69329924)
Hội đồng Bộ trưởng (revision 68132742)
Lăng mộ (revision 68742278)
Tân Mão (revision 67057112)
Từ điển Taberd (revision 68243239)
Ấn Độ (revision 69373566)
Thư (revision 69170969)
Từ điển (revision 68581103)
Đàng Trong (revision 69394789)
Nhà Tấn (revision 69130408)
Phụ âm (revision 69202002)
Lệ Mật (revision 68936715)
Lan Khai (revision 69322673)
Đức (revision 69389228)
Chữ Nôm (revision 69323362)
Chủng viện (revision 67782981)
Linh mục (revision 69144511)
Nguyễn Cát Tường (revision 69170557)
Tiếng Việt (revision 69231550)
Chiến tranh du kích (revision 68759540)
Bỉ vỏ (revision 68937986)
Trần Đức Hòa (revision 68984879)
Hội An (revision 69387398)
Bảo tàng Hồ Chí Minh (revision 69254035)
2015 (revision 69408075)
Hội Thừa sai Paris (revision 65413261)
Chủ nghĩa Marx Lenin (revision 69399705)
Liên Hợp Quốc (revision 69400525)
Đoàn Phú Tứ (revision 69324194)
Tiếng Pháp (revision 68934914)
Francesco Buzomi (revision 67525170)
Xã hội chủ nghĩa (revision 69127020)
Triều đình Huế (revision 69404625)
Yêu sách của nhân dân An Nam (revision 66967766)
Hàn Mặc Tử (revision 69191956)
DMOZ (revision 69406898)
Chương Thị Kiều (revision 69310375)
Truyền hình (revision 69409669)
Nhà Nguyễn (revision 69404625)
Système universitaire de documentation (revision 65857769)
Phùng Thế Tài (revision 69082366)
Ê (revision 69218515)
Số đỏ (revision 68955897)
Thanh Hà (revision 69213890)
Thư viện Vatican (revision 67842289)
Đền Bạch Mã (revision 68936578)
Tiếng Anh (revision 69388570)
Tiếng Ý (revision 65463286)
Đinh Tỵ (revision 44954925)
Đoàn kết chính là sức mạnh (revision 55875134)
Trụ sở Bộ Ngoại giao Việt Nam (revision 68973711)
Làng Cót (revision 68596819)
Họ kép Trung Hoa (revision 69057604)
Đền Voi Phục (revision 68936589)
Bút hiệu của Hồ Chí Minh (revision 68618443)
Lübeck (revision 69180567)
Thời kỳ cận đại (revision 66970477)
Kinh tế Brasil (revision 68059251)
Văn miếu Mao Điền (revision 68353427)
Thành Thái (revision 69411949)
Henrik Ibsen (revision 67727373)
Hội Thừa sai Việt Nam (revision 69170283)
Nhâm Tuất (revision 69064587)
Than đá (revision 69282824)
Cự thạch (revision 68633635)
Bảo tàng Hậu cần (Việt Nam) (revision 67683059)
Cộng đồng Caribe (revision 69329463)
Thi Hương (revision 69371778)
Bàn thành tứ hữu (revision 69219909)
Tên miền (revision 68454376)
Đồng minh tự trị dân chủ Đài Loan (revision 64832671)
Mario Arqués (revision 69357404)
12 tháng 3 (revision 69116686)
Tổng thống chế (revision 69239864)
NATO (revision 69319692)
Đôi dép Bác Hồ (revision 68316843)
Canh Tuất (revision 65144096)
1891 (revision 69394596)
Mậu Thìn (revision 24033237)
28 tháng 10 (revision 69243460)
Nam Kinh (revision 68941450)
Lăng Lenin (revision 68944591)
Vũ Cao Đàm (revision 69174289)
Thiên nga (revision 68936780)
Vật lý y khoa (revision 68746344)
Nguyễn Tất Thành (revision 69401333)
1983 (revision 69400593)
30 tháng 10 (revision 68619835)
Chiến tranh lấy mạng làm trung tâm (revision 68617056)
Chuyên gia (revision 69322138)
Cộng hòa Nhân Dân Trung Hoa (revision 69335955)
Nguyễn Phúc Bảo Ân (revision 68647696)
Bờ (revision 64487705)
Lào (revision 69374229)
Chương Châu (revision 64358831)
ISBN (revision 68690711)
Cố đô Huế (revision 69119630)
Toàn quyền Đông Dương (revision 69415410)
1838 (revision 66151124)
Bến Bạch Đằng (revision 69399546)
New Jersey (revision 69108160)
Sân vận động Hoa Lư (revision 68942060)
Gia đình Hồ Chí Minh (revision 68656195)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-14 18:45:49.353245
107 characters appeared 1638099 times.
Most Frequent characters:
[ 0] Char n: 12.198591171840041 %
[ 1] Char h: 9.07637450483762 %
[ 2] Char t: 6.942498591354979 %
[ 3] Char c: 6.2973605380382995 %
[ 4] Char i: 5.664126527151289 %
[ 5] Char g: 5.387891696411511 %
[ 6] Char a: 3.391125933170095 %
[ 7] Char u: 3.1319840864318946 %
[ 8] Char đ: 2.4678606115991766 %
[ 9] Char m: 2.4540030852836123 %
[10] Char o: 2.3572445865603973 %
[11] Char à: 2.271230249209602 %
[12] Char r: 2.0874196248212105 %
[13] Char v: 1.962946073466866 %
[14] Char l: 1.9324228877497636 %
[15] Char á: 1.58555740526061 %
[16] Char ư: 1.558452816343823 %
[17] Char p: 1.5136447797111163 %
[18] Char s: 1.3848979823563776 %
[19] Char y: 1.319517318550344 %
[20] Char b: 1.2476657393722845 %
[21] Char k: 1.1433985369626622 %
[22] Char ế: 0.9981692193206881 %
[23] Char d: 0.9948116688918068 %
[24] Char ộ: 0.857945704136319 %
[25] Char e: 0.8345038975055843 %
[26] Char ạ: 0.789817953615746 %
[27] Char ố: 0.757951747727091 %
[28] Char ệ: 0.7528848988980519 %
[29] Char ô: 0.725230892638357 %
[30] Char ê: 0.7175390498376472 %
[31] Char q: 0.7004460658360697 %
[32] Char â: 0.6896408580922154 %
[33] Char ả: 0.6828036644915845 %
[34] Char ủ: 0.6210247366001689 %
[35] Char ớ: 0.6092427869133672 %
[36] Char ó: 0.5808562241964619 %
[37] Char ề: 0.5658998631950817 %
[38] Char ấ: 0.5340947036778607 %
[39] Char ă: 0.5208476410766382 %
[40] Char ờ: 0.5145598648189151 %
[41] Char ợ: 0.456504765584986 %
[42] Char ị: 0.4350164428401458 %
[43] Char í: 0.4243333278391599 %
[44] Char ơ: 0.4120630071808846 %
[45] Char ậ: 0.39515316229360986 %
[46] Char ể: 0.39326072477914953 %
[47] Char ự: 0.38532469649270285 %
[48] Char ữ: 0.3852636501212686 %
[49] Char ì: 0.3753130915774932 %
[50] Char ầ: 0.356816041032929 %
[51] Char x: 0.3403335207456937 %
[52] Char ứ: 0.32513297425857657 %
[53] Char ọ: 0.30272895594222327 %
[54] Char ở: 0.29314467562705304 %
[55] Char ã: 0.29204584094123737 %
[56] Char ồ: 0.24656629422275456 %
[57] Char ụ: 0.24552850590837308 %
[58] Char ổ: 0.23698201390758433 %
[59] Char ừ: 0.22257507024911194 %
[60] Char ắ: 0.19308967284639084 %
[61] Char ú: 0.1828949288168786 %
[62] Char ù: 0.16616822304390638 %
[63] Char ò: 0.16439787827231442 %
[64] Char ử: 0.15737754555738084 %
[65] Char ễ: 0.1475490797564738 %
[66] Char ặ: 0.1461450132134871 %
[67] Char ũ: 0.12154332552550243 %
[68] Char ĩ: 0.11592705935355556 %
[69] Char ằ: 0.11293578715327951 %
[70] Char ý: 0.11287474078184528 %
[71] Char ỉ: 0.09712477695182038 %
[72] Char f: 0.09218002086564975 %
[73] Char w: 0.08961607326541314 %
[74] Char é: 0.08485445629354514 %
[75] Char ẩ: 0.07105797634941478 %
[76] Char ỳ: 0.07002018803503329 %
[77] Char ỏ: 0.06873821423491498 %
[78] Char ẫ: 0.06129055691994195 %
[79] Char ỷ: 0.053537667747797904 %
[80] Char ỹ: 0.04938651449027195 %
[81] Char j: 0.04694465963290375 %
[82] Char ỗ: 0.045845824947088054 %
[83] Char ẽ: 0.037543518432036155 %
[84] Char z: 0.031072603060010414 %
[85] Char è: 0.019717977973248257 %
[86] Char ẳ: 0.019595885230379848 %
[87] Char õ: 0.018741236030300975 %
[88] Char ẹ: 0.017092984001577438 %
[89] Char ẻ: 0.016665659401538 %
[90] Char ỡ: 0.014834268258511848 %
[91] Char ẵ: 0.0062877762577231286 %
[92] Char ü: 0.005860451657683693 %
[93] Char ỵ: 0.002624993971670821 %
The first 94 characters have an accumulated ratio of 0.9999011048782763.
The first 4 characters have an accumulated ratio of 0.3451482480607094.
All characters whose order is over 57 have an accumulated ratio of 0.03101094622486187.
1993 sequences found.
First 1119 (typical positive ratio): 0.9950155124227584
Next 340 (1459-1119): 0.003985367896549574
Rest: 0.0009991196806919955
- Processing end: 2022-12-14 18:45:50.022872