mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-07 01:06:40 +08:00
221 lines
7.3 KiB
Plaintext
221 lines
7.3 KiB
Plaintext
= Logs of language model for Vietnamese (vi) =
|
|
|
|
- Generated by BuildLangModel.py
|
|
- Started: 2021-03-21 15:03:00.873505
|
|
- Maximum depth: 4
|
|
- Max number of pages: 100
|
|
|
|
== Parsed pages ==
|
|
|
|
Chữ_Quốc_ngữ (revision 64521024)
|
|
1651 (revision 26251708)
|
|
1838 (revision 63252802)
|
|
1865 (revision 64100421)
|
|
1869 (revision 59848285)
|
|
1888 (revision 64474933)
|
|
1902 (revision 64405865)
|
|
1918 (revision 64446780)
|
|
1919 (revision 64400438)
|
|
1938 (revision 63147818)
|
|
22 tháng 2 (revision 64199177)
|
|
26 tháng 11 (revision 60306925)
|
|
28 tháng 12 (revision 64197178)
|
|
A (revision 64616139)
|
|
ASCII (revision 64542934)
|
|
Alexandre de Rhodes (revision 64481737)
|
|
Antonio Barbosa (revision 28290803)
|
|
B (revision 63753684)
|
|
BBC (revision 64477721)
|
|
Biên khảo (revision 64480018)
|
|
Bàn phím máy tính (revision 63261029)
|
|
Bá Đa Lộc (revision 64107557)
|
|
Bán nguyên âm (revision 64635959)
|
|
Bình luận (revision 26758605)
|
|
Bảng chữ cái Bồ Đào Nha (revision 64521024)
|
|
Bảng chữ cái Hy Lạp (revision 64540140)
|
|
Bảng chữ cái Latinh (revision 64566174)
|
|
Bảng chữ cái Latinh cơ bản của ISO (revision 64566174)
|
|
Bảng chữ cái Phoenicia (revision 64540140)
|
|
Bảng mẫu tự ngữ âm quốc tế (revision 64494501)
|
|
Bắc Kỳ (revision 64538623)
|
|
Bồ Đào Nha (revision 64477762)
|
|
Bộ Giáo dục và Đào tạo (Việt Nam) (revision 64439920)
|
|
Bộ gõ tiếng Việt (revision 64399872)
|
|
C (revision 64341946)
|
|
Cao Xuân Dục (revision 64403009)
|
|
Chiều cao (revision 63620682)
|
|
Christoforo Borri (revision 39684524)
|
|
Chính tả (revision 64168374)
|
|
Chính tả tiếng Việt (revision 64566759)
|
|
Chủ tịch Hồ Chí Minh (revision 64615386)
|
|
Chữ Hán (revision 64488663)
|
|
Chữ Latinh (revision 64566174)
|
|
Chữ Nôm (revision 64497361)
|
|
Chữ b đuôi quặp (revision 63724573)
|
|
Chữ cái (revision 63906900)
|
|
Chữ số La Mã (revision 64606955)
|
|
Chữ tượng hình Ai Cập (revision 64545532)
|
|
Chữ viết tiếng Việt (revision 64521025)
|
|
Các dân tộc Việt Nam (revision 64521289)
|
|
Công giáo tại Việt Nam (revision 64479778)
|
|
Cư Jút (revision 64446849)
|
|
Cư Kuin (revision 64351798)
|
|
Cư Ê Wi (revision 64324496)
|
|
Cải cách giáo dục của Cộng hòa Xã hội chủ nghĩa Việt Nam (revision 63800666)
|
|
Cổ tự học (revision 63417312)
|
|
D (revision 64521463)
|
|
Danh sách các chữ cái Latinh (revision 64566174)
|
|
De facto (revision 64458216)
|
|
Di chúc Hồ Chí Minh (revision 64620754)
|
|
Du ký (revision 64306751)
|
|
Dòng Tên (revision 64563470)
|
|
Dấu câu (revision 64430387)
|
|
Dấu huyền (revision 64200881)
|
|
Dấu hỏi (revision 64314350)
|
|
Dấu ngã (revision 64005169)
|
|
Dấu nặng (revision 64089094)
|
|
Dấu phụ (revision 43648394)
|
|
Dấu sắc (revision 64200881)
|
|
Dấu âm ngắn (revision 64560651)
|
|
E (revision 63474436)
|
|
Ea H'leo (revision 64600906)
|
|
Ea Wy (revision 64564116)
|
|
F (revision 64556895)
|
|
Francesco Buzomi (revision 64573844)
|
|
Francisco de Pina (revision 64573938)
|
|
G (revision 63840275)
|
|
Gaspar do Amaral (revision 61771486)
|
|
Gemeinsame Normdatei (revision 63835749)
|
|
Gen (revision 64577144)
|
|
Gia Định báo (revision 64521887)
|
|
Giovanni Filippo de Marini (revision 64381034)
|
|
Girolamo Maiorica (revision 64500026)
|
|
Giáo hội Công giáo Rôma (revision 64587044)
|
|
H (revision 63175940)
|
|
Hiến pháp nước Cộng hòa Xã hội chủ nghĩa Việt Nam 2013 (revision 64587062)
|
|
Hoàng Phê (revision 63792712)
|
|
Hán học (revision 64209708)
|
|
Hệ chữ viết Latinh (revision 64566174)
|
|
Hệ thống chữ nổi tiếng Việt (revision 64158849)
|
|
Hồ Chí Minh (revision 64615386)
|
|
Hồ Dzếnh (revision 64471051)
|
|
Hội Trí Tri (revision 64593204)
|
|
I (revision 55105217)
|
|
IPA (revision 64494501)
|
|
ISBN (revision 64594093)
|
|
ISO/IEC 646 (revision 64542934)
|
|
J (revision 64280732)
|
|
|
|
== End of Parsed pages ==
|
|
|
|
- Wikipedia parsing ended at: 2021-03-21 15:20:14.349683
|
|
|
|
107 characters appeared 963942 times.
|
|
|
|
Most Frequent characters:
|
|
[ 0] Char n: 11.726846636000921 %
|
|
[ 1] Char h: 8.848250205925252 %
|
|
[ 2] Char t: 6.801757782107222 %
|
|
[ 3] Char c: 6.609733780663152 %
|
|
[ 4] Char i: 6.087710671388943 %
|
|
[ 5] Char g: 5.542553390141731 %
|
|
[ 6] Char a: 3.4085038311433675 %
|
|
[ 7] Char u: 2.916254297457731 %
|
|
[ 8] Char m: 2.5645733871954954 %
|
|
[ 9] Char o: 2.5096945666855475 %
|
|
[10] Char đ: 2.399210740895199 %
|
|
[11] Char à: 2.0946281000309144 %
|
|
[12] Char v: 2.0538580122040537 %
|
|
[13] Char r: 1.9629811752159363 %
|
|
[14] Char l: 1.7714758771793324 %
|
|
[15] Char á: 1.7447107813540648 %
|
|
[16] Char p: 1.5230169450029152 %
|
|
[17] Char ư: 1.4758149349234706 %
|
|
[18] Char b: 1.4370159200449821 %
|
|
[19] Char s: 1.3318228690107912 %
|
|
[20] Char y: 1.2889779675540645 %
|
|
[21] Char d: 1.1096103292521748 %
|
|
[22] Char k: 1.0497519560305495 %
|
|
[23] Char ế: 0.980349440111542 %
|
|
[24] Char e: 0.9535843442862745 %
|
|
[25] Char ộ: 0.8638486547945831 %
|
|
[26] Char ệ: 0.8230785669677221 %
|
|
[27] Char â: 0.7981808034093337 %
|
|
[28] Char ê: 0.7921638438827233 %
|
|
[29] Char ô: 0.7864581064005927 %
|
|
[30] Char ố: 0.7173668125260648 %
|
|
[31] Char ạ: 0.7026356357540184 %
|
|
[32] Char q: 0.6626954733791037 %
|
|
[33] Char ả: 0.6513877390963356 %
|
|
[34] Char ữ: 0.6236889771376286 %
|
|
[35] Char ó: 0.5890395895188715 %
|
|
[36] Char ủ: 0.5878984420224453 %
|
|
[37] Char ớ: 0.5372729894537224 %
|
|
[38] Char ề: 0.48395027916617384 %
|
|
[39] Char í: 0.47367995169833876 %
|
|
[40] Char ờ: 0.47087895329802004 %
|
|
[41] Char ợ: 0.46621062263082225 %
|
|
[42] Char ấ: 0.44618867110261823 %
|
|
[43] Char ể: 0.430108865471159 %
|
|
[44] Char ă: 0.4119542462098342 %
|
|
[45] Char ị: 0.4072859155426363 %
|
|
[46] Char ậ: 0.3685906413456411 %
|
|
[47] Char ơ: 0.36506345817486946 %
|
|
[48] Char ự: 0.3557267968404738 %
|
|
[49] Char ồ: 0.3428629523353065 %
|
|
[50] Char ụ: 0.33165895873403173 %
|
|
[51] Char ầ: 0.3292729230596862 %
|
|
[52] Char ì: 0.3276130721557936 %
|
|
[53] Char x: 0.3269906280668339 %
|
|
[54] Char ọ: 0.3178614480954248 %
|
|
[55] Char ứ: 0.293171165900023 %
|
|
[56] Char ã: 0.27926991457992284 %
|
|
[57] Char ở: 0.2768838789055773 %
|
|
[58] Char ừ: 0.24700656263551127 %
|
|
[59] Char ổ: 0.21235717501675413 %
|
|
[60] Char ắ: 0.19855966437814723 %
|
|
[61] Char ú: 0.19368385234796284 %
|
|
[62] Char ù: 0.1839322282875941 %
|
|
[63] Char ò: 0.17988634170935594 %
|
|
[64] Char ặ: 0.15924194609219228 %
|
|
[65] Char ử: 0.14046488274190772 %
|
|
[66] Char ý: 0.1310244807260188 %
|
|
[67] Char ĩ: 0.1246962991549284 %
|
|
[68] Char ằ: 0.12428133642895527 %
|
|
[69] Char ũ: 0.11764193281338503 %
|
|
[70] Char ỉ: 0.11193619533125436 %
|
|
[71] Char f: 0.104881828989711 %
|
|
[72] Char ễ: 0.10156212718192589 %
|
|
[73] Char é: 0.09398905743291609 %
|
|
[74] Char w: 0.08631224700241301 %
|
|
[75] Char ỏ: 0.06971373796348743 %
|
|
[76] Char ẩ: 0.06867633114855459 %
|
|
[77] Char ẫ: 0.06224440889597092 %
|
|
[78] Char j: 0.05259652551709542 %
|
|
[79] Char ỳ: 0.05093667461320287 %
|
|
[80] Char ẽ: 0.0438823082716595 %
|
|
[81] Char ỗ: 0.042429938730753514 %
|
|
[82] Char ỷ: 0.04004390305640796 %
|
|
[83] Char z: 0.034960609663237 %
|
|
[84] Char ỹ: 0.034545646937263856 %
|
|
[85] Char õ: 0.026453873780787642 %
|
|
[86] Char ẳ: 0.0246902821954018 %
|
|
[87] Char ỡ: 0.020333173572683834 %
|
|
[88] Char ẻ: 0.018777063350284562 %
|
|
[89] Char ẹ: 0.017635915853858427 %
|
|
[90] Char è: 0.014627436090553168 %
|
|
[91] Char ẵ: 0.011203993601274767 %
|
|
[92] Char ç: 0.005705737482130668 %
|
|
[93] Char ü: 0.00404588657823811 %
|
|
[94] Char ỵ: 0.003008479763305261 %
|
|
|
|
The first 95 characters have an accumulated ratio of 0.9999159700479902.
|
|
|
|
1892 sequences found.
|
|
|
|
First 1119 (typical positive ratio): 0.9950141222722985
|
|
Next 364 (1483-1119): 0.003989870519062855
|
|
Rest: 0.0009960072086386829
|
|
|
|
- Processing end: 2021-03-21 15:20:15.167861
|