mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-06 16:56:40 +08:00
The alphabet was not complete and thus confidence was a bit too low. For instance the VISCII test case's confidence bumped from 0.643401 to 0.696346 and the UTF-8 test case bumped from 0.863777 to 0.99. Only the Windows-1258 test case is slightly worse from 0.532846 to 0.532098. But the overwhole recognition gain is obvious anyway.
227 lines
7.5 KiB
Plaintext
227 lines
7.5 KiB
Plaintext
= Logs of language model for Vietnamese (vi) =
|
|
|
|
- Generated by BuildLangModel.py
|
|
- Started: 2021-03-21 00:42:18.087736
|
|
- Maximum depth: 4
|
|
- Max number of pages: 100
|
|
|
|
== Parsed pages ==
|
|
|
|
Chữ_Quốc_ngữ (revision 64521024)
|
|
1651 (revision 26251708)
|
|
1838 (revision 63252802)
|
|
1865 (revision 64100421)
|
|
1869 (revision 59848285)
|
|
1888 (revision 64474933)
|
|
1902 (revision 64405865)
|
|
1918 (revision 64446780)
|
|
1919 (revision 64400438)
|
|
1938 (revision 63147818)
|
|
22 tháng 2 (revision 64199177)
|
|
26 tháng 11 (revision 60306925)
|
|
28 tháng 12 (revision 64197178)
|
|
A (revision 64616139)
|
|
ASCII (revision 64542934)
|
|
Alexandre de Rhodes (revision 64481737)
|
|
Antonio Barbosa (revision 28290803)
|
|
B (revision 63753684)
|
|
BBC (revision 64477721)
|
|
Biên khảo (revision 64480018)
|
|
Bàn phím máy tính (revision 63261029)
|
|
Bá Đa Lộc (revision 64107557)
|
|
Bán nguyên âm (revision 64296580)
|
|
Bình luận (revision 26758605)
|
|
Bảng chữ cái Bồ Đào Nha (revision 64521024)
|
|
Bảng chữ cái Hy Lạp (revision 64540140)
|
|
Bảng chữ cái Latinh (revision 64566174)
|
|
Bảng chữ cái Latinh cơ bản của ISO (revision 64566174)
|
|
Bảng chữ cái Phoenicia (revision 64540140)
|
|
Bảng mẫu tự ngữ âm quốc tế (revision 64494501)
|
|
Bắc Kỳ (revision 64538623)
|
|
Bồ Đào Nha (revision 64477762)
|
|
Bộ Giáo dục và Đào tạo (Việt Nam) (revision 64439920)
|
|
Bộ gõ tiếng Việt (revision 64399872)
|
|
C (revision 64341946)
|
|
Cao Xuân Dục (revision 64403009)
|
|
Chiều cao (revision 63620682)
|
|
Christoforo Borri (revision 39684524)
|
|
Chính tả (revision 64168374)
|
|
Chính tả tiếng Việt (revision 64566759)
|
|
Chủ tịch Hồ Chí Minh (revision 64615386)
|
|
Chữ Hán (revision 64488663)
|
|
Chữ Latinh (revision 64566174)
|
|
Chữ Nôm (revision 64497361)
|
|
Chữ b đuôi quặp (revision 63724573)
|
|
Chữ cái (revision 63906900)
|
|
Chữ số La Mã (revision 64606955)
|
|
Chữ tượng hình Ai Cập (revision 64545532)
|
|
Chữ viết tiếng Việt (revision 64521025)
|
|
Các dân tộc Việt Nam (revision 64521289)
|
|
Công giáo tại Việt Nam (revision 64479778)
|
|
Cư Jút (revision 64446849)
|
|
Cư Kuin (revision 64351798)
|
|
Cư Ê Wi (revision 64324496)
|
|
Cải cách giáo dục của Cộng hòa Xã hội chủ nghĩa Việt Nam (revision 63800666)
|
|
Cổ tự học (revision 63417312)
|
|
D (revision 64521463)
|
|
Danh sách các chữ cái Latinh (revision 64566174)
|
|
De facto (revision 64458216)
|
|
Di chúc Hồ Chí Minh (revision 64620754)
|
|
Du ký (revision 64306751)
|
|
Dòng Tên (revision 64563470)
|
|
Dấu câu (revision 64430387)
|
|
Dấu huyền (revision 64200881)
|
|
Dấu hỏi (revision 64314350)
|
|
Dấu ngã (revision 64005169)
|
|
Dấu nặng (revision 64089094)
|
|
Dấu phụ (revision 43648394)
|
|
Dấu sắc (revision 64200881)
|
|
Dấu âm ngắn (revision 64560651)
|
|
E (revision 63474436)
|
|
Ea H'leo (revision 64600906)
|
|
Ea Wy (revision 64564116)
|
|
F (revision 64556895)
|
|
Francesco Buzomi (revision 64573844)
|
|
Francisco de Pina (revision 64573938)
|
|
G (revision 63840275)
|
|
Gaspar do Amaral (revision 61771486)
|
|
Gemeinsame Normdatei (revision 63835749)
|
|
Gen (revision 64577144)
|
|
Gia Định báo (revision 64521887)
|
|
Giovanni Filippo de Marini (revision 64381034)
|
|
Girolamo Maiorica (revision 64500026)
|
|
Giáo hội Công giáo Rôma (revision 64587044)
|
|
H (revision 63175940)
|
|
Hiến pháp nước Cộng hòa Xã hội chủ nghĩa Việt Nam 2013 (revision 64587062)
|
|
Hoàng Phê (revision 63792712)
|
|
Hán học (revision 64209708)
|
|
Hệ chữ viết Latinh (revision 64566174)
|
|
Hệ thống chữ nổi tiếng Việt (revision 64158849)
|
|
Hồ Chí Minh (revision 64615386)
|
|
Hồ Dzếnh (revision 64471051)
|
|
Hội Trí Tri (revision 64593204)
|
|
I (revision 55105217)
|
|
IPA (revision 64494501)
|
|
ISBN (revision 64594093)
|
|
ISO/IEC 646 (revision 64542934)
|
|
J (revision 64280732)
|
|
|
|
== End of Parsed pages ==
|
|
|
|
- Wikipedia parsing ended at: 2021-03-21 01:07:32.065373
|
|
|
|
107 characters appeared 107 times.
|
|
|
|
Most Frequent characters:
|
|
[ 0] Char c: 0.9345794392523363 %
|
|
[ 1] Char h: 0.9345794392523363 %
|
|
[ 2] Char ữ: 0.9345794392523363 %
|
|
[ 3] Char q: 0.9345794392523363 %
|
|
[ 4] Char u: 0.9345794392523363 %
|
|
[ 5] Char ố: 0.9345794392523363 %
|
|
[ 6] Char n: 0.9345794392523363 %
|
|
[ 7] Char g: 0.9345794392523363 %
|
|
[ 8] Char l: 0.9345794392523363 %
|
|
[ 9] Char à: 0.9345794392523363 %
|
|
[10] Char v: 0.9345794392523363 %
|
|
[11] Char i: 0.9345794392523363 %
|
|
[12] Char ế: 0.9345794392523363 %
|
|
[13] Char t: 0.9345794392523363 %
|
|
[14] Char ủ: 0.9345794392523363 %
|
|
[15] Char y: 0.9345794392523363 %
|
|
[16] Char r: 0.9345794392523363 %
|
|
[17] Char ê: 0.9345794392523363 %
|
|
[18] Char ự: 0.9345794392523363 %
|
|
[19] Char d: 0.9345794392523363 %
|
|
[20] Char ù: 0.9345794392523363 %
|
|
[21] Char đ: 0.9345794392523363 %
|
|
[22] Char ể: 0.9345794392523363 %
|
|
[23] Char ệ: 0.9345794392523363 %
|
|
[24] Char a: 0.9345794392523363 %
|
|
[25] Char ộ: 0.9345794392523363 %
|
|
[26] Char b: 0.9345794392523363 %
|
|
[27] Char ư: 0.9345794392523363 %
|
|
[28] Char ợ: 0.9345794392523363 %
|
|
[29] Char ạ: 0.9345794392523363 %
|
|
[30] Char o: 0.9345794392523363 %
|
|
[31] Char ả: 0.9345794392523363 %
|
|
[32] Char á: 0.9345794392523363 %
|
|
[33] Char ắ: 0.9345794392523363 %
|
|
[34] Char í: 0.9345794392523363 %
|
|
[35] Char ă: 0.9345794392523363 %
|
|
[36] Char ồ: 0.9345794392523363 %
|
|
[37] Char m: 0.9345794392523363 %
|
|
[38] Char ú: 0.9345794392523363 %
|
|
[39] Char ý: 0.9345794392523363 %
|
|
[40] Char ọ: 0.9345794392523363 %
|
|
[41] Char ấ: 0.9345794392523363 %
|
|
[42] Char ừ: 0.9345794392523363 %
|
|
[43] Char ã: 0.9345794392523363 %
|
|
[44] Char ó: 0.9345794392523363 %
|
|
[45] Char ờ: 0.9345794392523363 %
|
|
[46] Char ơ: 0.9345794392523363 %
|
|
[47] Char ĩ: 0.9345794392523363 %
|
|
[48] Char k: 0.9345794392523363 %
|
|
[49] Char x: 0.9345794392523363 %
|
|
[50] Char s: 0.9345794392523363 %
|
|
[51] Char ề: 0.9345794392523363 %
|
|
[52] Char p: 0.9345794392523363 %
|
|
[53] Char ầ: 0.9345794392523363 %
|
|
[54] Char ằ: 0.9345794392523363 %
|
|
[55] Char ẹ: 0.9345794392523363 %
|
|
[56] Char ậ: 0.9345794392523363 %
|
|
[57] Char ứ: 0.9345794392523363 %
|
|
[58] Char ô: 0.9345794392523363 %
|
|
[59] Char ỉ: 0.9345794392523363 %
|
|
[60] Char é: 0.9345794392523363 %
|
|
[61] Char e: 0.9345794392523363 %
|
|
[62] Char â: 0.9345794392523363 %
|
|
[63] Char è: 0.9345794392523363 %
|
|
[64] Char ị: 0.9345794392523363 %
|
|
[65] Char ớ: 0.9345794392523363 %
|
|
[66] Char ử: 0.9345794392523363 %
|
|
[67] Char ụ: 0.9345794392523363 %
|
|
[68] Char ỗ: 0.9345794392523363 %
|
|
[69] Char ì: 0.9345794392523363 %
|
|
[70] Char ỏ: 0.9345794392523363 %
|
|
[71] Char ổ: 0.9345794392523363 %
|
|
[72] Char ở: 0.9345794392523363 %
|
|
[73] Char ặ: 0.9345794392523363 %
|
|
[74] Char ẫ: 0.9345794392523363 %
|
|
[75] Char ò: 0.9345794392523363 %
|
|
[76] Char ũ: 0.9345794392523363 %
|
|
[77] Char ẳ: 0.9345794392523363 %
|
|
[78] Char ẽ: 0.9345794392523363 %
|
|
[79] Char ỷ: 0.9345794392523363 %
|
|
[80] Char f: 0.9345794392523363 %
|
|
[81] Char j: 0.9345794392523363 %
|
|
[82] Char w: 0.9345794392523363 %
|
|
[83] Char z: 0.9345794392523363 %
|
|
[84] Char ễ: 0.9345794392523363 %
|
|
[85] Char ẩ: 0.9345794392523363 %
|
|
[86] Char ỹ: 0.9345794392523363 %
|
|
[87] Char ỳ: 0.9345794392523363 %
|
|
[88] Char ỵ: 0.9345794392523363 %
|
|
[89] Char ø: 0.9345794392523363 %
|
|
[90] Char ẻ: 0.9345794392523363 %
|
|
[91] Char õ: 0.9345794392523363 %
|
|
[92] Char ỡ: 0.9345794392523363 %
|
|
[93] Char ï: 0.9345794392523363 %
|
|
[94] Char ü: 0.9345794392523363 %
|
|
[95] Char ÿ: 0.9345794392523363 %
|
|
[96] Char ç: 0.9345794392523363 %
|
|
[97] Char ö: 0.9345794392523363 %
|
|
[98] Char ß: 0.9345794392523363 %
|
|
[99] Char æ: 0.9345794392523363 %
|
|
[100] Char ẵ: 0.9345794392523363 %
|
|
|
|
The first 101 characters have an accumulated ratio of 0.9439252336448598.
|
|
|
|
1892 sequences found.
|
|
|
|
First 1119 (typical positive ratio): 0.9950139912021918
|
|
Next 364 (1483-1119): 0.003989975405861768
|
|
Rest: 0.000996033391946427
|
|
|
|
- Processing end: 2021-03-21 01:07:32.958132
|