mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-06 16:56:40 +08:00
Now making sure that we have a generic language model working with UTF-8 for all 26 supported models which had single-byte encoding support until now.
180 lines
5.9 KiB
Plaintext
180 lines
5.9 KiB
Plaintext
= Logs of language model for Vietnamese (vi) =
|
|
|
|
- Generated by BuildLangModel.py
|
|
- Started: 2021-03-16 20:34:51.373194
|
|
- Maximum depth: 4
|
|
- Max number of pages: 100
|
|
|
|
== Parsed pages ==
|
|
|
|
Chữ_Quốc_ngữ (revision 64521024)
|
|
1651 (revision 26251708)
|
|
1838 (revision 63252802)
|
|
1865 (revision 64100421)
|
|
1869 (revision 59848285)
|
|
1888 (revision 64474933)
|
|
1902 (revision 64405865)
|
|
1918 (revision 64446780)
|
|
1919 (revision 64400438)
|
|
1938 (revision 63147818)
|
|
22 tháng 2 (revision 64199177)
|
|
26 tháng 11 (revision 60306925)
|
|
28 tháng 12 (revision 64197178)
|
|
A (revision 64396586)
|
|
ASCII (revision 64542934)
|
|
Alexandre de Rhodes (revision 64481737)
|
|
Antonio Barbosa (revision 28290803)
|
|
B (revision 63753684)
|
|
BBC (revision 64477721)
|
|
Biên khảo (revision 64480018)
|
|
Bàn phím máy tính (revision 63261029)
|
|
Bá Đa Lộc (revision 64107557)
|
|
Bán nguyên âm (revision 64296580)
|
|
Bình luận (revision 26758605)
|
|
Bảng chữ cái Bồ Đào Nha (revision 64521024)
|
|
Bảng chữ cái Hy Lạp (revision 64540140)
|
|
Bảng chữ cái Latinh (revision 64566174)
|
|
Bảng chữ cái Latinh cơ bản của ISO (revision 64566174)
|
|
Bảng chữ cái Phoenicia (revision 64540140)
|
|
Bảng mẫu tự ngữ âm quốc tế (revision 64494501)
|
|
Bắc Kỳ (revision 64538623)
|
|
Bồ Đào Nha (revision 64477762)
|
|
Bộ Giáo dục và Đào tạo (Việt Nam) (revision 64439920)
|
|
Bộ gõ tiếng Việt (revision 64399872)
|
|
C (revision 64341946)
|
|
Cao Xuân Dục (revision 64403009)
|
|
Chiều cao (revision 63620682)
|
|
Christoforo Borri (revision 39684524)
|
|
Chính tả (revision 64168374)
|
|
Chính tả tiếng Việt (revision 64566759)
|
|
Chủ tịch Hồ Chí Minh (revision 64592392)
|
|
Chữ Hán (revision 64488663)
|
|
Chữ Latinh (revision 64566174)
|
|
Chữ Nôm (revision 64497361)
|
|
Chữ b đuôi quặp (revision 63724573)
|
|
Chữ cái (revision 63906900)
|
|
Chữ số La Mã (revision 64606955)
|
|
Chữ tượng hình Ai Cập (revision 64545532)
|
|
Chữ viết tiếng Việt (revision 64521025)
|
|
Các dân tộc Việt Nam (revision 64521289)
|
|
Công giáo tại Việt Nam (revision 64479778)
|
|
Cư Jút (revision 64446849)
|
|
Cư Kuin (revision 64351798)
|
|
Cư Ê Wi (revision 64324496)
|
|
Cải cách giáo dục của Cộng hòa Xã hội chủ nghĩa Việt Nam (revision 63800666)
|
|
Cổ tự học (revision 63417312)
|
|
D (revision 64521463)
|
|
Danh sách các chữ cái Latinh (revision 64566174)
|
|
De facto (revision 64458216)
|
|
Di chúc Hồ Chí Minh (revision 64479855)
|
|
Du ký (revision 64306751)
|
|
Dòng Tên (revision 64563470)
|
|
Dấu câu (revision 64430387)
|
|
Dấu huyền (revision 64200881)
|
|
Dấu hỏi (revision 64314350)
|
|
Dấu ngã (revision 64005169)
|
|
Dấu nặng (revision 64200881)
|
|
Dấu phụ (revision 43648394)
|
|
Dấu sắc (revision 64200881)
|
|
Dấu âm ngắn (revision 64560651)
|
|
E (revision 63474436)
|
|
Ea H'leo (revision 64600906)
|
|
Ea Wy (revision 64564116)
|
|
F (revision 64556895)
|
|
Francesco Buzomi (revision 64573844)
|
|
Francisco de Pina (revision 64573938)
|
|
G (revision 63840275)
|
|
Gaspar do Amaral (revision 61771486)
|
|
Gemeinsame Normdatei (revision 63835749)
|
|
Gen (revision 64577144)
|
|
Gia Định báo (revision 64521887)
|
|
Giovanni Filippo de Marini (revision 64381034)
|
|
Girolamo Maiorica (revision 64500026)
|
|
Giáo hội Công giáo Rôma (revision 64587044)
|
|
H (revision 63175940)
|
|
Hiến pháp nước Cộng hòa Xã hội chủ nghĩa Việt Nam 2013 (revision 64587062)
|
|
Hoàng Phê (revision 63792712)
|
|
Hán học (revision 64209708)
|
|
Hệ chữ viết Latinh (revision 64566174)
|
|
Hệ thống chữ nổi tiếng Việt (revision 64158849)
|
|
Hồ Chí Minh (revision 64592392)
|
|
Hồ Dzếnh (revision 64471051)
|
|
Hội Trí Tri (revision 64593204)
|
|
I (revision 55105217)
|
|
IPA (revision 64494501)
|
|
ISBN (revision 64594093)
|
|
ISO/IEC 646 (revision 64542934)
|
|
J (revision 64280732)
|
|
|
|
== End of Parsed pages ==
|
|
|
|
- Wikipedia parsing ended at: 2021-03-16 20:57:28.725327
|
|
|
|
107 characters appeared 961999 times.
|
|
|
|
First 54 characters:
|
|
[ 0] Char n: 11.732340678108812 %
|
|
[ 1] Char h: 8.846059091537517 %
|
|
[ 2] Char t: 6.799279417130371 %
|
|
[ 3] Char c: 6.610713732550658 %
|
|
[ 4] Char i: 6.088467867430215 %
|
|
[ 5] Char g: 5.545639860332495 %
|
|
[ 6] Char a: 3.414244713352093 %
|
|
[ 7] Char u: 2.916842948901194 %
|
|
[ 8] Char m: 2.5668425850754524 %
|
|
[ 9] Char o: 2.5124766241960748 %
|
|
[10] Char đ: 2.3970918888689074 %
|
|
[11] Char à: 2.0960520748982066 %
|
|
[12] Char v: 2.0507297824633914 %
|
|
[13] Char r: 1.966114309890135 %
|
|
[14] Char l: 1.7723511147100985 %
|
|
[15] Char á: 1.7447003583163807 %
|
|
[16] Char p: 1.523390356954633 %
|
|
[17] Char ư: 1.47359820540354 %
|
|
[18] Char b: 1.435656378021183 %
|
|
[19] Char s: 1.3317061660147256 %
|
|
[20] Char y: 1.2888786786680653 %
|
|
[21] Char d: 1.1103961646529779 %
|
|
[22] Char k: 1.0495852906292003 %
|
|
[23] Char ế: 0.9804583996449061 %
|
|
[24] Char e: 0.9535352947352336 %
|
|
[25] Char ộ: 0.8640341621976738 %
|
|
[26] Char ệ: 0.8197513718829229 %
|
|
[27] Char â: 0.8006245328737348 %
|
|
[28] Char ê: 0.792724316761244 %
|
|
[29] Char ô: 0.7877347065849342 %
|
|
[30] Char ố: 0.7180880645406076 %
|
|
[31] Char ạ: 0.7030152837996714 %
|
|
[32] Char q: 0.6624747011171529 %
|
|
[33] Char ả: 0.650208576100391 %
|
|
[34] Char ữ: 0.622038068646641 %
|
|
[35] Char ủ: 0.589085851440594 %
|
|
[36] Char ó: 0.5876305484725036 %
|
|
[37] Char ớ: 0.5369028450133524 %
|
|
[38] Char ề: 0.48440798795009143 %
|
|
[39] Char í: 0.47162211187329717 %
|
|
[40] Char ờ: 0.47131026123727776 %
|
|
[41] Char ợ: 0.46403374639682576 %
|
|
[42] Char ấ: 0.44532270823566344 %
|
|
[43] Char ể: 0.4278590726185786 %
|
|
[44] Char ă: 0.4115388893335648 %
|
|
[45] Char ị: 0.40748483106531297 %
|
|
[46] Char ậ: 0.3686074517748979 %
|
|
[47] Char ơ: 0.36434549308263314 %
|
|
[48] Char ự: 0.35519787442606493 %
|
|
[49] Char ồ: 0.3434515004693352 %
|
|
[50] Char ụ: 0.3314972260885926 %
|
|
[51] Char ầ: 0.32848266994040537 %
|
|
[52] Char ì: 0.32785896866836656 %
|
|
[53] Char x: 0.32650761591228267 %
|
|
|
|
The first 54 characters have an accumulated ratio of 0.9567099342099108.
|
|
|
|
1890 sequences found.
|
|
|
|
First 512 (typical positive ratio): 0.9336493792477815
|
|
Next 512 (512-1024): 0.003551978744260649
|
|
Rest: 0.007456342500128027
|
|
|
|
- Processing end: 2021-03-16 20:57:29.603172
|