mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-06 16:56:40 +08:00
263 lines
9.3 KiB
Plaintext
263 lines
9.3 KiB
Plaintext
= Logs of language model for Vietnamese (vi) =
|
||
|
||
- Generated by BuildLangModel.py
|
||
- Started: 2022-12-15 00:26:58.741409
|
||
- Maximum depth: 4
|
||
- Max number of pages: 200
|
||
|
||
== Parsed pages ==
|
||
|
||
Chữ_Quốc_ngữ (revision 69323365)
|
||
Nho giáo (revision 69390317)
|
||
Phương ngữ tiếng Việt (revision 69253911)
|
||
Serampore (revision 69215747)
|
||
Vi hiến (revision 68604810)
|
||
Bàn phím máy tính (revision 69177994)
|
||
Văn hóa Pháp (revision 54514660)
|
||
Quốc ngữ (revision 69389443)
|
||
Ngôn ngữ thanh điệu (revision 69010377)
|
||
Chữ Quốc ngữ (revision 69323365)
|
||
Đặc khu hành chính Cộng hòa Nhân dân Trung Hoa (revision 69426134)
|
||
Phân biệt chủng tộc (revision 69056376)
|
||
Tiếng Cornwall (revision 66276356)
|
||
Bảng chữ cái tiếng Việt (revision 69323365)
|
||
Tiếng Khmer (revision 69325997)
|
||
Nhóm ngôn ngữ Rôman (revision 68954316)
|
||
Tiếng Limburg (revision 68607883)
|
||
Pháp (revision 69398708)
|
||
Tiếng Yoruba (revision 69118098)
|
||
ISBN (revision 68690711)
|
||
Kathmandu (revision 68690328)
|
||
Đồng bằng sông Cửu Long (revision 69246438)
|
||
Tiếng Anh (revision 69388570)
|
||
De facto (revision 69400492)
|
||
Thành ngữ gốc Hán trong tiếng Việt (revision 69281032)
|
||
T (revision 69090121)
|
||
Sử dụng i và y trong chữ Quốc ngữ (revision 69323365)
|
||
Văn hóa cao cấp (revision 67498856)
|
||
Từ vựng tiếng Việt (revision 68581098)
|
||
Bắc Bộ Việt Nam (revision 69358947)
|
||
Duyên hải Nam Trung Bộ (revision 69340706)
|
||
Từ mượn trong tiếng Việt (revision 69411530)
|
||
Tiếng Breton (revision 66407538)
|
||
Chủ nghĩa quốc xã (revision 69296691)
|
||
BBC (revision 69385173)
|
||
Đông Nam Á (revision 69258873)
|
||
Backspace (revision 69372112)
|
||
5 (số) (revision 66943809)
|
||
Lhasa (revision 68702064)
|
||
Tây Bắc Trung Quốc (revision 68370855)
|
||
Kim Định (revision 68482544)
|
||
Nam Bộ (Việt Nam) (revision 69385658)
|
||
Chủ nghĩa dân tộc Nhật Bản (revision 69282936)
|
||
Chủ nghĩa phát xít (revision 69427677)
|
||
Độc lập (revision 69282907)
|
||
Trung Nguyên (revision 68471807)
|
||
Ký hiệu đô la (revision 68063682)
|
||
Alaska (revision 68488368)
|
||
Hiến pháp Cộng hòa Nhân dân Trung Hoa (revision 68618923)
|
||
Viện hàn lâm Pháp (revision 67842447)
|
||
Tiếng Wales (revision 69231563)
|
||
Đồng tính luyến ái ở Trung Quốc (revision 69292330)
|
||
Điện ảnh Pháp (revision 66377653)
|
||
Toán học (revision 69375403)
|
||
Ngữ pháp tiếng Việt (revision 68694548)
|
||
Ngữ hệ Nin-Sahara (revision 69193091)
|
||
Ngữ hệ Niger-Congo (revision 67824951)
|
||
Nguồn máy tính (revision 68384586)
|
||
Nhân dân tệ (revision 68764203)
|
||
Tiếng Takua (revision 64937724)
|
||
François Mauriac (revision 69191804)
|
||
Quyền công dân (revision 69280750)
|
||
Đặc khu liên bang (revision 68277202)
|
||
Đô la Singapore (revision 68820222)
|
||
V (revision 68453484)
|
||
Augustus (revision 69427224)
|
||
1955 (revision 69397550)
|
||
Tiếng Nga (revision 69231375)
|
||
Tây Ninh (revision 69265228)
|
||
Trùng Khánh (revision 69281733)
|
||
Hạ Long (revision 69237682)
|
||
Tây Bắc Bộ (revision 69246433)
|
||
Danh sách đơn vị hành chính Trung Quốc theo GDP bình quân đầu người (revision 68644474)
|
||
VIQR (revision 69426437)
|
||
Tư tưởng (revision 69179944)
|
||
CBeebies (revision 69386322)
|
||
Ngữ hệ Nam Đảo (revision 69193090)
|
||
Chủ nghĩa Trump (revision 69282945)
|
||
Công ty (revision 69075555)
|
||
Chiến tranh Đông Dương (revision 69415170)
|
||
Quy tắc đặt dấu thanh trong chữ quốc ngữ (revision 69127815)
|
||
Điện ảnh Triều Tiên (revision 69257947)
|
||
Châu Âu (revision 69335158)
|
||
Năm (revision 68407392)
|
||
Văn minh (revision 69261968)
|
||
Ngữ hệ (revision 69193082)
|
||
Bảng chữ cái Hy Lạp (revision 68485721)
|
||
Vạn lý Trường chinh (revision 69246605)
|
||
Hoài Hà (revision 68738981)
|
||
Tiếng Xá Phó (revision 65405578)
|
||
JSTOR (định danh) (revision 68334098)
|
||
Diode (revision 69383509)
|
||
Ngũ Chỉ Sơn (núi Trung Quốc) (revision 65453256)
|
||
Hương (Trung Quốc) (revision 67193970)
|
||
Thành ngữ (Tiếng Việt) (revision 69235423)
|
||
Síp (revision 69329436)
|
||
Baht Thái Lan (revision 69145112)
|
||
Lý thuyết hình thái (revision 68862337)
|
||
Jerusalem (revision 69289046)
|
||
Ổ đĩa cứng (revision 69048111)
|
||
Cà chua (revision 69199560)
|
||
Kuala Lumpur (revision 69364800)
|
||
Chủ nghĩa phân biệt chủng tộc (revision 69056376)
|
||
Nam Giang, Quảng Nam (revision 68988006)
|
||
Truyện ngắn (revision 69179000)
|
||
Ẩm thực Pháp (revision 68242821)
|
||
Cư Kuin (revision 68704228)
|
||
Kiểm soát tính nhất quán (revision 69202370)
|
||
Thư viện Quốc gia Pháp (revision 69229836)
|
||
Nhóm ngôn ngữ Oïl (revision 66609000)
|
||
Su hào (revision 69219380)
|
||
Amin Maalouf (revision 64372255)
|
||
Nguyễn Quảng Tuân (revision 65740823)
|
||
Khải Định (revision 69352546)
|
||
Úc (revision 69392760)
|
||
Chủ nghĩa quốc tế (revision 68941294)
|
||
SQL (revision 68382997)
|
||
Huelgoat (revision 36181427)
|
||
Hôn nhân màu tím (revision 64517405)
|
||
Đế quốc Đông La Mã (revision 69311499)
|
||
Phương ngữ Thanh Hóa (revision 69393354)
|
||
Quần đảo Alexander (revision 68217402)
|
||
Rết (revision 69210397)
|
||
OCLC (định danh) (revision 68689511)
|
||
Biến áp (revision 69414052)
|
||
1888 (revision 69378216)
|
||
Nhà nước Palestine (revision 69193568)
|
||
Tenge Kazakhstan (revision 65144240)
|
||
Vương Kỳ Sơn (revision 69243189)
|
||
ISO 639-2 (revision 67773556)
|
||
Tiếng Afrikaans (revision 68890705)
|
||
Ngữ hệ Dené–Enisei (revision 67228355)
|
||
Hệ ngôn ngữ (revision 69193082)
|
||
Văn học dân gian (revision 68803869)
|
||
Maastricht (revision 68124834)
|
||
Louis de Funès (revision 68905491)
|
||
Tây Tạng (revision 69238053)
|
||
Máy chủ (revision 66645190)
|
||
Yên Lộc, Kim Sơn (revision 67718890)
|
||
|
||
== End of Parsed pages ==
|
||
|
||
- Wikipedia parsing ended at: 2022-12-15 00:50:53.987711
|
||
|
||
107 characters appeared 1640238 times.
|
||
|
||
Most Frequent characters:
|
||
[ 0] Char n: 11.695497848482963 %
|
||
[ 1] Char h: 8.696177018213211 %
|
||
[ 2] Char t: 6.726036099639199 %
|
||
[ 3] Char c: 6.444918359408818 %
|
||
[ 4] Char i: 5.80403575578666 %
|
||
[ 5] Char g: 5.410800139979686 %
|
||
[ 6] Char a: 3.645263675149582 %
|
||
[ 7] Char u: 3.0321819150635454 %
|
||
[ 8] Char đ: 2.4478154999457398 %
|
||
[ 9] Char o: 2.4337321778912573 %
|
||
[10] Char m: 2.4094064397971513 %
|
||
[11] Char à: 2.1078038674875232 %
|
||
[12] Char r: 2.0719554113488408 %
|
||
[13] Char v: 2.0377530577879552 %
|
||
[14] Char l: 2.0084280451983187 %
|
||
[15] Char p: 1.8263203266842984 %
|
||
[16] Char á: 1.625922579528093 %
|
||
[17] Char ư: 1.563004880998977 %
|
||
[18] Char s: 1.5177065767284992 %
|
||
[19] Char b: 1.3103586186882634 %
|
||
[20] Char y: 1.2965191636823437 %
|
||
[21] Char k: 1.1537350067490206 %
|
||
[22] Char d: 1.0767339861654224 %
|
||
[23] Char e: 1.0382639592546936 %
|
||
[24] Char ế: 0.9937582228920436 %
|
||
[25] Char ộ: 0.8638380527703906 %
|
||
[26] Char â: 0.8303063335930517 %
|
||
[27] Char ệ: 0.8017129221491028 %
|
||
[28] Char ố: 0.7481231382275012 %
|
||
[29] Char ạ: 0.7387342568578463 %
|
||
[30] Char ô: 0.7038003021512732 %
|
||
[31] Char ê: 0.6733778878431057 %
|
||
[32] Char ủ: 0.6715488849788872 %
|
||
[33] Char ó: 0.6418580718164072 %
|
||
[34] Char q: 0.6322862901603303 %
|
||
[35] Char ả: 0.6050951142456156 %
|
||
[36] Char ớ: 0.5788794065251507 %
|
||
[37] Char ữ: 0.5116940346461916 %
|
||
[38] Char ờ: 0.4946843080089597 %
|
||
[39] Char ợ: 0.48773409712492943 %
|
||
[40] Char ề: 0.4856612272121485 %
|
||
[41] Char í: 0.4462157321071698 %
|
||
[42] Char ấ: 0.44463059629151375 %
|
||
[43] Char ị: 0.44188709199518605 %
|
||
[44] Char ể: 0.41652491894468974 %
|
||
[45] Char ậ: 0.4031731980358948 %
|
||
[46] Char ự: 0.38982147712709986 %
|
||
[47] Char ă: 0.3869560393064909 %
|
||
[48] Char ơ: 0.37067791381494636 %
|
||
[49] Char ầ: 0.3274524794572495 %
|
||
[50] Char x: 0.32318480610740635 %
|
||
[51] Char ã: 0.3056263786109089 %
|
||
[52] Char ở: 0.30526057803806517 %
|
||
[53] Char ì: 0.29763973277048816 %
|
||
[54] Char ứ: 0.29264045827495766 %
|
||
[55] Char ọ: 0.2834954439538652 %
|
||
[56] Char ụ: 0.2792887373661627 %
|
||
[57] Char ồ: 0.25880390528691566 %
|
||
[58] Char ừ: 0.24593991847524566 %
|
||
[59] Char ổ: 0.24423284913530843 %
|
||
[60] Char ù: 0.21685877293417177 %
|
||
[61] Char ắ: 0.1993003454376743 %
|
||
[62] Char ú: 0.18064451622264574 %
|
||
[63] Char ặ: 0.16912179817806927 %
|
||
[64] Char ò: 0.1583306812791802 %
|
||
[65] Char ử: 0.1311395053644654 %
|
||
[66] Char ĩ: 0.12790826697101274 %
|
||
[67] Char ằ: 0.1251037959125444 %
|
||
[68] Char f: 0.12418929448043516 %
|
||
[69] Char ỉ: 0.12144579018410742 %
|
||
[70] Char ũ: 0.12120192313554497 %
|
||
[71] Char ý: 0.1130323770087024 %
|
||
[72] Char é: 0.09620555065789232 %
|
||
[73] Char w: 0.0915720767352055 %
|
||
[74] Char ỏ: 0.0730991478065988 %
|
||
[75] Char j: 0.0643809008204907 %
|
||
[76] Char ẫ: 0.06328349910195959 %
|
||
[77] Char ễ: 0.05816229108214783 %
|
||
[78] Char ẩ: 0.05712585612575736 %
|
||
[79] Char ỳ: 0.04938307733389911 %
|
||
[80] Char ẽ: 0.04688344008613384 %
|
||
[81] Char ỷ: 0.046273772464727685 %
|
||
[82] Char z: 0.03883582748357251 %
|
||
[83] Char ỗ: 0.03883582748357251 %
|
||
[84] Char ỹ: 0.033714619463760746 %
|
||
[85] Char è: 0.02395993752126216 %
|
||
[86] Char ẳ: 0.023898970759121542 %
|
||
[87] Char ẻ: 0.022557701992027987 %
|
||
[88] Char ẹ: 0.01755842749649746 %
|
||
[89] Char õ: 0.017314560447934994 %
|
||
[90] Char ỡ: 0.016521992540106986 %
|
||
[91] Char ẵ: 0.005791842403358537 %
|
||
[92] Char ç: 0.005182174781952375 %
|
||
[93] Char ỵ: 0.0038409060148588197 %
|
||
|
||
The first 94 characters have an accumulated ratio of 0.9998957468367395.
|
||
The first 6 characters have an accumulated ratio of 0.4477746522151054.
|
||
All characters whose order is over 57 have an accumulated ratio of 0.03172832235321948.
|
||
|
||
1992 sequences found.
|
||
|
||
First 1145 (typical positive ratio): 0.9950096057827752
|
||
Next 346 (1491-1145): 0.003994365518613985
|
||
Rest: 0.000996028698610818
|
||
|
||
- Processing end: 2022-12-15 00:50:54.611610
|