mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-06 16:56:40 +08:00
For UTF-8, ISO-8859-1 and WINDOWS-1252 support. The test for UTF-8 and ISO-8859-1 is taken from 'Marmota' page on Wikipedia in Catalan. The test for WINDOWS-1252 is taken from the 'Unió_Europea' page. ISO-8859-1 and WINDOWS-1252 being very similar, regarding most letters (in particular the ones used in Catalan), I differentiated the test with a text containing the '€' symbol, which is on an unused spot in ISO-8859-1.
239 lines
8.2 KiB
Plaintext
239 lines
8.2 KiB
Plaintext
= Logs of language model for Catalan (ca) =
|
|
|
|
- Generated by BuildLangModel.py
|
|
- Started: 2022-12-20 01:31:40.290803
|
|
- Maximum depth: 4
|
|
- Max number of pages: 200
|
|
|
|
== Parsed pages ==
|
|
|
|
Parlament_Europeu (revision 31056370)
|
|
Genji Monogatari (revision 31007904)
|
|
Bundestag (revision 30742728)
|
|
Kana (revision 29176811)
|
|
Jun'ichirō Tanizaki (revision 30750244)
|
|
Representació proporcional amb llista de partit (revision 22086795)
|
|
Agències de la Unió Europea (revision 30276199)
|
|
Poder executiu (revision 30290834)
|
|
Edicions Atalanta (revision 26048077)
|
|
Animació (revision 30865051)
|
|
Pressupost de la Unió Europea (revision 30231577)
|
|
Jorge Luis Borges (revision 30783720)
|
|
Universitat de Pittsburgh (revision 25411555)
|
|
Satiricó (revision 31019009)
|
|
Dramatis personae (revision 30858787)
|
|
Corpus lingüístic (revision 28600087)
|
|
Genji Monogatari Emaki (revision 30520718)
|
|
Era Keichō (revision 27881416)
|
|
Període Heian (revision 30351338)
|
|
Uji (revision 26298733)
|
|
Clan Minamoto (revision 29218047)
|
|
Ventafocs (revision 30167478)
|
|
わ (revision 28487155)
|
|
Japó (revision 30980338)
|
|
Agència Europea dels Sistemes Globals de Navegació per Satèl·lit (revision 28777516)
|
|
Període Shōwa (revision 30351346)
|
|
ム (revision 25190709)
|
|
Premi Balzan (revision 30321993)
|
|
Germans Grimm (revision 30104486)
|
|
Europol (revision 25369380)
|
|
Unió Europea (revision 30730061)
|
|
Kyoto (revision 30706119)
|
|
Incendi del Reichstag (revision 30894126)
|
|
Processament de llenguatge natural (revision 29016655)
|
|
794 (revision 29283769)
|
|
CANTIC (revision 30488826)
|
|
Casa de la Història Europea (revision 30703943)
|
|
VP:VER (revision 30232565)
|
|
Katakana (revision 29937701)
|
|
Shogunat Kamakura (revision 28808156)
|
|
Eleccions (revision 30449311)
|
|
Noam Chomsky (revision 30552025)
|
|
Eleccions federals alemanyes de 1994 (revision 28337358)
|
|
Conceptes d'unitat europea abans del 1945 (revision 30927921)
|
|
Era Heian (revision 30351338)
|
|
Gemeinsame Normdatei (revision 30883432)
|
|
La Bella Dorment (pel·lícula de 1959) (revision 30982067)
|
|
Població (revision 30352350)
|
|
Obra literària (revision 31011396)
|
|
も (revision 25190714)
|
|
Istituto Centrale per il Catalogo Unico (revision 28786509)
|
|
Política (revision 31014511)
|
|
ハ (revision 31071577)
|
|
Vot (revision 27865452)
|
|
Clan Taira (revision 26323649)
|
|
Permís de conducció europeu (revision 27672810)
|
|
Mandala (revision 30940608)
|
|
Campània antiga (revision 29855854)
|
|
ゐ (revision 28487156)
|
|
Consell de la Unió Europea (revision 30308594)
|
|
24 de juliol (revision 31063555)
|
|
Kyōto (revision 30706119)
|
|
Alfons X de Castella (revision 30535714)
|
|
VIAF (revision 28927187)
|
|
1975 (revision 31057077)
|
|
モ (revision 25190714)
|
|
Sistema Galileo (revision 30880731)
|
|
Densitat de població (revision 30174278)
|
|
Autodesk Maya (revision 30989692)
|
|
Nàpols (revision 31028649)
|
|
Memòria de traducció (revision 30341759)
|
|
Ryukyu (revision 29922259)
|
|
Agència Europea per a la Seguretat i la Salut en el Treball (revision 29049313)
|
|
ISNI (revision 30824306)
|
|
PDF (revision 29442049)
|
|
Eleccions federals alemanyes de 1972 (revision 30271501)
|
|
Sistema presidencialista (revision 30596011)
|
|
Primer ministre (revision 27174693)
|
|
Coeducació (revision 31048027)
|
|
Ko Tazawa (revision 30932179)
|
|
Poliomielitis (revision 30976061)
|
|
18 de setembre (revision 31063494)
|
|
Campanya electoral (revision 27935270)
|
|
Kōbō Abe (revision 30016508)
|
|
Rodopis (revision 28014188)
|
|
Política Agrària Comunitària (revision 30353551)
|
|
21 d'octubre (revision 30980460)
|
|
1984 (revision 31063521)
|
|
South Park (revision 31024165)
|
|
Hiragana (revision 29920075)
|
|
Associació de Votants de Schleswig Meridional (revision 30753058)
|
|
ひ (revision 31071564)
|
|
Lingüística (revision 31037031)
|
|
Blauet comú (revision 28729161)
|
|
Autodeterminació (revision 29349294)
|
|
Xina (revision 31007838)
|
|
Control d'autoritats (revision 29854505)
|
|
Guillermo de Torre (revision 30765552)
|
|
Unesco (revision 30129516)
|
|
Romanització Hepburn (revision 29144432)
|
|
Tanka (revision 30478859)
|
|
Clientelisme (revision 30811663)
|
|
Corpus Textual Informatitzat de la Llengua Catalana (revision 29876775)
|
|
Secessió (revision 29980781)
|
|
Fada protectora (revision 29175001)
|
|
を (revision 28487157)
|
|
Ōtsu (revision 30010938)
|
|
Gran Enciclopèdia Catalana (revision 30724375)
|
|
LCCN (revision 30638965)
|
|
Universitat privada (revision 28518823)
|
|
Robert Louis Stevenson (revision 30728093)
|
|
Kioto (revision 30706119)
|
|
7 de setembre (revision 30503878)
|
|
Aardman Animations (revision 30216975)
|
|
Llibertinatge (revision 29597307)
|
|
Bibliothèque nationale de France (revision 30715383)
|
|
Alemanya Occidental (revision 30239917)
|
|
National Library of Australia (revision 30977078)
|
|
Diccionari Descriptiu de la Llengua Catalana (revision 27017217)
|
|
1969 (revision 31060188)
|
|
Separació de poders (revision 30362225)
|
|
Isaac Titsingh (revision 29748956)
|
|
Adolf Hitler (revision 30951478)
|
|
Període Kamakura (revision 28808156)
|
|
Societas Europaea (revision 28857120)
|
|
Invasions japoneses a Corea (revision 30978745)
|
|
Agència de la Unió Europea (revision 30276199)
|
|
Sistema polític (revision 30713673)
|
|
1606 (revision 26237152)
|
|
Universitat Rovira i Virgili (revision 30865280)
|
|
IVA (revision 30328630)
|
|
Patricis (revision 30923152)
|
|
Els barrufets (revision 31008031)
|
|
Lapislàtzuli Editorial (revision 30176117)
|
|
Internet (revision 30894405)
|
|
BIBSYS (revision 30255267)
|
|
Agència Europea de Seguretat Marítima (revision 28888118)
|
|
National Diet Library (revision 30669422)
|
|
Grup Enciclopèdia Catalana (revision 31077222)
|
|
Competència comunicativa (revision 30307632)
|
|
Castell Fushimi (revision 30610308)
|
|
Walter Gropius (revision 30790098)
|
|
Biblioteca Nacional de España (revision 31071591)
|
|
Diccionari Normatiu Valencià (revision 29882403)
|
|
Oscar Wilde (revision 31078983)
|
|
Hampshire (revision 30823098)
|
|
Clan Fujiwara (revision 30894950)
|
|
Speedy Gonzales (revision 30151280)
|
|
Tlön, Uqbar, Orbis Tertius (revision 29688246)
|
|
Japó ocupat (revision 28083159)
|
|
Garbancito de la Mancha (revision 30219073)
|
|
SUDOC (revision 29231585)
|
|
Gerardo Diego (revision 29912471)
|
|
Universitat (revision 29907980)
|
|
Foliscopi (revision 29903436)
|
|
1980 (revision 31063457)
|
|
Infart de miocardi (revision 30894255)
|
|
Encyclopædia Britannica (revision 28347959)
|
|
Petroni (revision 29790499)
|
|
Horari de màxima audiència (revision 27872454)
|
|
Sutra (revision 23458427)
|
|
Medicina (revision 31002196)
|
|
ホ (revision 25190705)
|
|
Luci Appuleu (revision 30336717)
|
|
Novel·la (revision 30386814)
|
|
Kimba, el lleó blanc (revision 30273901)
|
|
UTC+09:00 (revision 25182859)
|
|
Arquitectura neogòtica (revision 30347122)
|
|
Segle I (revision 30953541)
|
|
Emperador del Japó (revision 27799841)
|
|
Biblioteca Nacional de la República Txeca (revision 29847950)
|
|
Gran Diccionari de la Llengua Catalana (revision 29063719)
|
|
Període Reiwa (revision 29227861)
|
|
|
|
== End of Parsed pages ==
|
|
|
|
- Wikipedia parsing ended at: 2022-12-20 01:34:38.734771
|
|
|
|
57 characters appeared 1339831 times.
|
|
|
|
Most Frequent characters:
|
|
[ 0] Char e: 12.524042211293812 %
|
|
[ 1] Char a: 11.715955221218199 %
|
|
[ 2] Char i: 7.815090112111155 %
|
|
[ 3] Char s: 7.809940208877089 %
|
|
[ 4] Char r: 6.866686917976969 %
|
|
[ 5] Char n: 6.706069646097157 %
|
|
[ 6] Char l: 6.58105387918327 %
|
|
[ 7] Char t: 6.268850325152949 %
|
|
[ 8] Char o: 5.046308079153267 %
|
|
[ 9] Char c: 4.242027539294135 %
|
|
[10] Char d: 4.013192708632656 %
|
|
[11] Char u: 3.5825413802188484 %
|
|
[12] Char m: 3.048966623402504 %
|
|
[13] Char p: 2.778783294310999 %
|
|
[14] Char g: 1.4824257686230575 %
|
|
[15] Char v: 1.3498717375549603 %
|
|
[16] Char b: 1.2941184373253045 %
|
|
[17] Char f: 0.975943980994618 %
|
|
[18] Char q: 0.7455417884792933 %
|
|
[19] Char h: 0.6949383914837021 %
|
|
[20] Char ó: 0.5910446914573555 %
|
|
[21] Char x: 0.5195431364104875 %
|
|
[22] Char é: 0.4443097674258918 %
|
|
[23] Char à: 0.3875115592936721 %
|
|
[24] Char j: 0.36474749427353154 %
|
|
[25] Char y: 0.3636279500922131 %
|
|
[26] Char è: 0.3583287743006394 %
|
|
[27] Char í: 0.3250409939761059 %
|
|
[28] Char k: 0.2481656268589098 %
|
|
[29] Char ò: 0.21577348187943107 %
|
|
[30] Char z: 0.17778361599336034 %
|
|
[31] Char w: 0.11673113997213082 %
|
|
[32] Char ç: 0.11016314744172959 %
|
|
[33] Char ú: 0.08792153637287091 %
|
|
[34] Char ü: 0.06709801460034885 %
|
|
[35] Char ï: 0.05448448349082832 %
|
|
|
|
The first 36 characters have an accumulated ratio of 0.9997462366522347.
|
|
The first 5 characters have an accumulated ratio of 0.4673171467147723.
|
|
All characters whose order is over 21 have an accumulated ratio of 0.03321687585971664.
|
|
|
|
1083 sequences found.
|
|
|
|
First 517 (typical positive ratio): 0.9950067888087288
|
|
Next 195 (712-517): 0.003994192320077694
|
|
Rest: 0.0009990188711934689
|
|
|
|
- Processing end: 2022-12-20 01:34:38.859159
|