uchardet/script/BuildLangModelLogs/LangSpanishModel.log

258 lines
9.1 KiB
Plaintext

= Logs of language model for Spanish (es) =
- Generated by BuildLangModel.py
- Started: 2022-12-14 18:14:38.434845
- Maximum depth: 4
- Max number of pages: 200
== Parsed pages ==
España (revision 147846877)
Golfo de Vizcaya (revision 147055501)
Baños de la Encina (revision 147079175)
Tomates (revision 147602893)
Incidente de la isla Perejil (revision 147813920)
Cultura de los Millares (revision 147715388)
Système universitaire de documentation (revision 143750095)
Esperanza de vida (revision 147875006)
Batalla de Covadonga (revision 147758019)
Catolicismo (revision 147926468)
Alfonso I de Aragón (revision 147883096)
Zona vascófona de Navarra (revision 141084534)
Oriente Próximo (revision 147910543)
Administración apostólica de Albania Meridional (revision 142851547)
Burgos de Pamplona (revision 146933644)
Universidad de Alcalá (revision 146652064)
Fantova (revision 124905015)
Arive (revision 147900679)
Galipot (revision 145299963)
El Frago (revision 147907701)
Villanueva de Aézcoa (revision 145392582)
Beinza-Labayen (revision 143806179)
Llanura abisal (revision 143251399)
Control de autoridades (revision 147901716)
Troya (revision 146801619)
Betelu (revision 143364398)
Botánica (revision 146722327)
Creciente Fértil (revision 147343273)
Premio en Ciencias Económicas en memoria de Alfred Nobel (revision 145733932)
Gemeinsame Normdatei (revision 146776905)
Ciencia (revision 147395420)
Avempace (revision 146577045)
Loira Atlántico (revision 147836674)
Irak (revision 147592690)
Bilbao (revision 147854614)
Vitamina A (revision 147834451)
Provincia de Almería (revision 147850090)
Barroco (revision 147928221)
Concarneau (revision 147558555)
Zugarramurdi (revision 147887215)
Wayback Machine (revision 147380387)
Iglesia ortodoxa (revision 147489979)
Envejecimiento humano (revision 147816794)
Gourmet (revision 138056985)
Organización Mundial de la Salud (revision 147853669)
Cella (revision 146894815)
Índice de pobreza multidimensional (revision 146948111)
Educación sexual (revision 146241369)
Radical (química) (revision 147034631)
Al-Ándalus (revision 147780774)
Instituto Nacional de Estadística (España) (revision 146251702)
Grañén (revision 147721298)
Alfabeto fonético de la OTAN (revision 147783603)
Al-Maqqari (revision 146668368)
Base Aérea de Zaragoza (revision 131156543)
Al-Hurr (revision 128585733)
Sudán del Sur (revision 147891889)
Gijón (revision 147869866)
El Cairo (revision 146975228)
722 (revision 138667902)
Vitamina B5 (revision 144008272)
Claudio Sánchez-Albornoz (revision 144045436)
Landas (departamento) (revision 147836637)
Agustín de Hipona (revision 147924302)
OpenStreetMap (revision 146301100)
Egipcio (revision 147734070)
Levante español (revision 142768407)
Materialismo histórico (revision 147477625)
Oppas (revision 147059211)
Larráun (revision 144799818)
Mohammed VI de Marruecos (revision 147567782)
Proteína (revision 147684920)
Azerbaiyán (revision 147395599)
Asturias de Santillana (revision 147530668)
Peñalosa (Baños de la Encina) (revision 146809056)
Dólar (revision 147580248)
Legión Española (revision 147326269)
Idioma azerí (revision 147695143)
2001 (revision 147862309)
Lenguas bereberes (revision 147681674)
Library of Congress Control Number (revision 140572816)
País (revision 147227956)
Mecenazgo (revision 143339455)
Canadá (revision 147657905)
Zubieta (revision 144872335)
Azuela (revision 145618154)
Zarauz (revision 147525360)
Padrón municipal (revision 138762215)
José Luis Rodríguez Zapatero (revision 147913837)
Saldías (revision 138428536)
Ejército de Tierra Español (revision 147897324)
Yizia (revision 146859865)
Equidae (revision 145612148)
Archieparquía (revision 139338762)
Almizaraque (revision 138935790)
Echarri Aranaz (revision 146790066)
Placa ibérica (revision 147730673)
Aguas internacionales (revision 145803339)
Cuenca (accidente geográfico) (revision 143138322)
Sierra Morena (Jaén) (revision 147924089)
Canal de la Mancha (revision 147523338)
Código postal (revision 147000607)
Acta de Supremacía (revision 144310990)
Navantia (revision 147650925)
Our World in Data (revision 146140389)
Salud pública (revision 147682212)
Reservas estratégicas de petróleo (revision 144165636)
Tabernas (revision 145519626)
Lascuarre (revision 144997708)
África Oriental (revision 146427397)
Bajo Almanzora (revision 146808163)
Gallaecia (revision 147129153)
Alsasua (revision 147200852)
América del Norte (revision 147904330)
Revolución Industrial (revision 147701019)
Autol (revision 147896478)
Edicto de Tesalónica (revision 145638583)
Unión Europea (revision 147719558)
Museo Pushkin (revision 147488412)
Compendio del Catecismo de la Iglesia católica (revision 131933215)
Tholos (revision 146812149)
Municipio (España) (revision 147602504)
Olea europaea (revision 147662926)
Comunidad autónoma (revision 147882369)
Ondárroa (revision 147765687)
778 (revision 145057178)
Grupo Prisa (revision 147780795)
Gran Río Artificial (revision 141803019)
Liechtenstein (revision 147718277)
China (revision 147903615)
Hégira (revision 146807833)
Pozo artesiano (revision 143464501)
Población de derecho (revision 126835996)
Encyclopædia Iranica (revision 142357780)
1784 (revision 143107902)
Capital (política) (revision 147065738)
San Juan de Gaztelugatxe (revision 147641698)
ISSN (revision 147877292)
Ciencias formales (revision 145700643)
Rebelión de Pontiac (revision 147871955)
Provincia de Toledo (revision 147626596)
Segovia (revision 147741609)
Real Academia Gallega (revision 146767599)
Software de código abierto (revision 147813773)
Población mundial (revision 147900051)
Idioma portugués (revision 147750173)
Averroes (revision 147896976)
Bellas artes (revision 147435861)
Coordenadas geográficas (revision 147900581)
Concejo abierto (revision 147602486)
Comarca (revision 147589053)
Sila Calderón (revision 146921141)
República de Artsaj (revision 147847663)
Oasys MiniHollywood (revision 145324843)
Río Saja (revision 147183959)
Museo Petrie (revision 136296852)
Carta (revision 147714437)
Groenlandia (revision 147872406)
CEDAW (revision 147048175)
Barbazan-Debat (revision 120346465)
Instituto Nacional de Estadística de España (revision 146251702)
Badajoz (revision 147897251)
Puente del Arenal (revision 144958892)
Robot (revision 147815514)
Código postal de Chile (revision 146012494)
Estructura primaria de las proteínas (revision 147166640)
Biblioteca Nacional de la Dieta (revision 144085519)
Sufragio pasivo (revision 132123198)
Cabo de Gata (revision 146811697)
Petróleos Mexicanos (revision 147789018)
Cister (revision 147853981)
Casa de la Vega (revision 132851298)
Tercera revolución industrial (revision 146951299)
Plataforma Solar de Almería (revision 142991140)
Señorío de Vizcaya (revision 147527552)
Eneas (revision 147814979)
Austen Henry Layard (revision 136667881)
Padres Barnabitas (revision 141823753)
Richard Branson (revision 147632871)
Gobernanza (revision 147702601)
Tudor (revision 146104381)
1990 (revision 147834820)
ChEMBL (revision 144031401)
Poeta (revision 143173748)
Página web (revision 147843504)
Iberoamérica (revision 147927619)
Las brujas de Zugarramurdi (revision 145399459)
Alejandro Herculano (revision 147590922)
Corriente continua (revision 147833964)
Regimiento Acorazado «Pavía» n.º 4 (revision 143396700)
Canadá en los Juegos Olímpicos (revision 146305207)
Densidad de población (revision 147587635)
Archieparquía mayor de Ernakulam-Angamaly (revision 142384800)
Archieparquía mayor de Trivandrum (revision 147056812)
Puerta de Purchena (revision 143814321)
== End of Parsed pages ==
- Wikipedia parsing ended at: 2022-12-14 18:18:05.348319
59 characters appeared 2847500 times.
Most Frequent characters:
[ 0] Char e: 12.567269534679543 %
[ 1] Char a: 12.03585601404741 %
[ 2] Char o: 8.071571553994731 %
[ 3] Char n: 7.20955223880597 %
[ 4] Char s: 7.153608428446005 %
[ 5] Char i: 7.078595258999123 %
[ 6] Char r: 6.54683055311677 %
[ 7] Char l: 5.956769095697981 %
[ 8] Char d: 5.235258999122037 %
[ 9] Char c: 4.664758560140474 %
[10] Char t: 4.620403863037752 %
[11] Char u: 3.5088323090430205 %
[12] Char m: 2.6934152765583845 %
[13] Char p: 2.457243195785777 %
[14] Char b: 1.397892888498683 %
[15] Char g: 1.291624231782265 %
[16] Char v: 0.9327480245829676 %
[17] Char y: 0.8672519754170325 %
[18] Char f: 0.856505706760316 %
[19] Char ó: 0.8456540825285339 %
[20] Char h: 0.6400702370500438 %
[21] Char í: 0.5843020193151888 %
[22] Char q: 0.5208077260755049 %
[23] Char z: 0.4422827041264267 %
[24] Char á: 0.40660228270412646 %
[25] Char j: 0.3674451273046532 %
[26] Char é: 0.29892888498683057 %
[27] Char x: 0.24361720807726078 %
[28] Char ñ: 0.18121158911325724 %
[29] Char ú: 0.12684811237928006 %
[30] Char k: 0.11466198419666375 %
[31] Char w: 0.0574539069359087 %
[32] Char ü: 0.007901668129938543 %
The first 33 characters have an accumulated ratio of 0.9998377524143984.
The first 4 characters have an accumulated ratio of 0.39884249341527656.
All characters whose order is over 20 have an accumulated ratio of 0.0335206321334504.
1131 sequences found.
First 468 (typical positive ratio): 0.9950191343195147
Next 177 (645-468): 0.0039894116732021034
Rest: 0.0009914540072831768
- Processing end: 2022-12-14 18:18:05.461637