From 04f930993209f6fc7a8f904f6d77b9eb1aa1734e Mon Sep 17 00:00:00 2001 From: Jehan Date: Mon, 30 Nov 2015 00:19:15 +0100 Subject: [PATCH] tests: update ISO-8859-15 French test file. MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Previous technical text about charsets themselves were not relevant to identify a language. In particular the special characters different between ISO-8859-1 and ISO-8859-15 were used by themselves, out of a char sequence context. Therefore without language understanding, they could have as well been representing the ISO-8859-15 letters or the ISO-8859-1 symbols at the corresponding codepoints. Replacing with text from this Wikipedia page: https://fr.wikipedia.org/wiki/Å’uf_(cuisine) This uses some of these same characters (in particular 'Å“') but in contextual character sequences, making it relevant for our algorithm. --- test/fr/iso-8859-15.txt | 35 ++++++++++++++--------------------- 1 file changed, 14 insertions(+), 21 deletions(-) diff --git a/test/fr/iso-8859-15.txt b/test/fr/iso-8859-15.txt index 99eb714..dc76246 100644 --- a/test/fr/iso-8859-15.txt +++ b/test/fr/iso-8859-15.txt @@ -1,23 +1,16 @@ -L'ISO/CEI 8859-15 (aussi connue comme Latin-9 et non officiellement comme -Latin-0, mais jamais comme Latin-15) est la 15e partie de la norme de codage de -caractères ISO 8859 de l'Organisation internationale de normalisation (ISO). +L'½uf de volaille est un produit agricole servant d'ingrédient entrant dans la +composition de nombreux plats, dans de nombreuses cultures gastronomiques du +monde. -Cette norme donne un code numérique tenant sur 8 bits aux caractères de -l'alphabet latin utilisés en allemand, anglais, basque, catalan, danois, -espagnol, finnois, français, italien, néerlandais, norvégien, portugais et -suédois (parmi d'autres langues européennes). +Le plus utilisé est l'½uf de poule, mais les ½ufs d'autres oiseaux sont aussi +consommés : caille, cane, oie, autruche, etc. Les ½ufs de poissons, comme le +caviar, ou de certains reptiles, comme ceux de l'iguane vert, sont également +utilisés dans l'alimentation humaine. Cependant, leur utilisation est très +différente de celle des ½ufs de volaille. -Il peut être considéré comme une mise à jour de la norme ISO 8859-1 : il est -identique, à l'exception de huit caractères. Il ajoute entre autres le caractère -de l'euro (¤) et les caractères ¼, ½ et ¾ qui manquaient pour l'écriture du -français. Il enlève en échange quelques caractères peu utilisés. - -¼uf (cuisine) -Page d'aide sur l'homonymie Pour les articles homonymes, voir ¼uf. -¼ufs de poule - -L'½uf de volaille est un produit agricole servant d'ingrédient entrant dans la composition de nombreux plats, dans de nombreuses cultures gastronomiques du monde. - -Le plus utilisé est l'½uf de poule, mais les ½ufs d'autres oiseaux sont aussi consommés : caille, cane, oie, autruche, etc. Les ½ufs de poissons, comme le caviar, ou de certains reptiles, comme ceux de l'iguane vert, sont également utilisés dans l'alimentation humaine. Cependant, leur utilisation est très différente de celle des ½ufs de volaille. - -Les ½ufs utilisés en cuisine ne sont généralement pas fécondés du fait de leur provenance d'élevages industriels où les coqs sont absents. Fécondés ou non, ils sont utilisés à l'état frais si moins de vingt-huit jours se sont écoulés après la ponte, selon les normes administratives françaises. Dans les usages culinaires asiatiques, les ½ufs sont parfois consommés couvés, comme le balut, ou mis à fermenter pendant plusieurs semaines, comme l'½uf de cent ans. +Les ½ufs utilisés en cuisine ne sont généralement pas fécondés du fait de leur +provenance d'élevages industriels où les coqs sont absents. Fécondés ou non, ils +sont utilisés à l'état frais si moins de vingt-huit jours se sont écoulés après +la ponte, selon les normes administratives françaises. Dans les usages +culinaires asiatiques, les ½ufs sont parfois consommés couvés, comme le balut, +ou mis à fermenter pendant plusieurs semaines, comme l'½uf de cent ans.