From e7c81142337e808118806c8a13d3fc4f93c867a8 Mon Sep 17 00:00:00 2001 From: Jehan Date: Wed, 18 Nov 2015 03:08:07 +0100 Subject: [PATCH] Add Hebrew test files. MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Texts from Hebrew Wikipedia: https://he.wikipedia.org/wiki/עברית https://he.wikipedia.org/wiki/ISO_8859 https://he.wikipedia.org/wiki/UTF-8 uchardet fails to detect the ISO-8859-8 files and detects it as Windows-1255, which is probably acceptable since it is apparently an "almost compatible superset". It may be worth trying to make more complete test files in the future to demonstrate the differences. --- test/he/iso-8859-8.txt | 2 ++ test/he/utf-8.txt | 3 +++ test/he/windows-1255.txt | 1 + 3 files changed, 6 insertions(+) create mode 100644 test/he/iso-8859-8.txt create mode 100644 test/he/utf-8.txt create mode 100644 test/he/windows-1255.txt diff --git a/test/he/iso-8859-8.txt b/test/he/iso-8859-8.txt new file mode 100644 index 0000000..bc78eee --- /dev/null +++ b/test/he/iso-8859-8.txt @@ -0,0 +1,2 @@ + ISO 8859 , , : + 0xA0 0xBF , , . diff --git a/test/he/utf-8.txt b/test/he/utf-8.txt new file mode 100644 index 0000000..1fbe418 --- /dev/null +++ b/test/he/utf-8.txt @@ -0,0 +1,3 @@ +(ראשי תיבות של 8‎-bit Unicode Transformation Format או 8‎-bit UCS Transformation Format) הוא קידוד תווים באורך משתנה ליוניקוד, שנוצר על ידי רוב פייק וקן תומפסון. ניתן לקודד בו כל תו המצוי בתקן יוניקוד על ידי שימוש באחד עד ארבעה בתים, תלוי בתו. הקידוד ב-UTF-8 מעניק את כל יתרונות השימוש בקידוד ליוניקוד ומוסיף עליהם, בין היתר, גם חיסכון בזיכרון, עמידות בפני איבוד או השחתת בתים ותאימות לאחור ל-ASCII. ה-IETF מעדיף בבירור את UTF-8 ומחייב כל פרוטוקול אינטרנט לתמוך בו, וכן קונסורציום הדואר האלקטרוני, ה-IMC, ממליץ שכל תוכנת דואר אלקטרוני תוכל להציג וליצור דואר באמצעות UTF-8. + + diff --git a/test/he/windows-1255.txt b/test/he/windows-1255.txt new file mode 100644 index 0000000..d915bd4 --- /dev/null +++ b/test/he/windows-1255.txt @@ -0,0 +1 @@ + , -, , .