Add Hebrew test files.

Texts from Hebrew Wikipedia:
https://he.wikipedia.org/wiki/עברית
https://he.wikipedia.org/wiki/ISO_8859
https://he.wikipedia.org/wiki/UTF-8
uchardet fails to detect the ISO-8859-8 files and detects it as
Windows-1255, which is probably acceptable since it is apparently
an "almost compatible superset". It may be worth trying to make
more complete test files in the future to demonstrate the differences.
This commit is contained in:
Jehan 2015-11-18 03:08:07 +01:00
parent 601e59bd83
commit e7c8114233
3 changed files with 6 additions and 0 deletions

2
test/he/iso-8859-8.txt Normal file
View File

@ -0,0 +1,2 @@
החלקים של ISO 8859 בנויים, עד כמה שאפשר, כך:
קודים 0xA0 עד 0xBF מוקצים לסימנים שונים, כגון פיסוק, מטבע ומספרים עיליים.

3
test/he/utf-8.txt Normal file
View File

@ -0,0 +1,3 @@
(ראשי תיבות של 8-bit Unicode Transformation Format או 8-bit UCS Transformation Format) הוא קידוד תווים באורך משתנה ליוניקוד, שנוצר על ידי רוב פייק וקן תומפסון. ניתן לקודד בו כל תו המצוי בתקן יוניקוד על ידי שימוש באחד עד ארבעה בתים, תלוי בתו. הקידוד ב-UTF-8 מעניק את כל יתרונות השימוש בקידוד ליוניקוד ומוסיף עליהם, בין היתר, גם חיסכון בזיכרון, עמידות בפני איבוד או השחתת בתים ותאימות לאחור ל-ASCII. ה-IETF מעדיף בבירור את UTF-8 ומחייב כל פרוטוקול אינטרנט לתמוך בו, וכן קונסורציום הדואר האלקטרוני, ה-IMC, ממליץ שכל תוכנת דואר אלקטרוני תוכל להציג וליצור דואר באמצעות UTF-8.

1
test/he/windows-1255.txt Normal file
View File

@ -0,0 +1 @@
ע<EFBFBD>ב<EFBFBD>ר<EFBFBD>ית היא שפה שמית, ממשפחת השפות האפרו-אסיאתיות, הידועה כשפתם של היהודים ושל השומרונים, אשר ניב מודרני שלה משמש כשפה הרשמית והעיקרית של מדינת ישראל.