mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-08 01:36:41 +08:00
Add Hebrew test files.
Texts from Hebrew Wikipedia: https://he.wikipedia.org/wiki/עברית https://he.wikipedia.org/wiki/ISO_8859 https://he.wikipedia.org/wiki/UTF-8 uchardet fails to detect the ISO-8859-8 files and detects it as Windows-1255, which is probably acceptable since it is apparently an "almost compatible superset". It may be worth trying to make more complete test files in the future to demonstrate the differences.
This commit is contained in:
parent
601e59bd83
commit
e7c8114233
2
test/he/iso-8859-8.txt
Normal file
2
test/he/iso-8859-8.txt
Normal file
@ -0,0 +1,2 @@
|
||||
החלקים של ISO 8859 בנויים, עד כמה שאפשר, כך:
|
||||
קודים 0xA0 עד 0xBF מוקצים לסימנים שונים, כגון פיסוק, מטבע ומספרים עיליים.
|
||||
3
test/he/utf-8.txt
Normal file
3
test/he/utf-8.txt
Normal file
@ -0,0 +1,3 @@
|
||||
(ראשי תיבות של 8-bit Unicode Transformation Format או 8-bit UCS Transformation Format) הוא קידוד תווים באורך משתנה ליוניקוד, שנוצר על ידי רוב פייק וקן תומפסון. ניתן לקודד בו כל תו המצוי בתקן יוניקוד על ידי שימוש באחד עד ארבעה בתים, תלוי בתו. הקידוד ב-UTF-8 מעניק את כל יתרונות השימוש בקידוד ליוניקוד ומוסיף עליהם, בין היתר, גם חיסכון בזיכרון, עמידות בפני איבוד או השחתת בתים ותאימות לאחור ל-ASCII. ה-IETF מעדיף בבירור את UTF-8 ומחייב כל פרוטוקול אינטרנט לתמוך בו, וכן קונסורציום הדואר האלקטרוני, ה-IMC, ממליץ שכל תוכנת דואר אלקטרוני תוכל להציג וליצור דואר באמצעות UTF-8.
|
||||
|
||||
|
||||
1
test/he/windows-1255.txt
Normal file
1
test/he/windows-1255.txt
Normal file
@ -0,0 +1 @@
|
||||
ע<EFBFBD>ב<EFBFBD>ר<EFBFBD>ית היא שפה שמית, ממשפחת השפות האפרו-אסיאתיות, הידועה כשפתם של היהודים ושל השומרונים, אשר ניב מודרני שלה משמש כשפה הרשמית והעיקרית של מדינת ישראל.
|
||||
Loading…
x
Reference in New Issue
Block a user