mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-12 06:30:05 +08:00
Texts from Hebrew Wikipedia: https://he.wikipedia.org/wiki/עברית https://he.wikipedia.org/wiki/ISO_8859 https://he.wikipedia.org/wiki/UTF-8 uchardet fails to detect the ISO-8859-8 files and detects it as Windows-1255, which is probably acceptable since it is apparently an "almost compatible superset". It may be worth trying to make more complete test files in the future to demonstrate the differences.
4 lines
951 B
Plaintext
4 lines
951 B
Plaintext
(ראשי תיבות של 8-bit Unicode Transformation Format או 8-bit UCS Transformation Format) הוא קידוד תווים באורך משתנה ליוניקוד, שנוצר על ידי רוב פייק וקן תומפסון. ניתן לקודד בו כל תו המצוי בתקן יוניקוד על ידי שימוש באחד עד ארבעה בתים, תלוי בתו. הקידוד ב-UTF-8 מעניק את כל יתרונות השימוש בקידוד ליוניקוד ומוסיף עליהם, בין היתר, גם חיסכון בזיכרון, עמידות בפני איבוד או השחתת בתים ותאימות לאחור ל-ASCII. ה-IETF מעדיף בבירור את UTF-8 ומחייב כל פרוטוקול אינטרנט לתמוך בו, וכן קונסורציום הדואר האלקטרוני, ה-IMC, ממליץ שכל תוכנת דואר אלקטרוני תוכל להציג וליצור דואר באמצעות UTF-8.
|
||
|
||
|