From bafccfcea8f44f778901f4ed2f27d663699b0cde Mon Sep 17 00:00:00 2001 From: Jehan Date: Tue, 17 Nov 2015 19:09:37 +0100 Subject: [PATCH] Add a Windows-1251 test files. Texts taken from Bulgarian Wikipedia page about Windows-1251: https://bg.wikipedia.org/wiki/Windows-1251 ... and Russian Wikipedia page about Windows-1251: https://ru.wikipedia.org/wiki/Windows-1251 The Bulgarian file detection is right, but the Russian detection returns "MAC-CYRILLIC", which is an error and should be fixed. --- test/windows-1251-bulgarian.txt | 3 +++ test/windows-1251-russian.txt | 4 ++++ 2 files changed, 7 insertions(+) create mode 100644 test/windows-1251-bulgarian.txt create mode 100644 test/windows-1251-russian.txt diff --git a/test/windows-1251-bulgarian.txt b/test/windows-1251-bulgarian.txt new file mode 100644 index 0000000..550b0a8 --- /dev/null +++ b/test/windows-1251-bulgarian.txt @@ -0,0 +1,3 @@ +Windows-1251 е 8-битов (еднобайтов) набор символи, проектиран от Майкрософт за езиците, използващи кирилица като български, руски и други. + +Windows-1251 и KOI8-R (или украинският му вариант KOI8-U) са много по-разпространени от ISO 8859-5, който не се използва масово. Те постепенно се изместват от двубайтовата кодировка Уникод, с която работи и Уикипедия. diff --git a/test/windows-1251-russian.txt b/test/windows-1251-russian.txt new file mode 100644 index 0000000..c76f0be --- /dev/null +++ b/test/windows-1251-russian.txt @@ -0,0 +1,4 @@ +Windows-1251 +набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft. Первоначальный вариант кодировки сильно отличался от представленного ниже в таблице (в частности, там было значительное число «белых пятен»). + +Windows-1251 выгодно отличается от других 8-битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); она также содержит все символы для других славянских языков: украинского, белорусского, сербского, македонского и болгарского.