Adding test files for main Japanese encoding...

... taken from the following Japanese Wikipedia pages:
https://ja.wikipedia.org/wiki/Extended_Unix_Code
https://ja.wikipedia.org/wiki/ISO/IEC_2022
https://ja.wikipedia.org/wiki/UTF-8
This commit is contained in:
Jehan 2015-11-17 21:24:47 +01:00
parent 0efcdfa546
commit a76c0786b3
3 changed files with 27 additions and 0 deletions

10
test/ja/euc-jp.txt Normal file
View File

@ -0,0 +1,10 @@
Extended Unix Code(EUC)は、UNIX上でよく使われる文字コードの符号化方式である。
日本語EUC
JIS X 0208ベース (EUC-JP)
JIS X 0213ベース (EUC-JIS-2004)
韓国語EUC (EUC-KR)
簡体字中国語EUC (EUC-CN)
繁体字中国語EUC (EUC-TW)
などがある。

8
test/ja/iso-2022-jp.txt Normal file
View File

@ -0,0 +1,8 @@
ISO/IEC 2022$B!J5l>N(B ISO 2022$B!K$O!"(B
$BJ8;z=89g$r(B7$B%S%C%HId9f$^$?$O(B8$B%S%C%HId9f$GI=8=$9$k$?$a$N5;=Q!"$*$h$S(B
$BJ#?t$NJ8;z=89g$rC10l$NJ8;zId9f2=J}<0$K4^$a$k5;=Q(B
$B$r5,Dj$9$k(BISO$B5,3J$G$"$k!#(BJIS$B$NBP1~5,3J$O(BJIS X 0202 $B!V>pJs5;=Q(B-$BJ8;zId9f$N9=B$5Z$S3HD%K!!W(B[1]$B!#(BEcma International$B$NBP1~5,3J$O(BECMA-35$B!#(B
ISO/IEC 2022 $B$NId9f2=J}<0$O!"0lHL$K!"(B1$BJ8;z$K(B1$B%P%$%H$+(B2$B%P%$%H0J>e$r;H$&2DJQD9$NJ8;zId9f2=J}<0$G$"$k!#$$$/$D$+$NId9f2=I=8=$,(BISO/IEC 2022$B$N5!9=$r;H$C$F$$$k!#$?$H$($P!"(BISO-2022-JP$B$OF|K\8l$G9-$/;H$o$l$F$$$kId9f2=I=8=$G$"$j!"$$$o$f$k!V(BJIS$B%3!<%I!W$H$$$&$N$b$3$l$r;X$9$3$H$,0lHLE*$G$"$k!#(B

9
test/ja/utf-8.txt Normal file
View File

@ -0,0 +1,9 @@
UTF-8ユーティーエフはち、ユーティーエフエイトはISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。
2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。
データ交換方式、ファイル形式として、一般的にUTF-8は使われる傾向にある。
当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された