mirror of
https://gitlab.freedesktop.org/uchardet/uchardet.git
synced 2025-12-11 22:20:05 +08:00
Adding test files for main Japanese encoding...
... taken from the following Japanese Wikipedia pages: https://ja.wikipedia.org/wiki/Extended_Unix_Code https://ja.wikipedia.org/wiki/ISO/IEC_2022 https://ja.wikipedia.org/wiki/UTF-8
This commit is contained in:
parent
0efcdfa546
commit
a76c0786b3
10
test/ja/euc-jp.txt
Normal file
10
test/ja/euc-jp.txt
Normal file
@ -0,0 +1,10 @@
|
||||
Extended Unix Code(EUC)は、UNIX上でよく使われる文字コードの符号化方式である。
|
||||
|
||||
日本語EUC
|
||||
JIS X 0208ベース (EUC-JP)
|
||||
JIS X 0213ベース (EUC-JIS-2004)
|
||||
韓国語EUC (EUC-KR)
|
||||
簡体字中国語EUC (EUC-CN)
|
||||
繁体字中国語EUC (EUC-TW)
|
||||
|
||||
などがある。
|
||||
8
test/ja/iso-2022-jp.txt
Normal file
8
test/ja/iso-2022-jp.txt
Normal file
@ -0,0 +1,8 @@
|
||||
ISO/IEC 2022$B!J5l>N(B ISO 2022$B!K$O!"(B
|
||||
|
||||
$BJ8;z=89g$r(B7$B%S%C%HId9f$^$?$O(B8$B%S%C%HId9f$GI=8=$9$k$?$a$N5;=Q!"$*$h$S(B
|
||||
$BJ#?t$NJ8;z=89g$rC10l$NJ8;zId9f2=J}<0$K4^$a$k5;=Q(B
|
||||
|
||||
$B$r5,Dj$9$k(BISO$B5,3J$G$"$k!#(BJIS$B$NBP1~5,3J$O(BJIS X 0202 $B!V>pJs5;=Q(B-$BJ8;zId9f$N9=B$5Z$S3HD%K!!W(B[1]$B!#(BEcma International$B$NBP1~5,3J$O(BECMA-35$B!#(B
|
||||
|
||||
ISO/IEC 2022 $B$NId9f2=J}<0$O!"0lHL$K!"(B1$BJ8;z$K(B1$B%P%$%H$+(B2$B%P%$%H0J>e$r;H$&2DJQD9$NJ8;zId9f2=J}<0$G$"$k!#$$$/$D$+$NId9f2=I=8=$,(BISO/IEC 2022$B$N5!9=$r;H$C$F$$$k!#$?$H$($P!"(BISO-2022-JP$B$OF|K\8l$G9-$/;H$o$l$F$$$kId9f2=I=8=$G$"$j!"$$$o$f$k!V(BJIS$B%3!<%I!W$H$$$&$N$b$3$l$r;X$9$3$H$,0lHLE*$G$"$k!#(B
|
||||
9
test/ja/utf-8.txt
Normal file
9
test/ja/utf-8.txt
Normal file
@ -0,0 +1,9 @@
|
||||
UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
|
||||
|
||||
正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。
|
||||
|
||||
2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。
|
||||
|
||||
データ交換方式、ファイル形式として、一般的にUTF-8は使われる傾向にある。
|
||||
|
||||
当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された
|
||||
Loading…
x
Reference in New Issue
Block a user