uchardet

mirror of https://gitlab.freedesktop.org/uchardet/uchardet.git synced 2026-04-30 19:09:25 +08:00

History

Jehan 71ca5a7cd5 script, src: generate the Hebrew models. The Hebrew Model had never been regenerated by my scripts. I now added the base generation files. Note that I added 2 charsets: ISO-8859-8 and WINDOWS-1255 but they are nearly identical. One of the difference is that the generic currency sign is replaced by the sheqel sign (Israel currency) in Windows-1255. And though this one lost the "double low line", apparently some Yiddish characters were added. Basically it looks like most Hebrew text would work fine with the same confidence on both charsets and detecting both is likely irrelevant. So I keep the charset file for ISO-8859-8, but won't actually use it. The good part is now that Hebrew is also recognized in UTF-8 text thanks to the new code and newly generated language model.		2021-03-17 23:22:50 +01:00
..
codepoints.py	BuildLangModel.py: some in-progress script to build language models.	2015-11-29 01:30:04 +01:00
db.py	BuildLangModel.py: some in-progress script to build language models.	2015-11-29 01:30:04 +01:00
ibm852.py	LangModels: add support for Czech.	2016-09-21 03:33:50 +02:00
iso-8859-1.py	BuildLangModel.py: some in-progress script to build language models.	2015-11-29 01:30:04 +01:00
iso-8859-2.py	BuildLangModel: forgot to add charset/language files.	2015-12-12 18:18:08 +01:00
iso-8859-3.py	LangModels: add Esperanto ISO-8859-3 language model.	2015-12-04 01:35:56 +01:00
iso-8859-4.py	LangModels: add support for Latvian \| Lithuanian / ISO-8859-4 \| ISO-8859-10.	2016-09-21 00:27:16 +02:00
iso-8859-6.py	LangModels: add Arabic support.	2015-12-13 18:42:16 +01:00
iso-8859-7.py	LangModels: retraining Greek models with my training script.	2015-12-13 18:02:11 +01:00
iso-8859-8.py	script, src: generate the Hebrew models.	2021-03-17 23:22:50 +01:00
iso-8859-9.py	script: forgot to commit ISO-8859-9 and Turkish files.	2015-12-04 02:40:54 +01:00
iso-8859-10.py	LangModels: add support for Latvian \| Lithuanian / ISO-8859-4 \| ISO-8859-10.	2016-09-21 00:27:16 +02:00
iso-8859-11.py	LangModels: add ISO-8859-11 and regenerate TIS-620 Thai models.	2015-12-04 03:14:52 +01:00
iso-8859-13.py	LangModels: add support for Lithuanian / ISO-8859-13.	2016-09-20 23:09:24 +02:00
iso-8859-15.py	BuildLangModel.py: some in-progress script to build language models.	2015-11-29 01:30:04 +01:00
iso-8859-16.py	LangModels: add Polish support.	2016-09-21 17:30:15 +02:00
mac-centraleurope.py	LangModels: add support for Czech.	2016-09-21 03:33:50 +02:00
tis-620.py	LangModels: add ISO-8859-11 and regenerate TIS-620 Thai models.	2015-12-04 03:14:52 +01:00
viscii.py	LangModels: add Windows-1258 support for Vietnamese.	2016-02-13 02:32:57 +01:00
windows-1250.py	BuildLangModel: forgot to add charset/language files.	2015-12-12 18:18:08 +01:00
windows-1252.py	Adding French Windows-1252 support.	2015-12-03 21:22:30 +01:00
windows-1253.py	LangModels: retraining Greek models with my training script.	2015-12-13 18:02:11 +01:00
windows-1255.py	script, src: generate the Hebrew models.	2021-03-17 23:22:50 +01:00
windows-1256.py	LangModels: add Arabic support.	2015-12-13 18:42:16 +01:00
windows-1257.py	LangModels: Estonian models created.	2016-09-27 00:14:29 +02:00
windows-1258.py	LangModels: add Windows-1258 support for Vietnamese.	2016-02-13 02:32:57 +01:00