Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Premiers pas virtuels vers le chinois...
Archives
Visiteurs
Depuis la création 5 044
11 octobre 2011

L’ère numérique

La question des codages

Premières tentatives et tentatives nationales

Les premiers ordinateurs fonctionnent avec les caractères occidentaux,
une multitude de codages spécifiques à une compagnie (Adobe, Sony) font leur apparition.
Un fichier ne peut alors être transmis d’un groupe à l’autre.

Les premières tentatives de quantification et de numérisation des sinogrammes  sont la série des codages GB, et la série Big5.

La série des codages GB (Gúobīao : « standard national ») est lancée en 1980 par la Chine populaire, afin de standardiser le codage des caractères simplifiés, et permettre l’échange de fichiers.

Pareillement, la série Big5 est lancée par la République de Chine (Taïwan) en 1984, afin de standardiser le codage des sinogrammes traditionnels.

La standardisation de ces codages, c’est-à-dire la diffusion sur toutes les machines d’un codage unique déterminé : GB pour la Chine, Big5 pour Taïwan, Hong Kong et Macao, permet enfin à des fichiers de pouvoir être transmis d’une machine à une autre, en restant compréhensibles.

Des tables de conversions permettent également la conversion de Big5 à GB, et inversement, tandis que de larges tables additives sont produites par certains groupes spécifiques : le gouvernement de Hong Kong (environ 3 000 caractères), celui de Singapour, des ministères aux besoins pointus.

rivalité politique entre Taïwan et Chine populaire.

S’ajoutent à ces codages des « polices d’écritures », qui sont la couche visuelle et human friendly (à l'usage de l'homme), permettant d’afficher des sinogrammes lisibles par l’homme.

 Unicode

L’étape suivante dans la définition des sinogrammes est d’abord franchie par le dépassement de ces codages locaux  (GB et Big5), par le codage « Unicode ». Unicode est une tentative internationale de codage universel de tous les caractères écrits humains. Sous impulsion américaine, le groupe UniHan (Groupe pour l’Unification des caractères Han) est créé et intégré au projet Unicode.

Une nouvelle table est construite pour accueillir les sinogrammes.

Japonais, Taïwanais, Chinois, Coréens, s’accordent sur une organisation selon les caractères eux-mêmes (radicaux de Kangxi, puis selon le nombre de traits)[38],[39], avec inclusion de tous les caractères traditionnels et simplifiés.

En partant ainsi des caractères eux-mêmes, les tensions nationalistes liées aux divergence d’ordre alphabétique selon une phonétique (Pinyin ? Zhuyin ? Katakana ? Hangeul ?) s’effacent.

On obtient pour la première fois un codage international.

Unicode, dans sa volonté d’unification graphique et informatique, s’emploie à collecter les analyses.

Les recherches taïwanaises, chinoises, hongkongaises, coréennes précédemment citées et leurs groupes de recherches sont intégrés au projet, et lui servent de base graphique.

Clairement tournée vers le support numérique, le groupe de recherche UniHan confirme plusieurs innovations.

La liste des 36 traits CJK(V)[ ainsi que la liste des 214 radicaux traditionnels[et de leur 115 variantes graphiques complémentaires sont des tentatives de création d’un jeu complet de « briques », permettant de recréer l’ensemble des 100 000 sinogrammes historiques par inclusion successives, positionnements, et transformations géométriques (modification de la largeur et/ou hauteur).

La question des bases de données associées

L’ère informatique et la standardisation des codages facilite les études statistiques des sinogrammes, et la création de base de données linguistiques.

L’informatique, puis Internet, et la prolifération de contenu numérique en langue chinoise pose dans l’espace public un large corpus de textes qui sont analysés.

Des listes décrivant la fréquence des sinogrammes apparaissent.

Ainsi, une étude faite en 2004 sur un corpus comportant 193 millions de sinogrammes pose les sinogrammes  les 10 plus fréquents, et représentant ensemble 14% des occurrences. L’étude expose ainsi 9 933 sinogrammes. D’autre listes existent, dont les résultats varient selon le corpus, et la taille du corpus étudié. L’étude aléatoire de pages Internet .com, ou de sous-titres de films produira des fréquences différentes.

À Taïwan, le ministère de l’éducation nationale fournit de nombreux résultats supplémentaires, comme les radicaux, tons (cf. tableau ci à droite), nombre de traits par caractère, ou phonème zhuyin selon leur occurrence et ordre de fréquence.

Linguistiques et phonétiques

La création de base de données sur la composition des caractères permet la création automatique de graphique explicatifs

Les dictionnaires chinois-occidentaux, et chinois-chinois sont mis en format informatique, ce qui facilite leur maintenance, correction, formatage, et amélioration, mais ce travail reste largement caché, aux mains des ayant-droits.

Dans l’espace public, certaines initiatives notables sont les dictionnaires libres basés sur le modèle de CEDICT : chinois (simplifié+traditionnel)-pinyin-anglais, avec comme format de base :

Traditionnel Simplifié [pin1 yin1] / Sens 1 synonyme 1, sens 1 synonyme 2/Sens 2 synonyme 1, Sens 2 synonyme  [Zhong guo] /Chine, Royaume du milieu/

Début 2010, la base de donnée CEDICT propose environ 100 000 entrées], tandis que HanDeDict propose 144 679 entrées du chinois à l’allemand[48], HanDeDict incluant également des données grammaticales, et des exemples de phrases simples illustrant les mots définis.

D’autres projets pourraient suivre.

Des projets sont axés sur la phonétique de dialectes non officiels, tel CantoDict.

 Autres

D’autres bases de données disponibles sous licence libre proposent une multitude de bases de données liées aux sinogrammes et à leur linguistique.

La CJKlib propose ainsi la décomposition des sinogrammes en éléments et traits, la décomposition en traits, ainsi que plusieurs bases de données relatives aux systèmes de retranscription phonétique du chinois].

 La description géométrique par l’informatique

 Principe : l’intégration en cascade

Caractère  ào (« se promener ») :  avec les points de contrôle ayant permis les transformations nécessaires afin de produire un , áo élégant.

Aujourd'hui, le débat sur les métadonnées liées aux sinogrammes et à l'informatique concerne les Chinese characters Description Languages, fondés sur les langages de programmations tels que le XML.

Ceux-ci permettent la description de graphiques par courbes mathématiques et coordonnées, et l’« inclusion en cascade ».

 Code

Du côté du code, dans le cas du système dit « CDL », un trait Dian est dessiné en XML par des points associés à des courbes de Bézier tel que :

Chaque radical et composant est une somme de traits.

Les caractères complexes sont des sommes de traits, radicaux, composants complémentaires, ou de caractères plus

simples. Les coordonnées de chaque élément étant précisées (point="x₁,y₁ x₂,y₂").

Par exemple, le caractère tài est ainsi défini :


 Méta-données graphiques

Ainsi, un sinogramme est défini graphiquement, mais aussi par ses composants constituants.

Cette description XML permet de stocker des méta-données comme :

    * Les éléments constitutifs :
    * Les traits et ordre des traits :  Heng-Pie-Na-Dian
    * La direction des traits : la direction d’un Heng étant connue : de gauche à droite.
    * La position relative des composants .

Du côté des utilisateurs, ces données peuvent être utilisées dans la reconnaissance des sinogrammes sur écrans tactiles, comme c’est le cas dans l’iPhone.

Du côté des compagnies informatiques et de la standardisation des graphies, ce système permet la génération de polices d’écritures rationnelles, puisque toute la police sera basée sur un lot d’environ 40 traits.

Les éléments basiques étant virtuellement inclus dans les éléments plus complexes, la mise à jour des 20 000 sinogrammes de cette police se fait par la correction du seul élément à modifier.

Les projets CDL, SCML, et HanGlyph sont fondés sur de telles approches graphiques et géométriques.

Le projet CDL décrit 73 000 caractères selon de telles méthodes[53].

Bilan

La période de l’invention des caractère chinois, puis celles des premières royautés sont des périodes de multiplication des variantes graphiques des caractères.

Les autorités ont bien tenté des uniformisations, comme la liste des Zhou, vers -800, mais la faiblesse du pouvoir central, et la division de la plaine chinoise ne permet pas alors d uniformiser les pratiques.

De l’ère Qin-Han, qui voit plusieurs avancées majeures dans la rationalisation des caractères, on peut retenir trois faits :

    * La codification Qin : Lǐ Sī institue « une seule graphie pour chaque caractère, et un style homogène » de courbes régulières, et de droites, pour un lot d’au moins 3 000 caractères,

    * L’apparition du trait : on passe de la prédominance des courbes sinueuses, à la domination du trait. D’abord par le style Lìshū , puis plus encore par le style Kǎishū,

    * Le système de radicaux : Xǔ Shèn  rationalise le listage des caractères, par une approche graphique.

Le reste de l’ère impériale voit franchir d’autres étapes majeures :

    * L’imprimerie : le développement de l’imprimerie permet une production « centralisée », rationnelle, ne dépendant plus de copistes. Des styles (Kaishu, Songti) sont soutenus par l’administration impériale.

    * La police Songti : développée par l’imprimerie, cette police est l’apogée de la rationalisation des styles graphique. Les traits et angles droits, les courbes simples, sont ici la règle.

    * Le système de radicaux : il est amélioré, et, depuis Kangxi, basé sur 214 clefs, accompagnées de variantes ou réduction.

Il est également à noter les premiers systèmes phonétiques : Fanqie, Ricci, Wade-Giles.

L’ère contemporaine des grandes réformes visant à « alphabétiser » la population chinoise peut être datée des années 1890.

Ici, il y a volonté de standardiser la phonétique associée à chaque caractère chinois, mais aussi la volonté de simplifier la complexité des caractères.

Au vu de la multitude des tentatives, il convient de se consacrer aux tentatives réussies :

    * Le système Zhuyin Fuhao (1913) : il fait appel à un « alphabet » d’initiales, médianes, et finales fondé sur les sinogrammes, associé à cinq tons ;

    * Le système Hanyu Pinyin (1958) : il utilise l'alphabet latin, associé à cinq tons.

    * La simplification communiste (1956) : il met en place des variantes ou de nouvelles graphies plus simples.

Ces systèmes phonétiques ont permis l'émergence de dictionnaires où les caractères sont classés par phonétiques, mais ont aussi facilité le passage à l’ère informatique.

La simplification de 1956 a de fait facilité l’apprentissage des sinogrammes et l’alphabétisation des masses.

Le projet de romanisation complète, initialement prévu dans de nombreuses zones, n’a abouti que dans le cas particulier de la Corée.

Avec les affirmations étatiques du XXe siècle, d’autres standardisations ont également eu lieu, en particulier avec le travail de :

    * La redéfinition et standardisation des graphies correctes : effectués en Chine, à Taïwan, au Japon, d’abord à destination des éducations nationales respectives, mais aussi à destination de l’industrie de l’édition et de l’informatique, afin d’unifier les graphies dans le monde numérique ;

    * La définition d’un « ordre des traits standard » : principalement afin que les écritures manuscrites Xingshu d’un individu « A » restent lisibles par un individu « B ».

Enfin, il est à signaler le travail d’unification informatique, mais aussi de collecte des méta-données, avec :

    * le renfort de l’interopérabilité : la création d’un codage international facilitant l’échange de documents numériques ;

    * La collecte des méta-données associées: par la création de bases de données associant à chaque caractères toutes les données précédemment créées (composants, phonétiques locales, traits, définition chinoise, étymologie, définition anglaise, etc.)

    * La numérisation des sinogrammes : la définition géo-mathématique des sinogrammes.

 Analyse et perspectives

Aussi, que ce soit pour les cas anciens (Li Si, Xushen) ou pour les cas récents chinois ou taïwanais (codages, standards), c’est en fait une sélection, une clarification, une stabilisation, et une numérisation de tout une masse de méta-données qui tournaient depuis longtemps autour des sinogrammes.

Les variations et variantes anciennes, graphiques, phonétiques, sémantiques, d’ordre d’écriture, sont examinées, triées, dans le but d’être validés ou effacées.

Cette première longue étape de nettoyage de l’héritage lié aux sinogrammes prend ensuite l'orientation et la forme de la diffusion d’une norme affirmée commune.

Dans la masse des variantes et des pratiques, ces standardisations sont largement des sélections artificielles soudaines, coupant les branches de l’arbre pour n’en garder qu’un tronc droit.

Mais d’un point de vue pragmatique, cette diffusion de conventions facilite la communication, les échanges, les contrôles, et est donc un mouvement vers l’intégration et l’unification de l’ensemble chinois, mais aussi vers l’intégration à l’espace monde et à ses échanges.

Publicité
Commentaires
Publicité
Publicité