mars 2009 (10)

dimanche 29 mars 2009

Codage des caractères

Un ordinateur ne traite que des nombres. Pour lui permettre de traiter des caractères, il faut affecter à chacun des caractère un nombre qui le représente. L'ancêtre des codages c'est le code Morse. C'est un codage analogique. Le premier codage numérique c'est le code Bodot, utilisé pour les télex. L'codage Bodot était utilisé pour perforer une bande de papier qui, ensuite, passée dans un lecteur, restituait son contenu. Ce code utilise cinq positions. Chaque position peut avoir un trou ou pas (Voir tableau). Ce code permet d'encoder 32 signes différents.

Avec l'informatique sont apparus le code ASCII[1] et le code EBCDIC[2]. le code ASCII utilise 7 bits pour encoder les caractères. Celà permet d'encoder 128 signes différents. les 32 premières valeurs sont des caractères de contrôles (tabulation, fin de ligne...). Dans les 96 valeurs restantes on trouvera 26 lettres minuscules, 26 lettres majuscules, 10 chiffres et les signes de ponctuation (,;:.!?=+...).

Pour pouvoir encoder les caractères accentués, il à fallu passer à 8 bits qui permettent 256 valeurs. Malheureusement, les langues à alphabet latin utilises des combinaisons de caractères accentuées suffisamment variées pour que les 128 valeurs ajoutées ne soient pas suffisantes pour les encoder tous. Par ailleurs, chacun y est allé de son codage particulier. Dans Windows au début c'est le codage ANSI qui a été utilisé. IBM, dans le DOS utlisait des pages de code suivant les langues, par exemple la page de code 850 pour l'Europe occidentale. Pour compliquer les choses, le codage ISO-8859-1 (aussi appelé ISO Latin 1) est presque, mais pas tout à fait équivalent à le codage Windows Windows-1252. Et le Mac utilisait sa propre table de codage MacRoman.

Pour réunifier tout ça, une nouvelle norme a été créée, Unicode. Cette norme utilise deux octets soit 16 bits pour encoder les caractères des langues latines et non latines. Pour simplifier l'utilisation d'Unicode et assurer la compatibilité ascendante avec l'ASCII et le ISO-8859-1, on a créé le codage UTF-8. Il existe aussi l'UTF-16. L'UTF-8 permet une compatibilité ascendante avec ISO-8859-1. Unicode comporte un élément supplémentaire mais optionnel par rapport aux autres codages, c'est le BOM[3]. Ces deux octets, placé tout au début du fichier, permettent à l'origine de connaître l'ordre des octets. Quand ils sont présents, ils permettent aussi de savoir avec certitude que le fichier est encodé en UTF-8.

Concrètement

Editeur de texte

Quand on ouvre un fichier texte avec un éditeur, celui-ci n'a pas d'information sur le codage utilisé lors de la précédente sauvegarde. Il affichera donc les caractères le plus souvent dans son codage par défaut.

Voici par exemple les cas de figure suivants :

  • Texte encodé en UTF-8, décodé en ISO-Latin-1 par un éditeur
UTF-8_Iso Latin 1
  • Texte encodé en UTF-8, décodé en MacOSRoman par un éditeur
UTF-8_MacOSRoman
  • Texte encodé en ISO-Latin-1, décodé en MacOSRoman par un éditeur
ISO-Latin-1_MacOSRoman
  • Texte encodé en MacOSRoman, décodé en ISO-Latin-1 par un éditeur
MacOSRoman_ISO-Latin-1
Page HTML

Lors de la visualisation d'une page HTML, le codage peut être indiqué à plusieurs endroits.

  • dans le header
  • Dans un document XML
    • <?xml version="1.0" encoding="iso-8859-1"?>
  • dans la balise doctype. Il y a une valeur par défaut en fonction de la version du HTML annoncée :
    • <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
    • <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    • <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
  • Dans la balise meta content type
    • <meta http-equiv="content-Type" content="text/html; charset=iso-8859-1" />

Note aux utilisateurs de Microsoft Word

Dans Word, par défaut, l'apostrophe droite "'" est remplacée par l'apostrophe courbe "’", et le guillemet anglais droit """ est remplacé soit par le guillemet français "«", soit par le guillemet anglais courbe "“" suivant la version. Or l'apostrophe courbe et le guillemet anglais courbe ne se trouvent pas dans les tables ISO-8859. Lors d'un copier/coller, ces caractères risquent d'être transformés en signes incompréhensibles. Pour résoudre ce problème, il y a plusieurs solutions :

  • Utiliser une système complètement Unicode
  • Supprimer la substitution automatique dans Word : Menu outil->Corrections automatiques, puis visiter les différents onglets "Lors de la frappe" et "Mise en forme automatique".

Représentation partielle du code Baudot à 5 moments.

Dans ce tableau, un "0" représente un trou dans le ruban de papier.

00| | | | | |
01| | | | |0|
02| | | |0| |
03| | | |0|0|
04| | |0| | |
05| | |0| |0|
06| | |0|0| |
07| | |0|0|0|
08| |0| | | |
09| |0| | |0|
10| |0| |0| |
11| |0| |0|0|
12| |0|0| | |
13| |0|0| |0|
...
31|0|0|0|0|0|

Notes

[1] American Standard Code for Information Interchange

[2] Extended Binary Coded Decimal Interchange Code

[3] Byte Order Mark

DrupalCamp Lyon

Samedi 28 Mars, j'ai assisté pour la première fois à un BarCamp (voir la définition. Il s'agissait du DrupalCamp de Lyon. C'était très sympa, trés détendu et informel et en même temps efficace. Il y avait des sessions pour tous les niveaux et tous les centres d'intérêts, avec par exemple une session pour les grand débutants, Drupal 101, une sessions sur la localisation et la traduction en français, une session d'introduction et de présentation de Drupal 7.

J'ai particulièrement apprécié des sessions sur CCK couplé à ImageField et ImageCache suivi d'une session sur View. View me semble un des modules les plus difficile d'accès. Il est très puissant mais son interface est très déroutante. Après ce dégrossisage, je vais pouvoir repartir à l'assaut et l'explorer à fond.

Remrciement aux Sponsors af83, Bearstech et Pearson Education, et aux différents présentateurs de sessions, en particulier Inéation.

dimanche 22 mars 2009

Microsoft met à disposition des logiciels libres

Depuis peu, Microsoft offre la possibilité de télécharger et d'installer sur Windows XP, 2003, Vista ou 2008 des logiciels serveurs d'applications libres.

On trouve pour le moment une petite liste de moteurs de blogs, de CMS ou de Wiki, par exemple : Acquia Drupal, WordPress

Certaines de ces applications fonctionnent habituellement sur une plate-forme LAMP[1]. Même si elles sont compatibles avec Windows, IIS, MySQL, PHP. Dans certaines entreprises, il est impossible d'installer un serveur qui ne soir pas intégré au domaine. Pour cela, il faut que ce serveur soit sous Windows. Cela permet de faire entrer des applications dans des endroits ou elles n'auraient pas pu aller.

Notes

[1] Linux, Apache, MySQL, PHP/Perl/Python

mercredi 18 mars 2009

J'installe mon premier blog

L'excellente fée Kozlika a encore un de ces traits de génie dont elle est coutumière. Elle propose un blog pour les grand débutants en blog :

Accompagner des inconnus dans leur première installation d'un blog n'est pas affaire facile. Nous ne savons pas quelles connaissances du web possèdent nos interlocuteurs, quels outils leur sont déjà familiers, quel vocabulaire spécifique ils comprennent.

Ici nous partirons d'un principe simple : ce blog est destiné à ceux qui n'y connaissent rien, mais alors rien de rien.

Allez'y voir

mardi 17 mars 2009

Helping Drupal beginners

Helping Drupal beginners

The average Drupal user has an absurdly high technical level, which leads to the second big problem: Nearly all of drupal.org is beyond the neophyte's abilities. That's as it must be at this stage of Drupal's maturity. Drupal is still a developer's tool; does it have the potential to become usable to the average person who wants a Web presence beyond WordPress and Yahoo! SiteBuilder? Maybe. But it's not there yet.

(Via Tom Geller's Latest Thing)

A boon to beginners: the "Acquia Drupal stack installer" (DAMP)

So I eagerly downloaded and tried Acquia's new Drupal Stack Installer (on the Mac), and found that it successfully avoids all these problems. Most importantly, it installs like a Mac application. Double click it, and it goes! For end users, that's huge.

(Via Tom Geller's Latest Thing)

mardi 10 mars 2009

Netbook

L'apparition du XO créé par l'association sans but lucratif OLPC (Le site en français de OLPC) a déclenché un mouvement irréversible et de grande ampleur. Les plus grand fabricants d'ordinateurs portables (Notebooks) proposent maintenant des Netbooks.

Un excellent article de Wired, The Netbook Effect: How Cheap Little Laptops Hit the Big Time, passe ce phénomène en revue.

dimanche 8 mars 2009

Localization and success

This graph, published on TechCrunch, show that a software or an internet service can't have a real success in Europe (particularly southern Europe : France, Italy, Spain and Germany) if it is not localized. FaceBook has been translated to French by it users. The French version was available arount March 2008.

Facebook Is Big In France :

Facebook has become the most popular social network in France, according to the latest figures from comScore. Social networking had a banner year in France, with a 45 percent increase in unique visitors. [...]

(Via TechCrunch.)

De l'importance de la localisation

Ce graphique, publié sur TechCrunch, confirme qu'un logiciel ou un service internet ne peut connaître un vrais succès en Europe (C'est particulièrement vrais pour l'Europe du sud : France, Italie, Espagne et Allemagne) que s'il est localisé. FaceBook a été traduit en français par ses utilisateurs. La version français a été disponible aux alentours du mois de Mars 2008.

Facebook Is Big In France :

Facebook has become the most popular social network in France, according to the latest figures from comScore. Social networking had a banner year in France, with a 45 percent increase in unique visitors. [...]

(Via TechCrunch.)

Traduction : FaceBook est devenu le réseau social le plus populaire en France selon les chiffres les plus récents de comScore. Le réseau social a eu une année exceptionnelle avec une croissance de 45% en visiteurs uniques.

jeudi 5 mars 2009

External Link: MacTech Posts Updated Virtualization Benchmarks

TidBITS links to a good review comparing Parallels Desktop 4 and VMware Fusion 2. This review shows that in raw speed Parallels is faster than VMware.

Be careful that raw speed is not the only criterium. Aftter using both products for a while, currently I use only VMware because of it compatibility with the Windows world. The exact same virtual machine can be moved from one side to the other.

 

External Link: MacTech Posts Updated Virtualization Benchmarks :

Although raw processing performance is by no means the main criterion when it comes to choosing a virtualization product for running Windows on a Mac, it does have a role. MacTech has now completed their latest tests of Parallels Desktop 4 and VMware Fusion 2.

Copyright © 2009 Adam C. Engst. TidBITS is copyright © 2009 TidBITS Publishing Inc. If you're reading this article on a Web site other than TidBITS.com, please let us know, because if it was republished without attribution, by a commercial site, or in modified form, it violates our Creative Commons License.

(Via TidBITS.)

Se also previous posts here on this matter:

dimanche 1 mars 2009

Faille critique dans Acrobat 7, 8 et 9 : rien avant le 11 mars

Faille critique dans Acrobat 7, 8 et 9 : rien avant le 11 mars :

Adobe a prévenu qu'il existait une faille critique dans plusieurs versions de son lecteur Reader, mais également dans les produits Acrobat Pro et Acrobat Pro Extended.[...]

Tous les systèmes Windows, Mac OS X et Linux sont concernés dès qu’une seule de ces moutures est installée.[...]

(Via PC INpact.)

MàJ 15/03/2009 : Adobe bouche la faille critique de ses produits Acrobat 9