Quelle est la différence entre le texte ASCII et Unicode ?

Quelle est la différence entre le texte ASCII et Unicode ?

ASCII et Unicode sont deux normes qui font référence à la représentation numérique du texte, en particulier les caractères qui composent le texte. Cependant, les deux normes sont très différentes, avec de nombreuses propriétés reflétant leur ordre de création respectif.

L'Amérique contre l'univers

L'American Standard Code for Information Interchange (ASCII), sans surprise, s'adresse à un public américain, écrivant dans l'alphabet anglais. Il traite des lettres non accentuées, telles que AZ et az, ainsi qu'un petit nombre de symboles de ponctuation et de caractères de contrôle.

Quelle est la différence entre le texte ASCII et Unicode ?

En particulier, il n'y a aucun moyen de représenter des mots empruntés adoptés à d'autres langues, comme café  en ASCII, sans les angliciser en leur substituant des caractères accentués (par exemple,  café ). Des extensions ASCII localisées ont été développées pour répondre aux besoins de diverses langues, mais ces efforts ont rendu l'interopérabilité difficile et ont clairement étendu les capacités d'ASCII.

En revanche, le jeu de caractères codés universel (Unicode) se situe à l'opposé de l'échelle d'ambition. Unicode tente de répondre à autant de systèmes d'écriture du monde que possible, dans la mesure où il couvre les langues anciennes et l'ensemble de symboles expressifs préféré de tous, les emoji.

Jeu de caractères ou encodage de caractères ?

En termes simples, un jeu de caractères est une sélection de caractères (par exemple, AZ) tandis qu'un codage de caractères est un mappage entre un jeu de caractères et une valeur qui peut être représentée numériquement (par exemple, A=1, B=2).

La norme ASCII est effectivement à la fois : elle définit l'ensemble de caractères qu'elle représente et une méthode de mappage de chaque caractère à une valeur numérique.

En revanche, le mot Unicode est utilisé dans plusieurs contextes différents pour signifier différentes choses. Vous pouvez le considérer comme un terme global, comme ASCII, pour désigner un jeu de caractères et un certain nombre d'encodages. Mais, étant donné qu'il existe plusieurs encodages, le terme Unicode est souvent utilisé pour désigner l'ensemble global de caractères, plutôt que la façon dont ils sont mappés.

Taille

En raison de sa portée, Unicode représente beaucoup plus de caractères que l'ASCII. L'ASCII standard utilise une plage de 7 bits pour encoder 128 caractères distincts . Unicode, en revanche, est si volumineux que nous devons utiliser une terminologie différente juste pour en parler !

Unicode prend en charge 1 111 998 points de code adressables .  Un point de code est à peu près analogue à un espace réservé à un personnage, mais la situation est bien plus compliquée que cela quand on commence à fouiller dans les détails !

Une comparaison plus utile est le nombre de scripts (ou de systèmes d'écriture) actuellement pris en charge. Bien entendu, l'ASCII ne gère que l'alphabet anglais, essentiellement l'écriture latine ou romaine. La version d'Unicode produite en 2020 va beaucoup plus loin : elle inclut la prise en charge d'un total de 154 scripts.

Quelle est la différence entre le texte ASCII et Unicode ?

Espace de rangement

La plage de 7 bits d'ASCII signifie que chaque caractère est stocké dans un seul octet de 8 bits ; le bit de réserve n'est pas utilisé en ASCII standard. Cela rend les calculs de taille triviaux : la longueur du texte, en caractères, est la taille du fichier en octets.

Vous pouvez le confirmer avec la séquence de commandes bash suivante. Tout d'abord, nous créons un fichier contenant 12 lettres de texte :

$ echo -n 'Hello, world' > foo

Pour vérifier que le texte est dans l'encodage ASCII, on peut utiliser la commande file :

$ file foo foo: ASCII text, with no line terminators

Enfin, pour obtenir le nombre exact d'octets occupés par le fichier, nous utilisons la commande stat :

$ stat -f%z foo 12

Étant donné que la norme Unicode traite une gamme de caractères beaucoup plus large, un fichier Unicode prend naturellement plus d'espace de stockage. Le montant exact dépend de l'encodage.

La répétition du même ensemble de commandes d'avant, en utilisant un caractère qui ne peut pas être représenté en ASCII, donne ce qui suit :

$ echo -n '€' > foo $ file foo foo: UTF-8 Unicode text, with no line terminators $ stat -f%z foo 3

Ce caractère unique occupe 3 octets dans un fichier Unicode. Notez que bash crée automatiquement un fichier UTF-8 car un fichier ASCII ne peut pas stocker le caractère choisi (€). UTF-8 est de loin le codage de caractères le plus courant pour Unicode ; UTF-16 et UTF-32 sont deux codages alternatifs, mais ils sont beaucoup moins utilisés.

UTF-8 est un codage à largeur variable, ce qui signifie qu'il utilise différentes quantités de stockage pour différents points de code. Chaque point de code occupera entre un et quatre octets, avec l'intention que les caractères les plus courants nécessitent moins d'espace, fournissant un type de compression intégrée. L'inconvénient est que déterminer les exigences de longueur ou de taille d'un morceau de texte donné devient beaucoup plus compliqué.

ASCII est Unicode, mais Unicode n'est pas ASCII

Pour une compatibilité descendante, les 128 premiers points de code Unicode représentent les caractères ASCII équivalents. Comme UTF-8 code chacun de ces caractères avec un seul octet, tout texte ASCII est également un texte UTF-8. Unicode est un sur-ensemble d'ASCII.

Cependant, comme indiqué ci-dessus, de nombreux fichiers Unicode ne peuvent pas être utilisés dans un contexte ASCII. Tout caractère hors limites sera affiché de manière inattendue, souvent avec des caractères de substitution complètement différents de ceux qui étaient prévus.

Utilisation moderne

Dans la plupart des cas, ASCII est largement considéré comme une norme héritée. Même dans les situations qui ne prennent en charge que le script latin (où la prise en charge complète de la complexité d'Unicode n'est pas nécessaire, par exemple), il est généralement plus pratique d'utiliser UTF-8 et de tirer parti de sa compatibilité ASCII.

En particulier, les pages Web doivent être enregistrées et transmises en UTF-8, qui est la valeur par défaut pour HTML5. Cela contraste avec le site Web antérieur, qui traitait par défaut en ASCII avant que celui-ci ne soit remplacé par Latin 1.

Une norme qui évolue

La dernière révision de l'ASCII a eu lieu en 1986.

En revanche, Unicode continue d'être mis à jour chaque année. De nouveaux scripts, personnages et, en particulier, de nouveaux emoji sont régulièrement ajoutés. Avec seulement une petite fraction de ceux-ci alloués, le jeu de caractères complet est susceptible de croître et de croître dans un avenir prévisible.

En relation:  Les 100 emojis les plus populaires expliqués

ASCII contre Unicode

L'ASCII a rempli sa fonction pendant de nombreuses décennies, mais Unicode l'a désormais remplacé efficacement à toutes fins pratiques autres que les systèmes hérités. Unicode est plus grand et, par conséquent, plus expressif. Il représente un effort collaboratif mondial et offre une flexibilité bien plus grande, bien qu'au détriment d'une certaine complexité.


Quest-ce que le cryptage homomorphe ?

Quest-ce que le cryptage homomorphe ?

Un mot qui revient beaucoup ces derniers temps est le cryptage homomorphe. De nombreuses entreprises et services en ligne transforment leur modèle de cryptage en un type de cryptage homomorphe, annonçant que c'est pour une meilleure confidentialité et sécurité des utilisateurs.

Quelle est la différence entre Android TV et Google TV ?

Quelle est la différence entre Android TV et Google TV ?

Étant donné que le système d'exploitation Android a été développé par Google, il est compréhensible que vous soyez confus quant aux différences entre Google TV et Android TV. Est-ce la même chose ?

Que sont les affichages de champ lumineux et comment fonctionnent-ils ?

Que sont les affichages de champ lumineux et comment fonctionnent-ils ?

Les affichages de champ lumineux changent progressivement la façon dont nous voyons le monde qui nous entoure. Ou plutôt, comment nous voyons le monde qui n'est pas autour de nous. De la photographie classique à l'enseignement et au diagnostic avancés en passant par la présence et le divertissement à distance, cet article examinera ce qu'est un affichage à champ lumineux, comment fonctionnent les différents types d'affichage et comment ils sont utilisés.

Quest-ce que le protocole Matrix et comment fonctionne-t-il ?

Quest-ce que le protocole Matrix et comment fonctionne-t-il ?

La plupart des plateformes que nous utilisons pour communiquer entre elles en ligne sont liées à un seul fournisseur. Mais il n'y a aucune raison technique pour que les choses soient ainsi. Il existe des moyens de discuter en ligne qui offrent un plus grand degré de confidentialité et de liberté. Matrix est l'un de ces moyens.

Comment fonctionnent les communications série UART, SPI et I2C et pourquoi nous les utilisons toujours

Comment fonctionnent les communications série UART, SPI et I2C et pourquoi nous les utilisons toujours

Qu'il s'agisse de périphériques informatiques, d'appareils intelligents, d'appareils Internet des objets (IoT) ou d'outils de mesure électroniques, ils utilisent tous des protocoles de communication série pour connecter différents composants électroniques entre eux.

Quest-ce que la cyberintimidation et comment y faire face ?

Quest-ce que la cyberintimidation et comment y faire face ?

Internet a permis à plus de personnes de se connecter que jamais, que ce soit pour le meilleur ou pour le pire. Autant les gens utilisent Internet à des fins constructives et amusantes, autant d'autres l'utilisent pour effectuer un nouveau type d'intimidation : la cyberintimidation.

99 termes de crypto-monnaie expliqués : chaque définition de crypto dont vous avez besoin

99 termes de crypto-monnaie expliqués : chaque définition de crypto dont vous avez besoin

Les crypto-monnaies sont des monnaies numériques qui fonctionnent sur des réseaux informatiques décentralisés appelés blockchains. Certaines des crypto-monnaies les plus importantes et les plus largement acceptées sont Bitcoin, Ethereum, Tether, Cardano, Binance Coin et USD Coin.

Quest-ce quun hyperviseur ? Est-ce différent dune machine virtuelle ?

Quest-ce quun hyperviseur ? Est-ce différent dune machine virtuelle ?

Un hyperviseur est un logiciel utilisé pour créer des machines virtuelles. Une machine virtuelle est une émulation d'un ordinateur. Les machines virtuelles sont utilisées pour créer plusieurs environnements informatiques sur un seul matériel.

Point daccès vs routeur : quelle est la différence ?

Point daccès vs routeur : quelle est la différence ?

La configuration du Wi-Fi pour votre maison ou votre entreprise peut facilement devenir écrasante et déroutante. Il existe de nombreux termes et appareils différents impliqués dans le processus, et chaque situation Wi-Fi est unique. Une grande entreprise avec une tonne d'appareils connectés à un réseau sur une grande surface aura besoin de choses radicalement différentes d'une simple maison avec quelques appareils.

Les 8 meilleurs portefeuilles cryptés logiciels pour stocker vos actifs

Les 8 meilleurs portefeuilles cryptés logiciels pour stocker vos actifs

Si vous possédez une quantité de crypto-monnaie, vous vous demandez peut-être comment la stocker de la manière la plus sûre et la plus sécurisée. Étant donné qu'une crypto-monnaie est une forme d'argent numérique, vous ne pouvez pas simplement la mettre dans votre tiroir de chevet ou dans un coffre-fort. Au lieu de cela, il doit être stocké sur un élément matériel ou logiciel.

Comment fonctionnent les poids numériques Tonal et Nordic Tracks ?

Comment fonctionnent les poids numériques Tonal et Nordic Tracks ?

Avez-vous vu des publicités pour des appareils d'exercice qui utilisent le poids numérique et vous êtes-vous demandé ce que c'était ? Ou avez-vous regardé ces nouvelles machines élégantes et bien rangées et vous êtes-vous demandé d'où venait toute la résistance ?

10 questions courantes sur les voitures électriques que vous avez toujours voulu poser

10 questions courantes sur les voitures électriques que vous avez toujours voulu poser

Les véhicules électriques (VE) sont de plus en plus populaires. En 2020, il y avait environ 1,8 million de véhicules électriques enregistrés aux États-Unis, soit trois fois plus qu'en 2016. Dans le monde, il y avait environ 10,2 millions de véhicules électriques en 2020.

Comment installer une Dashcam dans votre voiture

Comment installer une Dashcam dans votre voiture

Si vous possédez une dashcam, son installation peut sembler une corvée. Dans certains cas, ce n'est pas aussi simple que vous le souhaiteriez, mais l'installation d'une dashcam dans votre voiture vaut chaque minute que vous y consacrez.

Pourquoi les GPU Nvidias de la série 30 sont meilleurs quAMD

Pourquoi les GPU Nvidias de la série 30 sont meilleurs quAMD

Nvidia est l'un des deux noms de confiance dans le développement de cartes graphiques. Soit vous avez un GPU Nvidia, soit vous optez pour un GPU AMD. Selon à qui vous demandez, Nvidia est toujours légèrement en avance sur AMD en ce qui concerne les GPU. Plus rapide, plus gros, plus fort, plus innovant.

Audio 16 bits contre 24 bits contre 32 bits

Audio 16 bits contre 24 bits contre 32 bits

Lorsque vous traitez de l'audio numérique, vous verrez souvent des termes tels que la résolution audio, la fréquence d'échantillonnage et d'autres qui décrivent les caractéristiques d'un fichier. Il est important de savoir ce qui sépare un bon son d'un mauvais son, c'est pourquoi il serait utile de se familiariser avec ces termes.

Adaptateur CPL ou Wi-Fi maillé : quel est le meilleur pour votre maison ?

Adaptateur CPL ou Wi-Fi maillé : quel est le meilleur pour votre maison ?

Si vous ne parvenez pas à vous connecter à Internet dans certaines zones de votre maison, il existe plusieurs façons de résoudre le problème. Deux des options les plus populaires sont les adaptateurs CPL et le Wi-Fi maillé.

Pourquoi vous voyez de lencre dans votre écran cassé

Pourquoi vous voyez de lencre dans votre écran cassé

Il n'est pas rare de voir des taches noires ou violacées qui ressemblent à de l'encre sur l'écran de votre appareil cassé (téléphone, tablette ou ordinateur portable). Mais y a-t-il vraiment de l'encre dans votre écran ?

Comment la force et le retour haptique rendent les jeux plus immersifs ?

Comment la force et le retour haptique rendent les jeux plus immersifs ?

Une grande partie de notre plaisir des jeux est l'immersion, vous permettant de plonger dans un monde virtuel comme si vous y étiez vraiment. Une chose qui peut augmenter votre immersion est la simulation du toucher physique du monde réel, vous rapprochant du monde virtuel.

5 des meilleures inventions de Nikola Tesla et comment elles ont façonné le monde

5 des meilleures inventions de Nikola Tesla et comment elles ont façonné le monde

Quand vous pensez au mot Tesla, il est naturel que des images de voitures électriques et de milliardaires apparaissent. Cependant, l'inventeur Nikola Tesla, dont Elon Musk a nommé son entreprise, a joué un rôle énorme dans l'histoire et a changé le cours de la vie de nombreuses personnes. Alors, qui était Nikola Tesla, et de quelles inventions clés était-il responsable ?

Que sont les erreurs dexécution et comment les corrigez-vous ?

Que sont les erreurs dexécution et comment les corrigez-vous ?

Ne détestez-vous pas lorsque vous essayez de démarrer un programme et obtenez un message d'erreur indiquant Erreur d'exécution ? Malheureusement, malgré les gens régulièrement ennuyeux, l'erreur d'exécution redoutée ne fait pas un excellent travail pour s'expliquer et ce qui s'est passé exactement.

Quest-ce que le cryptage homomorphe ?

Quest-ce que le cryptage homomorphe ?

Un mot qui revient beaucoup ces derniers temps est le cryptage homomorphe. De nombreuses entreprises et services en ligne transforment leur modèle de cryptage en un type de cryptage homomorphe, annonçant que c'est pour une meilleure confidentialité et sécurité des utilisateurs.

Quest-ce quune image bitmap ?

Quest-ce quune image bitmap ?

Pour la plupart des gens, les médias numériques font partie de votre vie quotidienne. Mais nous ne pensons pas toujours à la façon dont il est créé.

Que sont les affichages de champ lumineux et comment fonctionnent-ils ?

Que sont les affichages de champ lumineux et comment fonctionnent-ils ?

Les affichages de champ lumineux changent progressivement la façon dont nous voyons le monde qui nous entoure. Ou plutôt, comment nous voyons le monde qui n'est pas autour de nous. De la photographie classique à l'enseignement et au diagnostic avancés en passant par la présence et le divertissement à distance, cet article examinera ce qu'est un affichage à champ lumineux, comment fonctionnent les différents types d'affichage et comment ils sont utilisés.

Quest-ce que le protocole Matrix et comment fonctionne-t-il ?

Quest-ce que le protocole Matrix et comment fonctionne-t-il ?

La plupart des plateformes que nous utilisons pour communiquer entre elles en ligne sont liées à un seul fournisseur. Mais il n'y a aucune raison technique pour que les choses soient ainsi. Il existe des moyens de discuter en ligne qui offrent un plus grand degré de confidentialité et de liberté. Matrix est l'un de ces moyens.

Comment fonctionnent les communications série UART, SPI et I2C et pourquoi nous les utilisons toujours

Comment fonctionnent les communications série UART, SPI et I2C et pourquoi nous les utilisons toujours

Qu'il s'agisse de périphériques informatiques, d'appareils intelligents, d'appareils Internet des objets (IoT) ou d'outils de mesure électroniques, ils utilisent tous des protocoles de communication série pour connecter différents composants électroniques entre eux.

Quest-ce que la cyberintimidation et comment y faire face ?

Quest-ce que la cyberintimidation et comment y faire face ?

Internet a permis à plus de personnes de se connecter que jamais, que ce soit pour le meilleur ou pour le pire. Autant les gens utilisent Internet à des fins constructives et amusantes, autant d'autres l'utilisent pour effectuer un nouveau type d'intimidation : la cyberintimidation.

99 termes de crypto-monnaie expliqués : chaque définition de crypto dont vous avez besoin

99 termes de crypto-monnaie expliqués : chaque définition de crypto dont vous avez besoin

Les crypto-monnaies sont des monnaies numériques qui fonctionnent sur des réseaux informatiques décentralisés appelés blockchains. Certaines des crypto-monnaies les plus importantes et les plus largement acceptées sont Bitcoin, Ethereum, Tether, Cardano, Binance Coin et USD Coin.

Quest-ce quun hyperviseur ? Est-ce différent dune machine virtuelle ?

Quest-ce quun hyperviseur ? Est-ce différent dune machine virtuelle ?

Un hyperviseur est un logiciel utilisé pour créer des machines virtuelles. Une machine virtuelle est une émulation d'un ordinateur. Les machines virtuelles sont utilisées pour créer plusieurs environnements informatiques sur un seul matériel.

Point daccès vs routeur : quelle est la différence ?

Point daccès vs routeur : quelle est la différence ?

La configuration du Wi-Fi pour votre maison ou votre entreprise peut facilement devenir écrasante et déroutante. Il existe de nombreux termes et appareils différents impliqués dans le processus, et chaque situation Wi-Fi est unique. Une grande entreprise avec une tonne d'appareils connectés à un réseau sur une grande surface aura besoin de choses radicalement différentes d'une simple maison avec quelques appareils.

Les 8 meilleurs portefeuilles cryptés logiciels pour stocker vos actifs

Les 8 meilleurs portefeuilles cryptés logiciels pour stocker vos actifs

Si vous possédez une quantité de crypto-monnaie, vous vous demandez peut-être comment la stocker de la manière la plus sûre et la plus sécurisée. Étant donné qu'une crypto-monnaie est une forme d'argent numérique, vous ne pouvez pas simplement la mettre dans votre tiroir de chevet ou dans un coffre-fort. Au lieu de cela, il doit être stocké sur un élément matériel ou logiciel.