Wat is het verschil tussen ASCII- en Unicode-tekst?

Wat is het verschil tussen ASCII- en Unicode-tekst?

ASCII en Unicode zijn beide standaarden die verwijzen naar de digitale weergave van tekst, met name tekens waaruit tekst bestaat. De twee standaarden zijn echter aanzienlijk verschillend, met veel eigenschappen die hun respectieve volgorde van creatie weerspiegelen.

Amerika versus het heelal

Het is niet verwonderlijk dat de American Standard Code for Information Interchange (ASCII) geschikt is voor een Amerikaans publiek en schrijft in het Engelse alfabet. Het behandelt letters zonder accent, zoals AZ en az, plus een klein aantal leestekens en controletekens.

Wat is het verschil tussen ASCII- en Unicode-tekst?

Er is met name geen manier om leenwoorden weer te geven die zijn overgenomen uit andere talen, zoals café  in ASCII, zonder ze te verengelsen door tekens met accenten te vervangen (bijv.  café ). Er werden gelokaliseerde ASCII-extensies ontwikkeld om tegemoet te komen aan de behoeften van verschillende talen, maar deze inspanningen maakten de interoperabiliteit lastig en verruimden duidelijk de mogelijkheden van ASCII.

De Universal Coded Character Set (Unicode) daarentegen bevindt zich aan de andere kant van de ambitieschaal. Unicode probeert zoveel mogelijk van 's werelds schrijfsystemen te bedienen, voor zover het oude talen en ieders favoriete reeks expressieve symbolen, emoji, omvat.

Tekenset of tekencodering?

In eenvoudige bewoordingen is een tekenset een selectie van tekens (bijv. AZ), terwijl een tekencodering een afbeelding is tussen een tekenset en een waarde die digitaal kan worden weergegeven (bijv. A=1, B=2).

De ASCII-standaard is in feite beide: het definieert de reeks tekens die het vertegenwoordigt en een methode om elk teken toe te wijzen aan een numerieke waarde.

Het woord Unicode wordt daarentegen in verschillende contexten gebruikt om verschillende dingen te betekenen. Je kunt het zien als een allesomvattende term, zoals ASCII, om te verwijzen naar een tekenset en een aantal coderingen. Maar omdat er verschillende coderingen zijn, wordt de term Unicode vaak gebruikt om te verwijzen naar de algemene set tekens, in plaats van hoe ze zijn toegewezen.

Maat

Vanwege zijn omvang vertegenwoordigt Unicode veel meer tekens dan ASCII. Standaard ASCII gebruikt een 7-bits bereik om 128 verschillende tekens te coderen . Unicode daarentegen is zo groot dat we verschillende terminologie moeten gebruiken om erover te praten!

Unicode is geschikt voor 1.111.998 adresseerbare codepunten.  Een codepunt is ongeveer analoog aan een ruimte die is gereserveerd voor een personage, maar de situatie is een stuk ingewikkelder dan wanneer je je in de details begint te verdiepen!

Een handiger vergelijking is hoeveel scripts (of schrijfsystemen) momenteel worden ondersteund. Natuurlijk verwerkt ASCII alleen het Engelse alfabet, in wezen het Latijnse of Romeinse schrift. De in 2020 geproduceerde versie van Unicode gaat een stuk verder: het bevat ondersteuning voor in totaal 154 scripts.

Wat is het verschil tussen ASCII- en Unicode-tekst?

Opslag

Het 7-bits bereik van ASCII betekent dat elk teken wordt opgeslagen in een enkele 8-bits byte; het reservebit is ongebruikt in standaard ASCII. Dit maakt het berekenen van de grootte triviaal: de lengte van de tekst, in tekens, is de grootte van het bestand in bytes.

U kunt dit bevestigen met de volgende reeks bash-commando's. Eerst maken we een bestand met 12 letters tekst:

$ echo -n 'Hello, world' > foo

Om te controleren of de tekst in de ASCII-codering staat, kunnen we het bestandscommando gebruiken:

$ file foo foo: ASCII text, with no line terminators

Ten slotte, om het exacte aantal bytes te krijgen dat het bestand in beslag neemt, gebruiken we het stat- commando:

$ stat -f%z foo 12

Omdat de Unicode-standaard een veel groter aantal tekens behandelt, neemt een Unicode-bestand natuurlijk meer opslagruimte in beslag. Hoeveel precies hangt af van de codering.

Het herhalen van dezelfde reeks opdrachten van voorheen, met behulp van een teken dat niet kan worden weergegeven in ASCII, geeft het volgende:

$ echo -n '€' > foo $ file foo foo: UTF-8 Unicode text, with no line terminators $ stat -f%z foo 3

Dat ene teken neemt 3 bytes in beslag in een Unicode-bestand. Merk op dat bash automatisch een UTF-8-bestand heeft gemaakt, aangezien een ASCII-bestand het gekozen teken (€) niet kan opslaan. UTF-8 is verreweg de meest voorkomende tekencodering voor Unicode; UTF-16 en UTF-32 zijn twee alternatieve coderingen, maar ze worden veel minder gebruikt.

UTF-8 is een codering met variabele breedte, wat betekent dat het verschillende hoeveelheden opslagruimte gebruikt voor verschillende codepunten. Elk codepunt zal tussen één en vier bytes in beslag nemen, met de bedoeling dat meer gebruikelijke tekens minder ruimte nodig hebben, wat een soort ingebouwde compressie oplevert. Het nadeel is dat het bepalen van de lengte- of groottevereisten van een bepaald stuk tekst veel gecompliceerder wordt.

ASCII is Unicode, maar Unicode is geen ASCII

Voor achterwaartse compatibiliteit vertegenwoordigen de eerste 128 Unicode-codepunten de equivalente ASCII-tekens. Aangezien UTF-8 elk van deze tekens codeert met een enkele byte, is elke ASCII-tekst ook een UTF-8-tekst. Unicode is een superset van ASCII.

Zoals hierboven weergegeven, kunnen veel Unicode-bestanden echter niet in een ASCII-context worden gebruikt. Elk teken dat buiten het bereik is, wordt op een onverwachte manier weergegeven, vaak met vervangende tekens die totaal anders zijn dan de bedoeling was.

Modern gebruik

Voor de meeste doeleinden wordt ASCII grotendeels beschouwd als een legacy-standaard. Zelfs in situaties die alleen het Latijnse schrift ondersteunen - waar volledige ondersteuning voor de complexiteit van Unicode bijvoorbeeld niet nodig is - is het meestal handiger om UTF-8 te gebruiken en te profiteren van de ASCII-compatibiliteit.

In het bijzonder moeten webpagina's worden opgeslagen en verzonden met UTF-8, wat de standaard is voor HTML5. Dit in tegenstelling tot het eerdere web, dat standaard in ASCII handelde voordat dat werd vervangen door Latijn 1.

Een norm die aan het veranderen is

De laatste herziening van ASCII vond plaats in 1986.

Unicode daarentegen wordt nog steeds jaarlijks bijgewerkt. Er worden regelmatig nieuwe scripts, personages en vooral nieuwe emoji toegevoegd. Met slechts een klein deel van deze toegewezen, zal de volledige tekenset waarschijnlijk groeien en groeien in de nabije toekomst.

Gerelateerd:  De 100 meest populaire emoji's uitgelegd

ASCII versus Unicode

ASCII heeft tientallen jaren zijn doel gediend, maar Unicode heeft het nu effectief vervangen voor alle praktische doeleinden behalve legacy-systemen. Unicode is groter en dus expressiever. Het vertegenwoordigt een wereldwijde, gezamenlijke inspanning en biedt veel meer flexibiliteit, zij het ten koste van enige complexiteit.


Wat is homomorfe versleuteling?

Wat is homomorfe versleuteling?

Een woord dat de laatste tijd veel opduikt, is homomorfe encryptie. Veel bedrijven en online diensten schakelen hun coderingsmodel om naar een soort homomorfe codering, waarbij ze adverteren dat het voor betere gebruikersprivacy en veiligheid is.

Wat is een bitmapafbeelding?

Wat is een bitmapafbeelding?

Voor de meeste mensen maken digitale media deel uit van uw dagelijks leven. Maar we denken niet altijd na over hoe het is gemaakt.

Wat is het verschil tussen Android TV en Google TV?

Wat is het verschil tussen Android TV en Google TV?

Aangezien het Android-besturingssysteem is ontwikkeld door Google, is het begrijpelijk dat u in de war bent over de verschillen tussen Google TV en Android TV. Is het hetzelfde?

Wat zijn lichtvelddisplays en hoe werken ze?

Wat zijn lichtvelddisplays en hoe werken ze?

Lichtvelddisplays veranderen geleidelijk hoe we de wereld om ons heen zien. Of beter gezegd, hoe we de wereld zien die niet om ons heen is. Van klassieke fotografie tot geavanceerde educatie en diagnostiek tot aanwezigheid op afstand en entertainment, dit artikel gaat in op wat een lichtvelddisplay is, hoe verschillende soorten beeldschermen werken en hoe ze worden gebruikt.

Wat is het Matrix-protocol en hoe werkt het?

Wat is het Matrix-protocol en hoe werkt het?

De meeste platforms die we gebruiken om online met elkaar te communiceren, zijn gekoppeld aan één aanbieder. Maar er is geen technische reden waarom de dingen zo zijn. Er zijn manieren om online te chatten die een grotere mate van privacy en vrijheid bieden. Matrix is ​​een van die manieren.

Hoe UART, SPI en I2C seriële communicatie werken en waarom we ze nog steeds gebruiken

Hoe UART, SPI en I2C seriële communicatie werken en waarom we ze nog steeds gebruiken

Of het nu gaat om computerrandapparatuur, slimme apparaten, Internet of Things (IoT)-apparaten of elektronische meetinstrumenten, ze gebruiken allemaal seriële communicatieprotocollen om verschillende elektronische componenten met elkaar te verbinden.

Wat is cyberpesten en hoe ga je ermee om?

Wat is cyberpesten en hoe ga je ermee om?

Dankzij internet hebben meer mensen verbinding kunnen maken dan ooit tevoren, zowel ten goede als ten kwade. Net zoals mensen internet gebruiken voor constructieve en leuke doeleinden, gebruiken anderen het om een ​​nieuw soort pesten uit te voeren: cyberpesten.

99 Cryptocurrency-voorwaarden uitgelegd: elke crypto-definitie die u nodig heeft

99 Cryptocurrency-voorwaarden uitgelegd: elke crypto-definitie die u nodig heeft

Cryptocurrencies zijn digitale valuta die draaien op gedecentraliseerde computernetwerken, blockchains genaamd. Enkele van de belangrijkste en meest geaccepteerde cryptocurrencies zijn Bitcoin, Ethereum, Tether, Cardano, Binance Coin en USD Coin.

Wat is een hypervisor? Is het anders dan een virtuele machine?

Wat is een hypervisor? Is het anders dan een virtuele machine?

Een hypervisor is een stukje software dat wordt gebruikt om virtuele machines te maken. Een virtuele machine is een emulatie van een computer. Virtuele machines worden gebruikt om meerdere computeromgevingen te creëren op een enkel stuk hardware.

Toegangspunt versus router: wat is het verschil?

Toegangspunt versus router: wat is het verschil?

Het instellen van wifi voor uw huis of bedrijf kan gemakkelijk overweldigend en verwarrend worden. Er zijn nogal wat verschillende termen en apparaten bij het proces betrokken, en elke wifi-situatie is uniek. Een groot bedrijf met een heleboel apparaten die over een groot gebied op een netwerk zijn aangesloten, heeft drastisch andere dingen nodig dan een eenvoudig huis met een paar apparaten.

De 8 beste software-crypto-portefeuilles om uw activa op te slaan

De 8 beste software-crypto-portefeuilles om uw activa op te slaan

Als u enige hoeveelheid cryptocurrency bezit, vraagt ​​u zich misschien af ​​hoe u deze het veiligst en veiligst kunt opslaan. Aangezien een cryptocurrency een digitale vorm van geld is, kun je het niet zomaar in je nachtkastje of in een kluis stoppen. In plaats daarvan moet het worden opgeslagen op een stuk hardware of software.

Hoe werken tonale en Nordic Tracks digitale gewichten?

Hoe werken tonale en Nordic Tracks digitale gewichten?

Heb je commercials gezien voor fitnessapparaten die digitaal gewicht gebruiken en vroeg je je af wat dat in vredesnaam was? Of heb je naar deze strakke en nette nieuwe machines gekeken en je afgevraagd waar alle weerstand vandaan kwam?

10 veelgestelde vragen over elektrische autos die u altijd al wilde stellen

10 veelgestelde vragen over elektrische autos die u altijd al wilde stellen

Elektrische voertuigen (EV's) worden steeds populairder. Vanaf 2020 waren er ongeveer 1,8 miljoen geregistreerde EV's in de VS - drie keer zoveel als in 2016. Wereldwijd waren er naar schatting 10,2 miljoen EV's in 2020.

Een Mac mini eGPU maakt het mogelijk om de grafische prestaties te verbeteren

Een Mac mini eGPU maakt het mogelijk om de grafische prestaties te verbeteren

Het gebruik van een eGPU met je Mac mini kan een uitstekende manier zijn om het meeste uit de kleine behuizing te halen en toch uitstekende grafische prestaties te behalen voor taken zoals gamen en beeldverwerking. In deze gids leg je goed uit wat een eGPU kan toevoegen aan je setup, hoe ze werken en of het de moeite waard is om wat extra geld uit te geven voor dit handige kleine setje.

Een dashcam in uw auto installeren

Een dashcam in uw auto installeren

Als je een dashcam hebt, lijkt het passen misschien een beetje een karwei. In sommige gevallen is het niet zo eenvoudig als je zou willen, maar het installeren van een dashcam in je auto is elke minuut waard die je eraan besteedt.

Waarom Nvidias 30-serie GPUs beter zijn dan AMD

Waarom Nvidias 30-serie GPUs beter zijn dan AMD

Nvidia is een van de twee vertrouwde namen in de ontwikkeling van grafische kaarten. Ofwel heb je een Nvidia GPU, ofwel kies je voor een AMD GPU. Afhankelijk van wie je het vraagt, loopt Nvidia altijd iets voor op AMD als het gaat om GPU's. Sneller, groter, sterker, innovatiever.

16-bits versus 24-bits versus 32-bits audio

16-bits versus 24-bits versus 32-bits audio

Als je te maken hebt met digitale audio, zie je vaak termen als audioresolutie, samplefrequentie en andere die de kenmerken van een bestand beschrijven. Het is belangrijk om te weten wat goede audio onderscheidt van slechte audio, dus het is handig om bekend te zijn met deze termen.

Xbox Series X vs. PS5: welke heeft de meeste teraflops?

Xbox Series X vs. PS5: welke heeft de meeste teraflops?

Een nieuwe consolegeneratie staat voor de deur. De komst van de PlayStation 5 en de Xbox Series X markeert de volgende stap voorwaarts voor console-gaming. Zoals je zou verwachten, willen gamers weten welke console beter is? Welke gaming-optie biedt de beste waar voor je geld in de nabije toekomst?

Powerline-adapter versus mesh-wifi: wat is het beste voor uw huis?

Powerline-adapter versus mesh-wifi: wat is het beste voor uw huis?

Als u in bepaalde delen van uw huis geen verbinding met internet kunt maken, zijn er verschillende manieren om het probleem op te lossen. Twee van de meest populaire opties zijn powerline-adapters en mesh-wifi.

Waarom je inkt op je kapotte scherm ziet

Waarom je inkt op je kapotte scherm ziet

Het is niet ongebruikelijk om zwarte of paarsachtige vlekken te zien die op inkt lijken op het scherm van uw kapotte apparaat (telefoon, tablet of laptop). Maar zit er echt inkt in je scherm?

Wat is homomorfe versleuteling?

Wat is homomorfe versleuteling?

Een woord dat de laatste tijd veel opduikt, is homomorfe encryptie. Veel bedrijven en online diensten schakelen hun coderingsmodel om naar een soort homomorfe codering, waarbij ze adverteren dat het voor betere gebruikersprivacy en veiligheid is.

Wat is een bitmapafbeelding?

Wat is een bitmapafbeelding?

Voor de meeste mensen maken digitale media deel uit van uw dagelijks leven. Maar we denken niet altijd na over hoe het is gemaakt.

Wat zijn lichtvelddisplays en hoe werken ze?

Wat zijn lichtvelddisplays en hoe werken ze?

Lichtvelddisplays veranderen geleidelijk hoe we de wereld om ons heen zien. Of beter gezegd, hoe we de wereld zien die niet om ons heen is. Van klassieke fotografie tot geavanceerde educatie en diagnostiek tot aanwezigheid op afstand en entertainment, dit artikel gaat in op wat een lichtvelddisplay is, hoe verschillende soorten beeldschermen werken en hoe ze worden gebruikt.

Wat is het Matrix-protocol en hoe werkt het?

Wat is het Matrix-protocol en hoe werkt het?

De meeste platforms die we gebruiken om online met elkaar te communiceren, zijn gekoppeld aan één aanbieder. Maar er is geen technische reden waarom de dingen zo zijn. Er zijn manieren om online te chatten die een grotere mate van privacy en vrijheid bieden. Matrix is ​​een van die manieren.

Hoe UART, SPI en I2C seriële communicatie werken en waarom we ze nog steeds gebruiken

Hoe UART, SPI en I2C seriële communicatie werken en waarom we ze nog steeds gebruiken

Of het nu gaat om computerrandapparatuur, slimme apparaten, Internet of Things (IoT)-apparaten of elektronische meetinstrumenten, ze gebruiken allemaal seriële communicatieprotocollen om verschillende elektronische componenten met elkaar te verbinden.

Wat is cyberpesten en hoe ga je ermee om?

Wat is cyberpesten en hoe ga je ermee om?

Dankzij internet hebben meer mensen verbinding kunnen maken dan ooit tevoren, zowel ten goede als ten kwade. Net zoals mensen internet gebruiken voor constructieve en leuke doeleinden, gebruiken anderen het om een ​​nieuw soort pesten uit te voeren: cyberpesten.

99 Cryptocurrency-voorwaarden uitgelegd: elke crypto-definitie die u nodig heeft

99 Cryptocurrency-voorwaarden uitgelegd: elke crypto-definitie die u nodig heeft

Cryptocurrencies zijn digitale valuta die draaien op gedecentraliseerde computernetwerken, blockchains genaamd. Enkele van de belangrijkste en meest geaccepteerde cryptocurrencies zijn Bitcoin, Ethereum, Tether, Cardano, Binance Coin en USD Coin.

Wat is een hypervisor? Is het anders dan een virtuele machine?

Wat is een hypervisor? Is het anders dan een virtuele machine?

Een hypervisor is een stukje software dat wordt gebruikt om virtuele machines te maken. Een virtuele machine is een emulatie van een computer. Virtuele machines worden gebruikt om meerdere computeromgevingen te creëren op een enkel stuk hardware.

Toegangspunt versus router: wat is het verschil?

Toegangspunt versus router: wat is het verschil?

Het instellen van wifi voor uw huis of bedrijf kan gemakkelijk overweldigend en verwarrend worden. Er zijn nogal wat verschillende termen en apparaten bij het proces betrokken, en elke wifi-situatie is uniek. Een groot bedrijf met een heleboel apparaten die over een groot gebied op een netwerk zijn aangesloten, heeft drastisch andere dingen nodig dan een eenvoudig huis met een paar apparaten.

De 8 beste software-crypto-portefeuilles om uw activa op te slaan

De 8 beste software-crypto-portefeuilles om uw activa op te slaan

Als u enige hoeveelheid cryptocurrency bezit, vraagt ​​u zich misschien af ​​hoe u deze het veiligst en veiligst kunt opslaan. Aangezien een cryptocurrency een digitale vorm van geld is, kun je het niet zomaar in je nachtkastje of in een kluis stoppen. In plaats daarvan moet het worden opgeslagen op een stuk hardware of software.