Qual é a diferença entre texto ASCII e Unicode?

Qual é a diferença entre texto ASCII e Unicode?

ASCII e Unicode são padrões que se referem à representação digital de texto, especificamente caracteres que constituem o texto. No entanto, os dois padrões são significativamente diferentes, com muitas propriedades refletindo sua respectiva ordem de criação.

América Versus the Universe

O American Standard Code for Information Interchange (ASCII), sem surpresa, atende a um público americano, escrevendo no alfabeto inglês. Ele lida com letras não acentuadas, como AZ e az, além de um pequeno número de símbolos de pontuação e caracteres de controle.

Qual é a diferença entre texto ASCII e Unicode?

Em particular, não há maneira de representar palavras emprestadas adotadas de outros idiomas, como café  em ASCII, sem anglicizá-las substituindo caracteres acentuados (por exemplo,  café ). As extensões ASCII localizadas foram desenvolvidas para atender às necessidades de várias linguagens, mas esses esforços tornaram a interoperabilidade difícil e estavam claramente ampliando as capacidades do ASCII.

Em contraste, o Conjunto Universal de Caracteres Codificados (Unicode) encontra-se na extremidade oposta da escala de ambição. O Unicode tenta atender ao maior número possível de sistemas de escrita do mundo, na medida em que abrange línguas antigas e o conjunto favorito de símbolos expressivos de todos, o emoji.

Conjunto de caracteres ou codificação de caracteres?

Em termos simples, um conjunto de caracteres é uma seleção de caracteres (por exemplo, AZ), enquanto uma codificação de caracteres é um mapeamento entre um conjunto de caracteres e um valor que pode ser representado digitalmente (por exemplo, A = 1, B = 2).

O padrão ASCII é efetivamente ambos: ele define o conjunto de caracteres que representa e um método de mapeamento de cada caractere para um valor numérico.

Em contraste, a palavra Unicode é usada em vários contextos diferentes para significar coisas diferentes. Você pode pensar nisso como um termo abrangente, como ASCII, para se referir a um conjunto de caracteres e várias codificações. Mas, como existem várias codificações, o termo Unicode é frequentemente usado para se referir ao conjunto geral de caracteres, em vez de como eles são mapeados.

Tamanho

Devido ao seu escopo, o Unicode representa muito mais caracteres do que ASCII. O ASCII padrão usa um intervalo de 7 bits para codificar 128 caracteres distintos . O Unicode, por outro lado, é tão grande que precisamos usar terminologias diferentes apenas para falar sobre ele!

Unicode atende a 1.111.998 pontos de código endereçáveis .  Um ponto de código é aproximadamente análogo a um espaço reservado para um personagem, mas a situação é muito mais complicada do que quando você começa a se aprofundar nos detalhes!

Uma comparação mais útil é quantos scripts (ou sistemas de escrita) são suportados atualmente. Obviamente, o ASCII lida apenas com o alfabeto inglês, essencialmente a escrita latina ou romana. A versão do Unicode produzida em 2020 vai muito além: inclui suporte para um total de 154 scripts.

Qual é a diferença entre texto ASCII e Unicode?

Armazenar

O intervalo de 7 bits do ASCII significa que cada caractere é armazenado em um único byte de 8 bits; o bit sobressalente não é usado no ASCII padrão. Isso torna os cálculos de tamanho triviais: o comprimento do texto, em caracteres, é o tamanho do arquivo em bytes.

Você pode confirmar isso com a seguinte sequência de comandos bash. Primeiro, criamos um arquivo contendo 12 letras de texto:

$ echo -n 'Hello, world' > foo

Para verificar se o texto está na codificação ASCII, podemos usar o comando file :

$ file foo foo: ASCII text, with no line terminators

Finalmente, para obter o número exato de bytes que o arquivo ocupa, usamos o comando stat :

$ stat -f%z foo 12

Como o padrão Unicode lida com uma gama muito maior de caracteres, um arquivo Unicode naturalmente ocupa mais espaço de armazenamento. Exatamente quanto depende da codificação.

Repetir o mesmo conjunto de comandos de antes, usando um caractere que não pode ser representado em ASCII, dá o seguinte:

$ echo -n '€' > foo $ file foo foo: UTF-8 Unicode text, with no line terminators $ stat -f%z foo 3

Esse único caractere ocupa 3 bytes em um arquivo Unicode. Observe que o bash criou automaticamente um arquivo UTF-8, pois um arquivo ASCII não pode armazenar o caractere escolhido (€). UTF-8 é de longe a codificação de caracteres mais comum para Unicode; UTF-16 e UTF-32 são duas codificações alternativas, mas são muito menos usadas.

UTF-8 é uma codificação de largura variável, o que significa que usa diferentes quantidades de armazenamento para diferentes pontos de código. Cada ponto de código ocupará entre um e quatro bytes, com a intenção de que mais caracteres comuns exijam menos espaço, fornecendo um tipo de compactação embutida. A desvantagem é que determinar os requisitos de comprimento ou tamanho de um determinado trecho de texto se torna muito mais complicado.

ASCII é Unicode, mas Unicode não é ASCII

Para compatibilidade com versões anteriores, os primeiros 128 pontos de código Unicode representam os caracteres ASCII equivalentes. Como o UTF-8 codifica cada um desses caracteres com um único byte, qualquer texto ASCII também é um texto UTF-8. Unicode é um superconjunto de ASCII.

No entanto, conforme mostrado acima, muitos arquivos Unicode não podem ser usados ​​em um contexto ASCII. Qualquer caractere que esteja fora dos limites será exibido de maneira inesperada, geralmente com caracteres substituídos que são completamente diferentes daqueles que foram planejados.

Uso Moderno

Para a maioria dos propósitos, ASCII é amplamente considerado um padrão legado. Mesmo em situações que suportam apenas o script latino - onde o suporte total para as complexidades do Unicode é desnecessário, por exemplo - geralmente é mais conveniente usar UTF-8 e tirar proveito de sua compatibilidade ASCII.

Em particular, as páginas da web devem ser salvas e transmitidas usando UTF-8, que é o padrão para HTML5. Isso está em contraste com a web anterior, que lidava com ASCII por padrão antes de ser substituída pelo Latim 1.

Um padrão que está mudando

A última revisão do ASCII ocorreu em 1986.

Em contraste, o Unicode continua a ser atualizado anualmente. Novos scripts, personagens e, particularmente, novos emojis são adicionados regularmente. Com apenas uma pequena fração deles alocada, o conjunto completo de caracteres provavelmente crescerá e crescerá no futuro previsível.

Relacionado:  Os 100 Emojis Mais Populares Explicados

ASCII Versus Unicode

O ASCII serviu ao seu propósito por muitas décadas, mas o Unicode agora o substituiu efetivamente para todos os propósitos práticos, exceto os sistemas legados. O Unicode é maior e, portanto, mais expressivo. Representa um esforço colaborativo mundial e oferece uma flexibilidade muito maior, embora às custas de alguma complexidade.


O que é uma imagem bitmap?

O que é uma imagem bitmap?

Para a maioria das pessoas, a mídia digital faz parte da sua vida cotidiana. Mas nem sempre pensamos em como ele é criado.

Qual é a diferença entre o Android TV e o Google TV?

Qual é a diferença entre o Android TV e o Google TV?

Considerando que o sistema operacional Android foi desenvolvido pelo Google, é compreensível que você possa estar confuso sobre as diferenças entre o Google TV e o Android TV. É a mesma coisa?

O que são visores de campo de luz e como funcionam?

O que são visores de campo de luz e como funcionam?

As exibições de campo de luz estão mudando gradualmente a forma como vemos o mundo ao nosso redor. Ou melhor, como vemos o mundo que não está ao nosso redor. Da fotografia clássica à educação e diagnósticos avançados à presença remota e entretenimento, este artigo examinará o que é um visor de campo de luz, como funcionam os diferentes tipos de visor e como são usados.

O que é um hipervisor? É diferente de uma máquina virtual?

O que é um hipervisor? É diferente de uma máquina virtual?

Um hipervisor é um software usado para criar máquinas virtuais. Uma máquina virtual é uma emulação de um computador. As máquinas virtuais são usadas para criar vários ambientes de computação em uma única peça de hardware.

Ponto de acesso vs. roteador - qual é a diferença?

Ponto de acesso vs. roteador - qual é a diferença?

Configurar o Wi-Fi para sua casa ou empresa pode facilmente se tornar opressor e confuso. Existem alguns termos e dispositivos diferentes envolvidos no processo, e cada situação de Wi-Fi é única. Uma grande empresa com uma tonelada de dispositivos conectados a uma rede em uma grande área precisará de coisas drasticamente diferentes do que uma simples casa com poucos dispositivos.

Como funcionam os pesos digitais das faixas Tonal e Nordic?

Como funcionam os pesos digitais das faixas Tonal e Nordic?

Você já viu comerciais de aparelhos de ginástica que usam peso digital e se perguntou o que era isso? Ou você já olhou para essas novas máquinas elegantes e organizadas e se perguntou de onde veio toda a resistência?

Por que as GPUs da série 30 da Nvidias são melhores que a AMD

Por que as GPUs da série 30 da Nvidias são melhores que a AMD

Nvidia é um dos dois nomes confiáveis ​​no desenvolvimento de placas de vídeo. Você tem uma GPU Nvidia ou opta por uma GPU AMD. Dependendo de para quem você perguntar, a Nvidia está sempre um pouco à frente da AMD quando se trata de GPUs. Mais rápido, maior, mais forte, mais inovador.

Áudio de 16 bits vs. 24 bits vs. 32 bits

Áudio de 16 bits vs. 24 bits vs. 32 bits

Ao lidar com áudio digital, você frequentemente verá termos como resolução de áudio, taxa de amostragem e outros que descrevem as características de um arquivo. É importante saber o que separa um áudio bom de um áudio ruim, portanto, é útil estar familiarizado com esses termos.

Adaptador Powerline vs. Mesh Wi-Fi: O que é melhor para sua casa?

Adaptador Powerline vs. Mesh Wi-Fi: O que é melhor para sua casa?

Se você não conseguir se conectar à Internet em certas áreas da sua casa, há várias maneiras de resolver o problema. Duas das opções mais populares são adaptadores de linha de energia e Wi-Fi mesh.

O que são erros de tempo de execução e como corrigi-los?

O que são erros de tempo de execução e como corrigi-los?

Você não odeia quando está tentando iniciar um programa e recebe uma mensagem de erro que diz Runtime Error? Infelizmente, apesar de irritar as pessoas regularmente, o temido erro de tempo de execução não faz um bom trabalho explicando a si mesmo e o que aconteceu exatamente.

Nvidia DLSS vs. AMD FidelityFX: Qual é a diferença e o que parece melhor?

Nvidia DLSS vs. AMD FidelityFX: Qual é a diferença e o que parece melhor?

A tecnologia Nvidias DLSS reduziu bastante a necessidade de possuir o hardware gráfico de última geração mais caro. Em vez de renderizar gráficos em resolução total, sua GPU pode renderizá-los em uma resolução inferior e superior. Embora essa abordagem fosse impensável anos atrás, a Nvidia acertou em cheio na tecnologia. Dependendo do jogo, pode realmente parecer indistinguível a olho nu da resolução nativa.

O que é um termostato Nest e como ele funciona?

O que é um termostato Nest e como ele funciona?

Todos nós já tivemos aquele momento em que voltamos para casa após um longo dia de trabalho, para uma casa gelada ou sufocante. Com o Nest Thermostat, essas experiências estressantes são uma coisa do passado.

Máquina virtual vs. contêiner: qual é a diferença?

Máquina virtual vs. contêiner: qual é a diferença?

Máquinas virtuais e contêineres são tipos de virtualização que permitem que aplicativos sejam implantados em ambientes isolados do hardware subjacente.

O que é Audio Return Channel (ARC)?

O que é Audio Return Channel (ARC)?

Se você já tentou conectar mais de um ou dois dispositivos a uma TV, sabe como os problemas de home theater podem se complicar rapidamente. Embora os cabos HDMI tornem as conexões um pouco mais simples, eles introduziram quase tantos problemas quanto tentaram resolver.

Soundstage vs. Audio Imaging: o que é mais importante para o melhor som?

Soundstage vs. Audio Imaging: o que é mais importante para o melhor som?

Se você já assistiu a vídeos de resenhas no YouTube sobre fones de ouvido, deve ter notado como os revisores parecem usar uma infinidade de termos. É quase como se os audiófilos tivessem um dicionário próprio.

Um mergulho profundo em Replika: meu amigo IA

Um mergulho profundo em Replika: meu amigo IA

Replika: My AI Friend é um aplicativo diferente de qualquer outro. Enquanto a maioria dos aplicativos com chatbots os usa como assistentes virtuais, o Replika comercializa seu chatbot como - você adivinhou - um amigo.

O que é resposta de frequência de fone de ouvido?

O que é resposta de frequência de fone de ouvido?

Quer você seja um audiófilo ou apenas alguém que adora ouvir música, provavelmente já ouviu falar sobre a resposta de frequência dos fones de ouvido. Independentemente de você estar ou não familiarizado com o termo, este artigo o ajudará a entender melhor o que você deve saber sobre a resposta de frequência e sua importância.

IEMs vs. Earbuds: o que são IEMs? Eles são melhores do que fones de ouvido?

IEMs vs. Earbuds: o que são IEMs? Eles são melhores do que fones de ouvido?

Ouvir é uma experiência muito pessoal. Esteja você curtindo sua lista de reprodução favorita, assistindo a filmes ou mergulhando em alguma jogabilidade, o áudio desempenha um papel fundamental na elevação da experiência geral.

Explicação dos serviços de streaming de música: como o Spotify ganha dinheiro?

Explicação dos serviços de streaming de música: como o Spotify ganha dinheiro?

O Spotify é indiscutivelmente o maior serviço de streaming de música do mundo. Você paga pelo Spotify com um plano premium ou não. Existe o Student Plan, onde você paga menos, um Family Plan, onde outra pessoa paga, ou a opção gratuita, onde você faz stream com intervalos de anúncios entre suas músicas.

O que é um arquivo vetorial?

O que é um arquivo vetorial?

Você já baixou uma imagem de um site e descobriu que se trata de um arquivo vetorial? Mas o que é um arquivo vetorial? E para que você usa arquivos vetoriais?

O que é criptografia homomórfica?

O que é criptografia homomórfica?

Uma palavra que tem surgido muito ultimamente é criptografia homomórfica. Muitas empresas e serviços online estão mudando seu modelo de criptografia para um tipo de criptografia homomórfica, anunciando que é para melhor privacidade e segurança do usuário.

O que é uma imagem bitmap?

O que é uma imagem bitmap?

Para a maioria das pessoas, a mídia digital faz parte da sua vida cotidiana. Mas nem sempre pensamos em como ele é criado.

O que são visores de campo de luz e como funcionam?

O que são visores de campo de luz e como funcionam?

As exibições de campo de luz estão mudando gradualmente a forma como vemos o mundo ao nosso redor. Ou melhor, como vemos o mundo que não está ao nosso redor. Da fotografia clássica à educação e diagnósticos avançados à presença remota e entretenimento, este artigo examinará o que é um visor de campo de luz, como funcionam os diferentes tipos de visor e como são usados.

O que é o protocolo de matriz e como ele funciona?

O que é o protocolo de matriz e como ele funciona?

A maioria das plataformas que usamos para nos comunicarmos online estão vinculadas a um único provedor. Mas não há razão técnica para que as coisas sejam assim. Existem maneiras de bater papo online que oferecem um maior grau de privacidade e liberdade. Matrix é uma dessas maneiras.

Como funcionam as comunicações seriais UART, SPI e I2C e por que ainda as usamos

Como funcionam as comunicações seriais UART, SPI e I2C e por que ainda as usamos

Quer sejam periféricos de computador, aparelhos inteligentes, dispositivos da Internet das Coisas (IoT) ou ferramentas de medição eletrônicas, todos eles usam protocolos de comunicação serial para conectar diferentes componentes eletrônicos.

O que é cyberbullying e como você pode lidar com isso?

O que é cyberbullying e como você pode lidar com isso?

A internet tem permitido que mais pessoas se conectem do que nunca, seja para o bem ou para o mal. Por mais que as pessoas utilizem a internet para fins construtivos e divertidos, outras a utilizam para realizar um novo tipo de bullying: o cyberbullying.

99 termos de criptomoeda explicados: todas as definições de criptografia de que você precisa

99 termos de criptomoeda explicados: todas as definições de criptografia de que você precisa

Criptomoedas são moedas digitais executadas em redes de computadores descentralizadas chamadas blockchains. Algumas das criptomoedas mais importantes e amplamente aceitas são Bitcoin, Ethereum, Tether, Cardano, Binance Coin e USD Coin.

O que é um hipervisor? É diferente de uma máquina virtual?

O que é um hipervisor? É diferente de uma máquina virtual?

Um hipervisor é um software usado para criar máquinas virtuais. Uma máquina virtual é uma emulação de um computador. As máquinas virtuais são usadas para criar vários ambientes de computação em uma única peça de hardware.

Ponto de acesso vs. roteador - qual é a diferença?

Ponto de acesso vs. roteador - qual é a diferença?

Configurar o Wi-Fi para sua casa ou empresa pode facilmente se tornar opressor e confuso. Existem alguns termos e dispositivos diferentes envolvidos no processo, e cada situação de Wi-Fi é única. Uma grande empresa com uma tonelada de dispositivos conectados a uma rede em uma grande área precisará de coisas drasticamente diferentes do que uma simples casa com poucos dispositivos.

As 8 melhores carteiras criptográficas de software para armazenar seus ativos

As 8 melhores carteiras criptográficas de software para armazenar seus ativos

Se você possui qualquer quantidade de criptomoeda, pode estar se perguntando como armazená-la com mais segurança. Visto que uma criptomoeda é uma forma digital de dinheiro, você não pode simplesmente colocá-la na gaveta da cabeceira ou no cofre. Em vez disso, ele precisa ser armazenado em um hardware ou software.