ASCII 和 Unicode 文本有什麼區別?

ASCII 和 Unicode 文本有什麼區別?

ASCII 和 Unicode 都是參考文本數字表示的標準,特別是構成文本的字符。但是,這兩個標準有很大的不同,許多屬性反映了它們各自的創建順序。

美國與宇宙

不出所料,美國信息交換標準代碼 (ASCII) 迎合了美國觀眾,用英文字母書寫。它處理無重音字母,例如 AZ 和 az,以及少量標點符號和控製字符。

ASCII 和 Unicode 文本有什麼區別?

特別是,有沒有代表其他語言,如通過外來詞的方式咖啡廳 在ASCII,不通過代重音字符(例如,anglicizing他們 的咖啡館)。本地化的 ASCII 擴展是為了滿足各種語言的需求而開發的,但這些努力使互操作性變得尷尬,並且顯然擴展了 ASCII 的功能。

相比之下,通用編碼字符集 (Unicode) 位於目標規模的另一端。Unicode 試圖迎合世界上盡可能多的書寫系統,在一定程度上它涵蓋了古代語言和每個人最喜歡的一組表達符號,即表情符號。

字符集還是字符編碼?

簡單來說,字符集是字符的選擇(例如,AZ),而字符編碼是字符集和可以數字表示的值(例如,A=1,B=2)之間的映射。

ASCII 標準是有效的:它定義了它所代表的字符集和將每個字符映射到一個數值的方法。

相比之下,Unicode 一詞在幾個不同的上下文中使用以表示不同的事物。您可以將其視為一個包羅萬象的術語,例如 ASCII,用來指代字符集和多種編碼。但是,由於有多種編碼,因此術語 Unicode 常用於指代整個字符集,而不是它們的映射方式。

尺寸

由於其範圍,Unicode 表示的字符遠多於 ASCII。標準 ASCII 使用 7 位範圍來編碼 128 個不同的字符。另一方面,Unicode 太大了,我們需要使用不同的術語來談論它!

Unicode 迎合 1,111,998 個可尋址代碼點。 代碼點大致類似於為字符保留的空間,但情況比開始深入研究時要復雜得多!

一個更有用的比較是當前支持的腳本(或編寫系統)的數量。當然,ASCII 只處理英文字母,本質上是拉丁字母或羅馬字母。2020 年產生的 Unicode 版本更進一步:它包括對總共 154 個腳本的支持。

ASCII 和 Unicode 文本有什麼區別?

貯存

ASCII 的 7 位範圍意味著每個字符都存儲在單個 8 位字節中;備用位在標準 ASCII 中未使用。這使得大小計算變得微不足道:文本的長度(以字符為單位)就是文件的大小(以字節為單位)。

您可以使用以下 bash 命令序列來確認這一點。首先,我們創建一個包含 12 個文本字母的文件:

$ echo -n 'Hello, world' > foo

要檢查文本是否採用 ASCII 編碼,我們可以使用file命令:

$ file foo foo: ASCII text, with no line terminators

最後,為了獲得文件佔用的確切字節數,我們使用stat命令:

$ stat -f%z foo 12

由於 Unicode 標準處理的字符範圍要大得多,因此 Unicode 文件自然會佔用更多的存儲空間。具體多少取決於編碼。

使用無法用 ASCII 表示的字符重複之前的同一組命令,得到以下結果:

$ echo -n '€' > foo $ file foo foo: UTF-8 Unicode text, with no line terminators $ stat -f%z foo 3

該單個字符在 Unicode 文件中佔用 3 個字節。請注意,由於 ASCII 文件無法存儲所選字符 (€),因此 bash 會自動創建一個 UTF-8 文件。UTF-8 是迄今為止最常見的 Unicode 字符編碼;UTF-16 和 UTF-32 是兩種替代編碼,但它們的使用要少得多。

UTF-8 是一種可變寬度編碼,這意味著它對不同的代碼點使用不同的存儲量。每個代碼點將佔用 1 到 4 個字節,目的是使更常見的字符需要更少的空間,從而提供一種內置壓縮。缺點是確定給定文本塊的長度或大小要求變得更加複雜。

ASCII 是 Unicode,但 Unicode 不是 ASCII

為了向後兼容,前 128 個 Unicode 代碼點表示等效的 ASCII 字符。由於 UTF-8 使用單個字節對這些字符中的每一個進行編碼,因此任何 ASCII 文本也是 UTF-8 文本。Unicode 是 ASCII 的超集。

但是,如上所示,許多 Unicode 文件不能在 ASCII 上下文中使用。任何越界的字符都會以意想不到的方式顯示,通常替換的字符與預期的字符完全不同。

現代用法

對於大多數用途,ASCII 主要被認為是遺留標準。即使在僅支持拉丁文字的情況下(例如,不需要完全支持 Unicode 的複雜性),使用 UTF-8 並利用其 ASCII 兼容性通常更方便。

特別是,應使用 UTF-8 保存和傳輸網頁,這是 HTML5 的默認設置。這與早期的 web 形成對比,後者在被拉丁文 1 取代之前默認處理 ASCII。

一個正在改變的標準

ASCII 的最後一次修訂發生在 1986 年。

相比之下,Unicode 每年都會繼續更新。定期添加新的腳本、字符,尤其是新的表情符號。只需分配其中的一小部分,在可預見的未來,完整的字符集很可能會不斷增長。

相關: 解釋了 100 個最受歡迎的表情符號

ASCII 與 Unicode

幾十年來,ASCII 一直發揮著它的作用,但現在 Unicode 已經有效地取代了它,用於除遺留系統之外的所有實際用途。Unicode 更大,因此更具表現力。它代表了一種全球性的協作努力,並提供了更大的靈活性,儘管以某些複雜性為代價。


什麼是同態加密?

什麼是同態加密?

最近突然出現的一個詞是同態加密。許多公司和在線服務正在將他們的加密模型轉換為一種同態加密,宣傳它是為了更好的用戶隱私和安全。

什麼是位圖圖像?

什麼是位圖圖像?

對於大多數人來說,數字媒體是您日常生活的一部分。但我們並不總是考慮它是如何創建的。

Android TV 和 Google TV 有什麼區別?

Android TV 和 Google TV 有什麼區別?

考慮到 Android 操作系統是由 Google 開發的,您可能會對 Google TV 和 Android TV 之間的差異感到困惑,這是可以理解的。它是一樣的嗎?

什麼是光場顯示及其工作原理?

什麼是光場顯示及其工作原理?

光場顯示器正在逐漸改變我們看待周圍世界的方式。或者更確切地說,我們如何看待不在我們周圍的世界。從經典攝影到高級教育和診斷再到遠程呈現和娛樂,本文將介紹光場顯示器是什麼、不同顯示器類型的工作原理以及它們的使用方式。

什麼是矩陣協議及其工作原理?

什麼是矩陣協議及其工作原理?

我們用來在線相互交流的大多數平台都綁定到一個提供商。但事情是這樣的,沒有技術上的原因。有一些在線聊天方式可以提供更大程度的隱私和自由。矩陣是其中一種方式。

UART、SPI 和 I2C 串行通信的工作原理,以及我們為何仍在使用它們

UART、SPI 和 I2C 串行通信的工作原理,以及我們為何仍在使用它們

無論是計算機外圍設備、智能電器、物聯網 (IoT) 設備,還是電子測量工具,它們都使用串行通信協議將不同的電子元件連接在一起。

什麼是網絡欺凌以及如何應對?

什麼是網絡欺凌以及如何應對?

無論是好是壞,互聯網讓更多的人能夠比以往任何時候都連接起來。就像人們將互聯網用於建設性和娛樂目的一樣,其他人也用它來執行一種新的欺凌:網絡欺凌。

99 個加密貨幣術語解釋:您需要的每個加密定義

99 個加密貨幣術語解釋:您需要的每個加密定義

加密貨幣是在稱為區塊鏈的分散計算機網絡上運行的數字貨幣。一些最重要且被廣泛接受的加密貨幣是比特幣、以太坊、Tether、Cardano、Binance Coin 和 USD Coin。

什麼是管理程序?它與虛擬機不同嗎?

什麼是管理程序?它與虛擬機不同嗎?

管理程序是一種用於創建虛擬機的軟件。虛擬機是對計算機的模擬。虛擬機用於在單個硬件上創建多個計算環境。

存儲資產的 8 個最佳軟件加密錢包

存儲資產的 8 個最佳軟件加密錢包

如果您擁有任何數量的加密貨幣,您可能想知道如何最安全可靠地存儲它。鑑於加密貨幣是一種數字形式的貨幣,您不能將其放入床頭櫃或保險箱中。相反,它需要存儲在一個硬件或軟件上。

Tonal 和 Nordic Tracks 數字權重如何工作?

Tonal 和 Nordic Tracks 數字權重如何工作?

您是否看過使用數字重量的健身器材的廣告,並想知道那到底是什麼?或者您是否看過這些時尚整潔的新機器,並想知道所有阻力來自哪裡?

您一直想問的關於電動汽車的 10 個常見問題

您一直想問的關於電動汽車的 10 個常見問題

電動汽車 (EV) 正變得越來越受歡迎。截至 2020 年,美國約有 180 萬輛註冊電動汽車,是 2016 年的三倍。全球範圍內,2020 年估計有 1020 萬輛電動汽車。

Mac mini eGPU 可提升圖形性能

Mac mini eGPU 可提升圖形性能

將 eGPU 與 Mac mini 搭配使用是一種絕佳方式,可以充分利用小巧的外殼,同時還能在遊戲和圖像處理等任務中實現出色的圖形性能。在本指南中,很好地解釋了 eGPU 可以添加到您的設置中的內容、它們的工作原理,以及是否值得為這個整潔的小工具包投入一些額外的現金。

如何在您的汽車中安裝行車記錄儀

如何在您的汽車中安裝行車記錄儀

如果你有一個行車記錄儀,安裝它可能看起來有點麻煩。在某些情況下,這並不像您希望的那麼簡單,但是在您的汽車中安裝行車記錄儀值得您花在它上面的每一分鐘。

為什麼 Nvidia 的 30 系列 GPU 比 AMD 好

為什麼 Nvidia 的 30 系列 GPU 比 AMD 好

Nvidia 是顯卡開發中兩個值得信賴的名字之一。您要么擁有 Nvidia GPU,要么選擇 AMD GPU。取決於你問的是誰,在 GPU 方面,Nvidia 總是略領先於 AMD。更快、更大、更強、更具創新性。

16 位與 24 位與 32 位音頻

16 位與 24 位與 32 位音頻

在處理數字音頻時,您經常會看到諸如音頻分辨率、採樣率和其他描述文件特徵的術語。了解好音頻與壞音頻的區別很重要,因此熟悉這些術語會有所幫助。

Xbox Series X 與 PS5:哪個 Teraflops 最多?

Xbox Series X 與 PS5:哪個 Teraflops 最多?

新一代遊戲機即將到來。PlayStation 5 和 Xbox Series X 的到來標誌著主機遊戲向前邁進了一步。正如您所料,遊戲玩家想知道哪個控制台更好?在可預見的未來,哪種遊戲選項將為您帶來最大的收益?

為什麼你會在破碎的屏幕上看到墨水

為什麼你會在破碎的屏幕上看到墨水

在損壞的設備(手機、平板電腦或筆記本電腦)的屏幕上看到看起來像墨水的黑色或紫色斑點並不少見。但是你的屏幕上真的有墨水嗎?

力和触覺反饋如何使遊戲更具沉浸感?

力和触覺反饋如何使遊戲更具沉浸感?

我們享受遊戲的很大一部分是沉浸感,讓您沉浸在虛擬世界中,彷彿身臨其境。可以增加您沉浸感的一件事是模擬現實世界的物理觸摸,讓您接近虛擬世界。

尼古拉·特斯拉 (Nikola Tesla) 的 5 項最佳發明以及它們如何塑造世界

尼古拉·特斯拉 (Nikola Tesla) 的 5 項最佳發明以及它們如何塑造世界

當你想到特斯拉這個詞時,電動汽車和億萬富翁的形象自然會出現。然而,埃隆·馬斯克(Elon Musk)以他的公司名字命名的發明家尼古拉·特斯拉(Nikola Tesla)在歷史上發揮了巨大作用,並改變了許多人的生活軌跡。那麼,尼古拉·特斯拉是誰,他負責哪些關鍵發明?

什麼是同態加密?

什麼是同態加密?

最近突然出現的一個詞是同態加密。許多公司和在線服務正在將他們的加密模型轉換為一種同態加密,宣傳它是為了更好的用戶隱私和安全。

什麼是位圖圖像?

什麼是位圖圖像?

對於大多數人來說,數字媒體是您日常生活的一部分。但我們並不總是考慮它是如何創建的。

什麼是光場顯示及其工作原理?

什麼是光場顯示及其工作原理?

光場顯示器正在逐漸改變我們看待周圍世界的方式。或者更確切地說,我們如何看待不在我們周圍的世界。從經典攝影到高級教育和診斷再到遠程呈現和娛樂,本文將介紹光場顯示器是什麼、不同顯示器類型的工作原理以及它們的使用方式。

什麼是矩陣協議及其工作原理?

什麼是矩陣協議及其工作原理?

我們用來在線相互交流的大多數平台都綁定到一個提供商。但事情是這樣的,沒有技術上的原因。有一些在線聊天方式可以提供更大程度的隱私和自由。矩陣是其中一種方式。

UART、SPI 和 I2C 串行通信的工作原理,以及我們為何仍在使用它們

UART、SPI 和 I2C 串行通信的工作原理,以及我們為何仍在使用它們

無論是計算機外圍設備、智能電器、物聯網 (IoT) 設備,還是電子測量工具,它們都使用串行通信協議將不同的電子元件連接在一起。

什麼是網絡欺凌以及如何應對?

什麼是網絡欺凌以及如何應對?

無論是好是壞,互聯網讓更多的人能夠比以往任何時候都連接起來。就像人們將互聯網用於建設性和娛樂目的一樣,其他人也用它來執行一種新的欺凌:網絡欺凌。

99 個加密貨幣術語解釋:您需要的每個加密定義

99 個加密貨幣術語解釋:您需要的每個加密定義

加密貨幣是在稱為區塊鏈的分散計算機網絡上運行的數字貨幣。一些最重要且被廣泛接受的加密貨幣是比特幣、以太坊、Tether、Cardano、Binance Coin 和 USD Coin。

什麼是管理程序?它與虛擬機不同嗎?

什麼是管理程序?它與虛擬機不同嗎?

管理程序是一種用於創建虛擬機的軟件。虛擬機是對計算機的模擬。虛擬機用於在單個硬件上創建多個計算環境。

接入點與路由器——有何不同?

接入點與路由器——有何不同?

為您的家庭或企業設置 Wi-Fi 很容易讓人不知所措和困惑。這個過程涉及很多不同的術語和設備,每種 Wi-Fi 情況都是獨一無二的。擁有大量設備連接到大面積網絡的大型企業將需要與擁有少量設備的簡單家庭截然不同的東西。

存儲資產的 8 個最佳軟件加密錢包

存儲資產的 8 個最佳軟件加密錢包

如果您擁有任何數量的加密貨幣,您可能想知道如何最安全可靠地存儲它。鑑於加密貨幣是一種數字形式的貨幣,您不能將其放入床頭櫃或保險箱中。相反,它需要存儲在一個硬件或軟件上。