Sự khác biệt giữa văn bản ASCII và Unicode là gì?

Sự khác biệt giữa văn bản ASCII và Unicode là gì?

ASCII và Unicode đều là tiêu chuẩn đề cập đến sự biểu diễn kỹ thuật số của văn bản, cụ thể là các ký tự tạo nên văn bản. Tuy nhiên, hai tiêu chuẩn có sự khác biệt đáng kể, với nhiều thuộc tính phản ánh thứ tự tạo tương ứng của chúng.

Châu Mỹ so với vũ trụ

Không có gì ngạc nhiên khi Bộ luật trao đổi thông tin tiêu chuẩn của Mỹ (ASCII) phục vụ cho khán giả Mỹ, viết bằng bảng chữ cái tiếng Anh. Nó xử lý các chữ cái không có dấu, chẳng hạn như AZ và az, cộng với một số lượng nhỏ các ký hiệu dấu câu và ký tự điều khiển.

Sự khác biệt giữa văn bản ASCII và Unicode là gì?

Đặc biệt, không có cách nào thể hiện các từ cho vay được áp dụng từ các ngôn ngữ khác, chẳng hạn như café  trong ASCII, mà không làm phức tạp chúng bằng cách thay thế các ký tự có dấu (ví dụ:  café ). Các phần mở rộng ASCII được bản địa hóa đã được phát triển để đáp ứng nhu cầu của nhiều ngôn ngữ khác nhau, nhưng những nỗ lực này đã làm cho khả năng tương tác trở nên khó khăn và rõ ràng là đang kéo dài khả năng của ASCII.

Ngược lại, Bộ ký tự được mã hóa phổ quát (Unicode) nằm ở đầu đối diện của thang tham vọng. Unicode cố gắng phục vụ cho càng nhiều hệ thống chữ viết trên thế giới càng tốt, đến mức nó bao gồm các ngôn ngữ cổ và bộ biểu tượng biểu cảm, biểu tượng cảm xúc yêu thích của mọi người.

Bộ ký tự hoặc mã hóa ký tự?

Nói một cách dễ hiểu, tập ký tự là sự lựa chọn các ký tự (ví dụ: A-Z) trong khi mã hóa ký tự là ánh xạ giữa tập ký tự và giá trị có thể được biểu diễn bằng kỹ thuật số (ví dụ: A = 1, B = 2).

Tiêu chuẩn ASCII thực sự là cả hai: nó xác định tập hợp các ký tự mà nó đại diện và một phương pháp ánh xạ mỗi ký tự thành một giá trị số.

Ngược lại, từ Unicode được sử dụng trong một số ngữ cảnh khác nhau để có nghĩa là những thứ khác nhau. Bạn có thể coi nó như một thuật ngữ bao hàm tất cả, như ASCII, để chỉ một bộ ký tự và một số bảng mã. Tuy nhiên, bởi vì có một số bảng mã, thuật ngữ Unicode thường được sử dụng để chỉ tập hợp tổng thể các ký tự, hơn là cách chúng được ánh xạ.

Kích thước

Do phạm vi của nó, Unicode đại diện cho nhiều ký tự hơn ASCII. ASCII tiêu chuẩn sử dụng phạm vi 7 bit để mã hóa 128 ký tự riêng biệt . Mặt khác, Unicode quá lớn nên chúng ta cần sử dụng các thuật ngữ khác nhau chỉ để nói về nó!

Unicode phục vụ cho 1.111.998 điểm mã địa chỉ .  Một điểm mã gần giống với một không gian dành riêng cho một ký tự, nhưng tình huống phức tạp hơn rất nhiều so với khi bạn bắt đầu đi sâu vào chi tiết!

Một so sánh hữu ích hơn là có bao nhiêu tập lệnh (hoặc hệ thống viết) hiện đang được hỗ trợ. Tất nhiên, ASCII chỉ xử lý bảng chữ cái tiếng Anh, về cơ bản là hệ thống chữ viết La tinh hoặc La mã. Phiên bản Unicode được sản xuất vào năm 2020 còn tiến xa hơn rất nhiều: nó bao gồm hỗ trợ cho tổng số 154 tập lệnh.

Sự khác biệt giữa văn bản ASCII và Unicode là gì?

Kho

Phạm vi 7 bit của ASCII có nghĩa là mỗi ký tự được lưu trữ trong một byte 8 bit duy nhất; bit dự phòng không được sử dụng trong ASCII tiêu chuẩn. Điều này làm cho các phép tính kích thước trở nên tầm thường: độ dài của văn bản, tính bằng ký tự, là kích thước của tệp tính bằng byte.

Bạn có thể xác nhận điều này bằng chuỗi lệnh bash sau đây. Đầu tiên, chúng tôi tạo một tệp chứa 12 chữ cái văn bản:

$ echo -n 'Hello, world' > foo

Để kiểm tra xem văn bản có ở dạng mã ASCII hay không, chúng ta có thể sử dụng lệnh tệp :

$ file foo foo: ASCII text, with no line terminators

Cuối cùng, để có được số byte chính xác mà tệp chiếm, chúng ta sử dụng lệnh stat :

$ stat -f%z foo 12

Vì tiêu chuẩn Unicode xử lý nhiều ký tự hơn, nên tệp Unicode đương nhiên sẽ chiếm nhiều dung lượng lưu trữ hơn. Chính xác bao nhiêu phụ thuộc vào bảng mã.

Việc lặp lại cùng một nhóm lệnh trước đó, sử dụng một ký tự không thể được biểu diễn trong ASCII, sẽ cho kết quả sau:

$ echo -n '€' > foo $ file foo foo: UTF-8 Unicode text, with no line terminators $ stat -f%z foo 3

Ký tự đơn đó chiếm 3 byte trong một tệp Unicode. Lưu ý rằng bash đã tự động tạo tệp UTF-8 vì tệp ASCII không thể lưu trữ ký tự đã chọn (€). UTF-8 cho đến nay là bảng mã ký tự phổ biến nhất cho Unicode; UTF-16 và UTF-32 là hai bảng mã thay thế, nhưng chúng được sử dụng ít hơn nhiều.

UTF-8 là một mã hóa có độ rộng thay đổi, có nghĩa là nó sử dụng các lượng lưu trữ khác nhau cho các điểm mã khác nhau. Mỗi điểm mã sẽ chiếm từ một đến bốn byte, với mục đích là các ký tự phổ biến hơn yêu cầu ít dung lượng hơn, cung cấp một kiểu nén tích hợp sẵn. Điểm bất lợi là việc xác định yêu cầu về độ dài hoặc kích thước của một đoạn văn bản nhất định trở nên phức tạp hơn nhiều.

ASCII là Unicode, nhưng Unicode không phải là ASCII

Để tương thích ngược, 128 điểm mã Unicode đầu tiên đại diện cho các ký tự ASCII tương đương. Vì UTF-8 mã hóa mỗi ký tự này bằng một byte đơn, nên bất kỳ văn bản ASCII nào cũng là văn bản UTF-8. Unicode là một tập hợp siêu của ASCII.

Tuy nhiên, như được hiển thị ở trên, nhiều tệp Unicode không thể được sử dụng trong ngữ cảnh ASCII. Bất kỳ ký tự nào nằm ngoài giới hạn sẽ được hiển thị theo cách không mong muốn, thường là các ký tự được thay thế hoàn toàn khác với những ký tự đã định.

Cách sử dụng hiện đại

Đối với hầu hết các mục đích, ASCII phần lớn được coi là một tiêu chuẩn kế thừa. Ngay cả trong những tình huống chỉ hỗ trợ hệ chữ Latinh — ví dụ, trong đó hỗ trợ đầy đủ cho sự phức tạp của Unicode là không cần thiết — việc sử dụng UTF-8 thường thuận tiện hơn và tận dụng khả năng tương thích ASCII của nó.

Đặc biệt, các trang web phải được lưu và truyền bằng UTF-8, là mặc định cho HTML5. Điều này trái ngược với trang web trước đó, được xử lý bằng ASCII theo mặc định trước đó đã được thay thế bằng 1 Latin.

Một tiêu chuẩn đang thay đổi

Lần sửa đổi cuối cùng của ASCII diễn ra vào năm 1986.

Ngược lại, Unicode tiếp tục được cập nhật hàng năm. Các tập lệnh, ký tự mới và đặc biệt là các biểu tượng cảm xúc mới thường xuyên được thêm vào. Chỉ với một phần nhỏ trong số này được phân bổ, bộ nhân vật đầy đủ có khả năng phát triển và phát triển trong tương lai gần.

Liên quan:  Giải thích 100 biểu tượng cảm xúc phổ biến nhất

ASCII so với Unicode

ASCII phục vụ mục đích của nó trong nhiều thập kỷ, nhưng Unicode hiện đã thay thế nó một cách hiệu quả cho tất cả các mục đích thực tế khác ngoài các hệ thống kế thừa. Unicode lớn hơn và do đó, biểu cảm hơn. Nó đại diện cho một nỗ lực hợp tác trên toàn thế giới và cung cấp tính linh hoạt cao hơn nhiều, mặc dù phải trả giá bằng một số phức tạp.


Mã hóa đồng hình là gì?

Mã hóa đồng hình là gì?

Một từ được xuất hiện rất nhiều gần đây là mã hóa đồng hình. Nhiều công ty và dịch vụ trực tuyến đang chuyển đổi mô hình mã hóa của họ thành một loại mã hóa đồng hình, quảng cáo rằng nó mang lại sự riêng tư và bảo mật cho người dùng tốt hơn.

Màn hình trường ánh sáng là gì và hoạt động như thế nào?

Màn hình trường ánh sáng là gì và hoạt động như thế nào?

Màn hình trường ánh sáng đang dần thay đổi cách chúng ta nhìn thế giới xung quanh. Hay đúng hơn, cách chúng ta nhìn thế giới không xung quanh chúng ta. Từ nhiếp ảnh cổ điển đến giáo dục và chẩn đoán nâng cao đến hiện diện và giải trí từ xa, bài viết này sẽ xem xét màn hình trường ánh sáng là gì, cách hoạt động của các loại màn hình khác nhau và cách chúng được sử dụng.

Giao thức ma trận là gì và nó hoạt động như thế nào?

Giao thức ma trận là gì và nó hoạt động như thế nào?

Hầu hết các nền tảng chúng tôi sử dụng để giao tiếp với nhau trực tuyến được gắn với một nhà cung cấp duy nhất. Nhưng không có lý do kỹ thuật nào để mọi thứ diễn ra theo cách này. Có nhiều cách để trò chuyện trực tuyến mang lại mức độ riêng tư và tự do cao hơn. Ma trận là một trong những cách đó.

Cách thức hoạt động của UART, SPI và I2C Serial Communications, và tại sao chúng ta vẫn sử dụng chúng

Cách thức hoạt động của UART, SPI và I2C Serial Communications, và tại sao chúng ta vẫn sử dụng chúng

Cho dù đó là thiết bị ngoại vi máy tính, thiết bị thông minh, thiết bị Internet vạn vật (IoT) hay công cụ đo lường điện tử, chúng đều sử dụng giao thức truyền thông nối tiếp để kết nối các thành phần điện tử khác nhau với nhau.

Đe doạ trực tuyến là gì và bạn có thể đối phó với nó như thế nào?

Đe doạ trực tuyến là gì và bạn có thể đối phó với nó như thế nào?

Internet đã cho phép nhiều người kết nối hơn bao giờ hết, cho dù tốt hơn hay tồi tệ hơn. Nhiều người sử dụng Internet cho mục đích xây dựng và vui vẻ, thì những người khác sử dụng nó để thực hiện một kiểu bắt nạt mới: bắt nạt trên mạng.

Hypervisor là gì? Nó có khác với máy ảo không?

Hypervisor là gì? Nó có khác với máy ảo không?

Hypervisor là một phần mềm được sử dụng để tạo máy ảo. Máy ảo là một mô phỏng của máy tính. Máy ảo được sử dụng để tạo nhiều môi trường máy tính trên một phần cứng.

Điểm truy cập so với Bộ định tuyến — Sự khác biệt là gì?

Điểm truy cập so với Bộ định tuyến — Sự khác biệt là gì?

Việc thiết lập Wi-Fi cho gia đình hoặc cơ sở kinh doanh của bạn có thể dễ dàng trở nên quá tải và khó hiểu. Có khá nhiều thuật ngữ và thiết bị khác nhau tham gia vào quá trình này và mỗi tình huống Wi-Fi là duy nhất. Một doanh nghiệp lớn với rất nhiều thiết bị được kết nối với mạng trên một khu vực rộng lớn sẽ cần những thứ khác biệt đáng kể so với một ngôi nhà đơn giản với một vài thiết bị.

8 ví tiền điện tử phần mềm tốt nhất để lưu trữ tài sản của bạn

8 ví tiền điện tử phần mềm tốt nhất để lưu trữ tài sản của bạn

Nếu bạn sở hữu bất kỳ lượng tiền điện tử nào, bạn có thể tự hỏi làm thế nào để lưu trữ nó một cách an toàn và bảo mật nhất. Cho rằng tiền điện tử là một dạng tiền kỹ thuật số, bạn không thể chỉ để nó trong ngăn kéo cạnh giường ngủ hoặc két sắt của mình. Thay vào đó, nó cần được lưu trữ trên một phần cứng hoặc phần mềm.

Trọng lượng kỹ thuật số theo dõi Tonal và Nordic hoạt động như thế nào?

Trọng lượng kỹ thuật số theo dõi Tonal và Nordic hoạt động như thế nào?

Bạn đã từng xem quảng cáo về máy tập thể dục sử dụng trọng lượng kỹ thuật số và tự hỏi đó là cái quái gì chưa? Hay bạn đã nhìn vào những chiếc máy mới kiểu dáng đẹp và gọn gàng này và tự hỏi tất cả sự phản kháng đến từ đâu?

10 câu hỏi thường gặp về ô tô điện mà bạn luôn muốn hỏi

10 câu hỏi thường gặp về ô tô điện mà bạn luôn muốn hỏi

Xe điện (EV) đang trở nên phổ biến hơn rất nhiều. Tính đến năm 2020, có khoảng 1,8 triệu xe điện đã được đăng ký ở Mỹ - gấp ba lần so với năm 2016. Trên toàn thế giới, ước tính có khoảng 10,2 triệu xe điện vào năm 2020.

Một eGPU mini Mac có thể tăng hiệu suất đồ họa

Một eGPU mini Mac có thể tăng hiệu suất đồ họa

Sử dụng eGPU với Mac mini của bạn có thể là một cách tuyệt vời để tận dụng tối đa không gian nhỏ trong khi vẫn đạt được hiệu suất đồ họa tuyệt vời cho các tác vụ như chơi game và xử lý hình ảnh. Trong hướng dẫn này, hãy giải thích rõ ràng những gì một eGPU có thể thêm vào thiết lập của bạn, cách chúng hoạt động và liệu nó có đáng để chi thêm một số tiền cho bộ dụng cụ nhỏ gọn này hay không.

Âm thanh 16 bit so với 24 bit so với 32 bit

Âm thanh 16 bit so với 24 bit so với 32 bit

Khi xử lý âm thanh kỹ thuật số, bạn sẽ thường thấy các thuật ngữ như độ phân giải âm thanh, tốc độ lấy mẫu và các thuật ngữ khác mô tả đặc điểm tệp. Điều quan trọng là phải biết điều gì phân biệt âm thanh tốt và âm thanh xấu, vì vậy sẽ giúp bạn làm quen với các thuật ngữ này.

Xbox Series X so với PS5: Cái nào có nhiều Teraflop nhất?

Xbox Series X so với PS5: Cái nào có nhiều Teraflop nhất?

Một thế hệ bảng điều khiển mới đang đến với chúng tôi. Sự xuất hiện của PlayStation 5 và Xbox Series X đánh dấu bước tiến tiếp theo của trò chơi console. Như bạn có thể mong đợi, các game thủ muốn biết máy chơi game nào tốt hơn? Tùy chọn chơi game nào sẽ mang lại hiệu quả tốt nhất cho đồng tiền của bạn trong tương lai gần?

Bộ điều hợp đường dây điện so với Wi-Fi lưới: Điều gì tốt nhất cho ngôi nhà của bạn?

Bộ điều hợp đường dây điện so với Wi-Fi lưới: Điều gì tốt nhất cho ngôi nhà của bạn?

Nếu bạn không thể kết nối Internet ở một số khu vực trong nhà, có một số cách để giải quyết vấn đề. Hai trong số các tùy chọn phổ biến nhất là bộ điều hợp đường dây điện và Wi-Fi lưới.

Làm thế nào để lực lượng và phản hồi xúc giác làm cho trò chơi trở nên hấp dẫn hơn?

Làm thế nào để lực lượng và phản hồi xúc giác làm cho trò chơi trở nên hấp dẫn hơn?

Một phần quan trọng trong việc thưởng thức trò chơi của chúng ta là sự đắm chìm, cho phép bản thân đi sâu vào thế giới ảo như thể bạn đang thực sự ở đó. Một điều có thể làm tăng sự đắm chìm của bạn là mô phỏng cảm ứng vật lý trong thế giới thực, đưa bạn đến gần với thế giới ảo.

5 phát minh hay nhất của Nikola Teslas và cách chúng định hình thế giới

5 phát minh hay nhất của Nikola Teslas và cách chúng định hình thế giới

Khi bạn nghĩ đến từ Tesla, hình ảnh những chiếc ô tô điện và tỷ phú sẽ xuất hiện tự nhiên. Tuy nhiên, nhà phát minh Nikola Tesla, người được Elon Musk đặt tên cho công ty của mình, đã đóng một vai trò rất lớn trong lịch sử và thay đổi cuộc sống của nhiều người. Vậy Nikola Tesla là ai và ông ấy chịu trách nhiệm cho những phát minh quan trọng nào?

DNS qua HTTPS: DNS được mã hóa có chậm hơn không?

DNS qua HTTPS: DNS được mã hóa có chậm hơn không?

Khi chọn giao thức bảo mật và kết nối internet phù hợp, nhiều yếu tố có thể ảnh hưởng đến quyết định của bạn, từ mức độ dễ dàng và thuận tiện để triển khai, mức độ an toàn mà nó giữ cho dữ liệu của bạn và tốc độ kết nối tổng thể.

Ví đa chữ ký là gì?

Ví đa chữ ký là gì?

Một mối quan tâm lớn đối với những người nắm giữ tiền điện tử là bảo mật. Các mối lo ngại về bảo mật thường liên quan đến các giao thức bảo mật và tính bảo mật của ví tiền điện tử, những mối đe dọa đáng kể đối với tiền có thể bị tin tặc giả mạo hoặc đánh cắp.

Huy động vốn từ cộng đồng là gì và bạn có thể tin tưởng vào chiến dịch Kickstarter không?

Huy động vốn từ cộng đồng là gì và bạn có thể tin tưởng vào chiến dịch Kickstarter không?

Kickstarter, Indiegogo, Unbound, Blurb ... ngày nay cơ hội cho các chiến dịch huy động vốn từ cộng đồng là rất lớn. Nhưng nếu bạn chưa bao giờ ủng hộ một dự án trên Kickstarter và không thực sự biết huy động vốn từ cộng đồng là gì - hoặc nếu bạn lo ngại về độ tin cậy của chúng - thì chúng tôi sẽ giúp bạn.

HDMI-CEC là gì và nó có tác dụng gì?

HDMI-CEC là gì và nó có tác dụng gì?

HDMI đã là cáp tiêu chuẩn để kết nối các thiết bị âm thanh và video trong một thời gian, nhưng không phải tất cả các tính năng của nó đều được nhiều người biết đến. Bạn có thể đã thấy tùy chọn cho HDMI-CEC trên TV, hệ thống rạp hát gia đình hoặc tương tự và tự hỏi điều này có tác dụng gì.

Mã hóa đồng hình là gì?

Mã hóa đồng hình là gì?

Một từ được xuất hiện rất nhiều gần đây là mã hóa đồng hình. Nhiều công ty và dịch vụ trực tuyến đang chuyển đổi mô hình mã hóa của họ thành một loại mã hóa đồng hình, quảng cáo rằng nó mang lại sự riêng tư và bảo mật cho người dùng tốt hơn.

Ảnh Bitmap là gì?

Ảnh Bitmap là gì?

Đối với hầu hết mọi người, phương tiện kỹ thuật số là một phần trong cuộc sống hàng ngày của bạn. Nhưng chúng tôi không phải lúc nào cũng nghĩ về cách nó được tạo ra.

Màn hình trường ánh sáng là gì và hoạt động như thế nào?

Màn hình trường ánh sáng là gì và hoạt động như thế nào?

Màn hình trường ánh sáng đang dần thay đổi cách chúng ta nhìn thế giới xung quanh. Hay đúng hơn, cách chúng ta nhìn thế giới không xung quanh chúng ta. Từ nhiếp ảnh cổ điển đến giáo dục và chẩn đoán nâng cao đến hiện diện và giải trí từ xa, bài viết này sẽ xem xét màn hình trường ánh sáng là gì, cách hoạt động của các loại màn hình khác nhau và cách chúng được sử dụng.

Giao thức ma trận là gì và nó hoạt động như thế nào?

Giao thức ma trận là gì và nó hoạt động như thế nào?

Hầu hết các nền tảng chúng tôi sử dụng để giao tiếp với nhau trực tuyến được gắn với một nhà cung cấp duy nhất. Nhưng không có lý do kỹ thuật nào để mọi thứ diễn ra theo cách này. Có nhiều cách để trò chuyện trực tuyến mang lại mức độ riêng tư và tự do cao hơn. Ma trận là một trong những cách đó.

Cách thức hoạt động của UART, SPI và I2C Serial Communications, và tại sao chúng ta vẫn sử dụng chúng

Cách thức hoạt động của UART, SPI và I2C Serial Communications, và tại sao chúng ta vẫn sử dụng chúng

Cho dù đó là thiết bị ngoại vi máy tính, thiết bị thông minh, thiết bị Internet vạn vật (IoT) hay công cụ đo lường điện tử, chúng đều sử dụng giao thức truyền thông nối tiếp để kết nối các thành phần điện tử khác nhau với nhau.

Đe doạ trực tuyến là gì và bạn có thể đối phó với nó như thế nào?

Đe doạ trực tuyến là gì và bạn có thể đối phó với nó như thế nào?

Internet đã cho phép nhiều người kết nối hơn bao giờ hết, cho dù tốt hơn hay tồi tệ hơn. Nhiều người sử dụng Internet cho mục đích xây dựng và vui vẻ, thì những người khác sử dụng nó để thực hiện một kiểu bắt nạt mới: bắt nạt trên mạng.

Giải thích 99 thuật ngữ về tiền điện tử: Mọi định nghĩa về tiền điện tử mà bạn cần

Giải thích 99 thuật ngữ về tiền điện tử: Mọi định nghĩa về tiền điện tử mà bạn cần

Tiền điện tử là loại tiền kỹ thuật số chạy trên mạng máy tính phi tập trung được gọi là blockchain. Một số loại tiền điện tử quan trọng nhất và được chấp nhận rộng rãi là Bitcoin, Ethereum, Tether, Cardano, Binance Coin và USD Coin.

Hypervisor là gì? Nó có khác với máy ảo không?

Hypervisor là gì? Nó có khác với máy ảo không?

Hypervisor là một phần mềm được sử dụng để tạo máy ảo. Máy ảo là một mô phỏng của máy tính. Máy ảo được sử dụng để tạo nhiều môi trường máy tính trên một phần cứng.

Điểm truy cập so với Bộ định tuyến — Sự khác biệt là gì?

Điểm truy cập so với Bộ định tuyến — Sự khác biệt là gì?

Việc thiết lập Wi-Fi cho gia đình hoặc cơ sở kinh doanh của bạn có thể dễ dàng trở nên quá tải và khó hiểu. Có khá nhiều thuật ngữ và thiết bị khác nhau tham gia vào quá trình này và mỗi tình huống Wi-Fi là duy nhất. Một doanh nghiệp lớn với rất nhiều thiết bị được kết nối với mạng trên một khu vực rộng lớn sẽ cần những thứ khác biệt đáng kể so với một ngôi nhà đơn giản với một vài thiết bị.

8 ví tiền điện tử phần mềm tốt nhất để lưu trữ tài sản của bạn

8 ví tiền điện tử phần mềm tốt nhất để lưu trữ tài sản của bạn

Nếu bạn sở hữu bất kỳ lượng tiền điện tử nào, bạn có thể tự hỏi làm thế nào để lưu trữ nó một cách an toàn và bảo mật nhất. Cho rằng tiền điện tử là một dạng tiền kỹ thuật số, bạn không thể chỉ để nó trong ngăn kéo cạnh giường ngủ hoặc két sắt của mình. Thay vào đó, nó cần được lưu trữ trên một phần cứng hoặc phần mềm.