Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản

1. Phân loại và biểu diễn thông tin trong máy tính

  • Biểu diễn thông tin là quá trình mã hóa thông tin thành dạng mà máy tính có thể xử lí.
  • Các kiểu dữ liệu thường gặp: văn bản, số, hình ảnh, âm thanh và lôgic.
  • Việc phân loại dữ liệu giúp chọn cách biểu diễn phù hợp, thuận lợi cho xử lí thông tin.
Một số kiểu dữ liệu cơ bản

2. Biểu diễn dữ liệu văn bản

a) Bảng mã ASCII

  • ASCII ban đầu dùng 7 bit, biểu diễn được 27 = 128 ký tự, chủ yếu cho tiếng Anh.
  • ASCII mở rộng dùng 8 bit, biểu diễn được 28 = 256 ký tự, nhưng vẫn không đủ cho các ngôn ngữ khác như tiếng Việt.

b) Bảng mã Unicode và tiếng Việt

  • Unicode được xây dựng để biểu diễn văn bản của nhiều ngôn ngữ khác nhau.
  • UTF-8 là hệ thống mã hóa phổ biến của Unicode, sử dụng từ 1 đến 4 byte để biểu diễn các kí tự trên thế giới, trong đó tiếng Việt sử dụng 1 đến 3 byte, cụ thể:
    • Ký tự latinh không dấu: 1 byte.
    • Ký tự tiếng Việt có dấu và chữ “Đ/đ”: 2 byte.
    • Một số ký tự đặc biệt: 3 byte.

c) Số hóa văn bản

  • Văn bản được lưu trữ dưới dạng tệp văn bản.
  • Việc số hóa văn bản được thực hiện bằng các phần mềm soạn thảo văn bản như Word, Writer.
  • Ngoài ra có thể nhập văn bản bằng công nghệ nhận dạng tiếng nói.

Views: 7

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *