1. Phân loại và biểu diễn thông tin trong máy tính
- Biểu diễn thông tin là quá trình mã hóa thông tin thành dạng mà máy tính có thể xử lí.
- Các kiểu dữ liệu thường gặp: văn bản, số, hình ảnh, âm thanh và lôgic.
- Việc phân loại dữ liệu giúp chọn cách biểu diễn phù hợp, thuận lợi cho xử lí thông tin.

2. Biểu diễn dữ liệu văn bản
a) Bảng mã ASCII
- ASCII ban đầu dùng 7 bit, biểu diễn được 27 = 128 ký tự, chủ yếu cho tiếng Anh.
- ASCII mở rộng dùng 8 bit, biểu diễn được 28 = 256 ký tự, nhưng vẫn không đủ cho các ngôn ngữ khác như tiếng Việt.
b) Bảng mã Unicode và tiếng Việt
- Unicode được xây dựng để biểu diễn văn bản của nhiều ngôn ngữ khác nhau.
- UTF-8 là hệ thống mã hóa phổ biến của Unicode, sử dụng từ 1 đến 4 byte để biểu diễn các kí tự trên thế giới, trong đó tiếng Việt sử dụng 1 đến 3 byte, cụ thể:
- Ký tự latinh không dấu: 1 byte.
- Ký tự tiếng Việt có dấu và chữ “Đ/đ”: 2 byte.
- Một số ký tự đặc biệt: 3 byte.
c) Số hóa văn bản
- Văn bản được lưu trữ dưới dạng tệp văn bản.
- Việc số hóa văn bản được thực hiện bằng các phần mềm soạn thảo văn bản như Word, Writer.
- Ngoài ra có thể nhập văn bản bằng công nghệ nhận dạng tiếng nói.
Views: 7


