จากที่กล่าวมาแล้วว่า สารสนเทศ คือ ข้อมูลที่ผ่านการประมวลผล
การรประมวลผลข้อมูล ส่วนใหญ่จะใช้คอมพิวเตอร์ ช่วยเพื่อความรวดเร็ว
แม่นยำ ดังนั้นข้อมูลที่เก็บรวบรวมมาเพื่อให้คอมพิวเตอร์ประมวลผล
จะต้องอยู่ในรูปที่คอมพิวเตอร์เข้าใจ
จึงจำเป็นต้องหาวิธีแทนข้อมูลซึ่งเป็นชุดตัวอักขระ |
ปกติการทำงานของเครื่องคอมพิวเตอร์ใช้สัญญาณอิเล็กทรอนิกส์ซึ่งมี
2 สถานะคือ ปิดและเปิด จึงมีการกำหนดใช้ตัวเลข 0 และ 1 แทนสถานะทั้งสอง
และมีการกำหนดรหัสแทนอักขระด้วยชุดของตัวเลขซึ่งประกอบไปด้วยเลข 0 และ 1
ซึ่งเป็นตัวเลขในระบบเลขฐานสอง (binary digit) |
การจัดเก็บข้อมูลในหน่วยความจำของคอมพิวเตอร์มีหน่วยเล็กที่สุดคือ
บิต (bit) ซึ่งสามารถใช้แทนเลขฐานสอง 1 หลัก ไบต์ (byte) ประกอบด้วย 8 บิต
ซึ่งแทนเลขฐานสองได้ 8 หลัก
หน่วยความจำแต่ละไบต์จะมีหมายเลขกำกับอยู่สำหรับเรียกใช้เรียกว่า
เลขที่ตำแหน่ง (address)
ข้อมูลที่ป้อนเข้าเครื่องคอมพิวเตอร์จะถูกเปลี่ยนเป็นรหัสเก็บไว้ในหน่วยความจำเพื่อใช้ในการประมวลผลต่อไป
รหัสแทนข้อมูลโดยทั่วๆ ไป ที่ใช้กันแพร่หลาย ได้แก่ รหัสแอสกี (ASCII :
American Standard Code for Information Interchange) และ รหัส เอบซีดิก
(EBCDIC : Extended Binary Code Decimal Interchange Code)
ส่วนรหัสแทนข้อมูลที่เป็น ตัวเลข หรือ รหัสจำนวนจะมีการกำนดหลายรูปแบบ
ตามชนิดของค่าของจำนวนนั้นๆ
|
เพื่อให้การแทนอักขระต่าง ๆ ด้วยตัวเลขฐานสอง
ได้ครบจึงมีการกำหนดให้ใช้ตัวเลขฐานสอง 8 บิต ซึ่งเรียกว่า 1 ไบต์ (byte)
แทนอักขระ 1 ตัว เช่น |
0 = 1 บิต (bit) |
1 = 1 บิต (bit) |
สามารถนำมาแทนข้อมูล เช่น |
01000001 = 1
ไบต์ (byte) |
ใช้แทนอักษร A |
01000010 = 1
ไบต์ (byte) |
ใช้แทนอักษร B |
01000011 = 1
ไบต์ (byte) |
ใช้แทนอักษร C |
ตัวอย่าง คำว่า "CAT"
เขียนแทนได้ด้วย |
01000011 01000001
01010100 | |
รหัสแอสกี (ASCII) |
การกำหนดรหัสแทนข้อมูลขึ้นอยู่กับชนิดของข้อมูลและคอมพิวเตอร์
รหัสที่ใช้แทนตัวอักขระที่เป็นมาตรฐานแบบหนึ่ง เรียกว่า รหัสแอสกี (American
Standard Code for Information Interchange : ASCII)
รหัสแอสกีเป็นรหัสที่กำหนดขึ้นโดย
หน่วยงานกำหนดมาตรฐานของสหรัฐอเมริกาใช้กันแพร่หลายกับระบบคอมพิวเตอร์ทั่วไปและระบบสื่อสารข้อมูล
รหัสอักขระแต่ละตัวประกอบด้วย 8 บิต คือ |
|
ตัวเลขฐานสอง 8 บิตหรือ 1 ไบต์
สามารถใช้แทนรหัสต่างๆ ได้ถึง 256 ตัว
แต่รหัสตัวอักษรภาษาอังกฤษทั้งหมดมีจำนวนรวมกันไม่เกิน 128 ตัว |
ดังนั้นสำนักงานมาตรฐานผลิตภัณฑ์อุสาหกรรมจึงได้กำหนดภาษาไทยเพิ่มเติมเพื่อใช้ในงานสารสนเทศเป็นภาษาไทยได้
เช่น |
10100001 = 1 ไบต์
(byte) |
ใช้แทนตัวอักษร
ก |
10100010 = 1 ไบต์
(byte) |
ใช้แทนตัวอักษร
ข |
10100100 = 1 ไบต์
(byte) |
ใช้แทนตัวอักษร
ค |
ตัวอย่าง คำว่า "แดง"
เขียนแทนได้ด้วย |
11100001 10110100
10100111 | |
รหัสเอบซิดิก (EBCDIC) |
รหัสเอบซิดิก (EBCDIC) ย่อมาจาก Extened Binary Coded
Decimal Interchange Code
เป็นการกำหนดรหัสแทนตัวอักขระที่ใช้กันแพร่หลายอีกแบบหนึ่ง การกำหนดรหัสจะใช้
8 บิต หรือ 1 ไบต์ต่อ 1 อักขระ
เหมือนกับรหัสแอสกีแต่แบบของรหัสที่กำหนดจะแตกต่างกัน คือ |
|