SBCS, MBCS, WBCS

Posted in SW개발 // Posted at 2023. 10. 31. 08:20
728x90
이 글은 제가 과거에 운영했던 사이트인 http://dotnet.mkexdev.net 의 글을 옮겨온 것입니다. 원본 글은 2009년 10월에 작성되었습니다.

그 전에 운영했었던 사이트(mkex.pe.kr)은 흔적도 없이 사라 졌습니다. 그속의 글들도 모두... 그래서 이 사이트도 사라지기 전에 옮기고 싶은 글을 조금씩 이 블로그로 이동시키려 합니다.
(원본글) http://dotnet.mkexdev.net/Article/Content.aspx?parentCategoryID=2&categoryID=9&ID=525

 

문자 인코딩 체계(방식)에 대한 분류입니다.

SBCS(Single Byte Character Set)

1바이트로 문자를 인코딩합니다. ASCII 인코딩이 대표적인 SBCS 입니다
ASCII 개요와 코드표는 다음의 글을 참고해 주세요.
=> ASCII

MBCS(Multi Byte Character Set)

1바이트로는 최대 256 글자만 표현할 수 있기 때문에 영어권 이외의 나라에서는 그 나라 문자를 인코딩 할 수 없기 때문에 바이트를 하나 더 사용합니다. 즉 최대 2바이트로 인코딩 합니다. 2바이트로 문자를 표현하기 때문에 DBCS(Double Byte Character Set)이라고도 합니다.

다만 MBCS 는 무조건 2바이트가 아니라 영어와 같이 1바이트로 표현 가능한 문자는 여전히 1바이트 사용합니다.
즉 문자에 따라 1byte 혹은 2byte 를 사용합니다(MBCS = SBCS + DBCS라 할 수 있습니다)

대표적으로 euc-kr 이나 한글 윈도우 기본 ANSI 인코딩은 코드페이지 949가 MBCS에 해당합니다
euc-kr 전체 코드표는 다음의 링크를 참조해 주세요
=> euc-kr 전체 코드표


WBCS(Wide Character Set)

MBCS 는 각 나라마다 그 정의가 다릅니다
따라서 전 세계 글자를 하나의 코드표로 정의하는게 필요 했는데, 바로 그렇게 탄생한 것이 유니코드(UniCode) 입니다. 유니코드를 WBCS라 합니다

유니코드에 대한 저의 에피소드는 다음글을 참조해 주세요
=> 이런... 계집 녀


아래 그림은 대표적인 인코딩에 따른 문자 길이와 바이트 수, 그리고 코드페이지를 보여줍니다
(닷넷으로 작성된 프로그램 입니다)



소스참고---------------------------------------------------------------------------
        private void btnDefault_Click(object sender, EventArgs e)
        {
            this.txtDefaultLenght.Text = str.Length.ToString();
            this.txtDefaultByte.Text = Encoding.Default.GetByteCount(str.ToCharArray()).ToString(); 
            //this.txtDefaultByte.Text = Encoding.GetEncoding("ks_c_5601-1987").CodePage.ToString();
            this.txtDefaultCodePage.Text = Encoding.Default.CodePage.ToString();
        }

        private void btnUnicode_Click(object sender, EventArgs e)
        {
            this.txtUnicodeLength.Text = str.Length.ToString();           
            this.txtUnicodeByte.Text = Encoding.Unicode.GetByteCount(str.ToCharArray()).ToString();
            //this.txtUnicodeCodePage.Text = Encoding.GetEncoding("utf-16").CodePage.ToString();
            this.txtUnicodeCodePage.Text = Encoding.Unicode.CodePage.ToString();
        }

        private void btnUTF8_Click(object sender, EventArgs e)
        {
            this.txtUTF8Length.Text = str.Length.ToString();
            this.txtUTF8Byte.Text = Encoding.UTF8.GetByteCount(str.ToCharArray()).ToString();
            //this.txtUTF8CodePage.Text = Encoding.GetEncoding("utf-8").CodePage.ToString();
            this.txtUTF8CodePage.Text = Encoding.UTF8.CodePage.ToString();
        }

        private void btnEucKr_Click(object sender, EventArgs e)
        {
            this.txtEucLength.Text = str.Length.ToString();
            this.txtEucByte.Text = Encoding.GetEncoding("euc-kr").GetByteCount(str.ToCharArray()).ToString();
            this.txtEucCodePage.Text = Encoding.GetEncoding("euc-kr").CodePage.ToString();
        }

----------------------------------------------------------------------------------

참고>

* chcp
현재 운영체제의 기본 ANSI 코드 페이지를 확인하려면 Command 창에서 다음 명령어를 확인하세요
chcp : 현재 활성 코드 페이지 확인
chcp xxx : 코드 페이지 변경


* charmap
그리고 현재 운영체제의 유니코드 문자표를 확인하려면 Command 창에서 charmap 명령어로 확인하세요

728x90

ASCII

Posted in SW개발 // Posted at 2023. 10. 27. 09:04
728x90
이 글은 제가 과거에 운영했던 사이트인 http://dotnet.mkexdev.net 의 글을 옮겨온 것입니다. 원본 글은 2008년 5월에 작성되었습니다.

그 전에 운영했었던 사이트(mkex.pe.kr)은 흔적도 없이 사라 졌습니다. 그속의 글들도 모두... 그래서 이 사이트도 사라지기 전에 옮기고 싶은 글을 조금씩 이 블로그로 이동시키려 합니다.
(원본글) http://dotnet.mkexdev.net/Article/Content.aspx?parentCategoryID=2&categoryID=9&ID=102

 

ASCII 정의
미국 정보 교환 표준 부호(American Standard Code for Information Interchange) 의 약자인 ASCII  영문 알파벳을 사용하는 대표적인 문자 인코딩(Encoding) 이다.

컴퓨터는 0 1 로 구성된 진수밖에 인식하지 못한다.
이 말은 곧 컴퓨터는 숫자밖에 인식하지 못한다는 의미인 것이다.

그렇다면 컴퓨터에게 문자를 인식하도록 할려면???

그렇다. 숫자밖에 인식하지 못하는 컴퓨터에게 인간의 언어인 문자를 인식하도록 하려면 여전히 숫자를 사용할 수 밖에 없다.

그렇다면 숫자를 이용해서 문자를 표현하는 규칙이 있어야 한다.
즉 숫자  N 은 문자 X 와 일디일 매핑(mapping) 시키는 개념을 규칙화 시켜야 한다.
이러한 매핑 규칙을 정의해 놓은 것이 바로 ASCII 코드표 이다.

 아래와 같은 코드를 보자

char c = ‘A’

내부적으로 c 에는 65 라는 정수가 저장된다.

ASCII 구성
 128  (7비트로 표현 가능한 범위 , 2의 7승 = 128) 로 구성

33  : 출력 불가능한 제어 문자들
95  : 출력 가능한 문자(공백 포함)
           52 : 영문 알파벳 대소문자, 10개의 숫자, 32개의 특수문자, 1개의 공백문자

구분 개수 구간  
출력 불가능
제어 문자
33 0 ~ 31
127
 
출력 가능 문자(공백포함)
 
95 32 ~ 126 구분 개수 구간
영문 52 65 ~ 90  (대문자)
97 ~ 122 (소문자)
특수문자 32 33 ~ 47
58 ~ 64
91 ~ 96
123 ~ 126
숫자 10 48 ~ 57
공백문자 1 32

 

출력 가능한 95개 문자 (32  ~ 126 )

 



ASCII 코드표

DEC HEX OCT Char   DEC HEX OCT Char   DEC HEX OCT Char
0 00 000 Ctrl-@ NUL 43 2B 053 + 86 56 126 V
1 01 001 Ctrl-A SOH 44 2C 054 , 87 57 127 W
2 02 002 Ctrl-B STX 45 2D 055 - 88 58 130 X
3 03 003 Ctrl-C ETX 46 2E 056 . 89 59 131 Y
4 04 004 Ctrl-D EOT 47 2F 057 / 90 5A 132 Z
5 05 005 Ctrl-E ENQ 48 30 060 0 91 5B 133 [
6 06 006 Ctrl-F ACK 49 31 061 1 92 5C 134 \
7 07 007 Ctrl-G BEL 50 32 062 2 93 5D 135 ]
8 08 010 Ctrl-H BS 51 33 063 3 94 5E 136 ^
9 09 011 Ctrl-I HT 52 34 064 4 95 5F 137 _
10 0A 012 Ctrl-J LF 53 35 065 5 96 60 140 `
11 0B 013 Ctrl-K VT 54 36 066 6 97 61 141 a
12 0C 014 Ctrl-L FF 55 37 067 7 98 62 142 b
13 0D 015 Ctrl-M CR 56 38 070 8 99 63 143 c
14 0E 016 Ctrl-N SO 57 39 071 9 100 64 144 d
15 0F 017 Ctrl-O SI 58 3A 072 : 101 65 145 e
16 10 020 Ctrl-P DLE 59 3B 073 ; 102 66 146 f
17 11 021 Ctrl-Q DCI 60 3C 074 <  103 67 147 g
18 12 022 Ctrl-R DC2 61 3D 075 = 104 68 150 h
19 13 023 Ctrl-S DC3 62 3E 076 >  105 69 151 i
20 14 024 Ctrl-T DC4 63 3F 077 ? 106 6A 152 j
21 15 025 Ctrl-U NAK 64 40 100 @ 107 6B 153 k
22 16 026 Ctrl-V SYN 65 41 101 A 108 6C 154 l
23 17 027 Ctrl-W ETB 66 42 102 B 109 6D 155 m
24 18 030 Ctrl-X CAN 67 43 103 C 110 6E 156 n
25 19 031 Ctrl-Y EM 68 44 104 D 111 6F 157 o
26 1A 032 Ctrl-Z SUB 69 45 105 E 112 70 160 p
27 1B 033 Ctrl-[ ESC 70 46 106 F 113 71 161 q
28 1C 034 Ctrl-\ FS 71 47 107 G 114 72 162 r
29 1D 035 Ctrl-] GS 72 48 110 H 115 73 163 s
30 1E 036 Ctrl-^ RS 73 49 111 I 116 74 164 t
31 1F 037 Ctrl_ US 74 4A 112 J 117 75 165 u
32 20 040 Space 75 4B 113 K 118 76 166 v
33 21 041 ! 76 4C 114 L 119 77 167 w
34 22 042 " 77 4D 115 M 120 78 170 x
35 23 043 # 78 4E 116 N 121 79 171 y
36 24 044 $ 79 4F 117 O 122 7A 172 z
37 25 045 % 80 50 120 P 123 7B 173 {
38 26 046 & 81 51 121 Q 124 7C 174 |
39 27 047 ' 82 52 122 R 125 7D 175 }
40 28 050 ( 83 53 123 S 126 7E 176 ~
41 29 051 ) 84 54 124 T 127 7F 177 DEL
42 2A 052 * 85 55 125 U  

 

 인쇄 불 가능한 제어 문자 
33개에 해당하는 인쇄 불가능 아스키 문자는 프린터와 같은 일부 제어 주변장치를 제어하는데 사용되는 제어 문자이다.

10진수 문자   10진수 문자
0 NUL(null)   16 DLE(data link escape)
1 SOH(start of heading)   17 DC1(device control 1)
2 SOX(start of text)   18 DC2(device control 2)
3 EOX(end of text)   19 DC3(device control 3)
4 EOT(end of transmission)   20 DC4(device control 4)
5 ENQ(inquiry)   21 NAK(negative acknowledge)
6 ACK(acknowledge)   22 SYN(synchronous idle)
7 BEL(bell)   23 ETB(end of transmission block)
8 BS(backspace)   24 CAN(cancel)
9 HT(horizontal tab)   25 EM(end of medium)
10 LF(NL line feed/new line)   26 SUB(substitute)
11 VT(vertical tab)   27 ESC(escape)
12 FF(form feed/new page)   28 FS(file separator)
13 CR(carriage return)   29 GS(group separator)
14 SO(shift out)   30 RS(record separator)
10 SI(shift in)   31 US(unit separator)

 

 

확장 ASCII 인쇄 문자

위의 7 Bit 로는 128개의 문자만을 표현할 수 있다.

더 많은 문자의 표현을 위해 확장 ASCII 라는 것이 있는데 이것은 비트(bit) 를 하나 더 늘려  8 Bit 로 표현하게 되어 총 259 개를 표현할 수 있다.

 128 ~ 255 까지 문자를 추가적으로 표현할 수 있다
(확장 문자 집합은 ASCII 문자 집합과 128개의 그래픽과 선 그리기용 문자를 포함하며 종종 "IBM 문자 집합"이라고도 합니다)

 

728x90

'SW개발' 카테고리의 다른 글

배열과 포인터(Pointer) 의 상관관계  (0) 2023.10.27
리터럴(Literal) 상수  (0) 2023.10.27
비트(bit) 단위 연산  (0) 2023.10.27
실수 연산, 어떻게 하시나요???  (0) 2023.09.27
+- m * n의 e승  (0) 2023.09.27