문자 인코딩

게시 2025/09/24 업데이트 2025/10/17

By 조지헌

3 분읽는 시간

문자 인코딩

컴퓨터와 데이터

컴퓨터의 메모리는 트랜지스터라고 불리는 작은 전자 스위치가 모인 반도체로 만들어져 있습니다.

트랜지스터는 전기가 흐르지 않는 것과 흐르는 것을 0과 1로 표현합니다.

1bit가 늘어날 때마다 표현 가능한 숫자는 2배씩 증가합니다.

음수 표현: 처음 1bit를 음수, 양수를 표현하는데 사용합니다.

문자는 바로 숫자로 표현할 수 없습니다. 따라서 각 문자에 맞는 숫자를 매핑해 놓았습니다.

1990년도
1byte 기반, 가변길이 인코딩
- 1byte: ASCII, 영문, 기본 라틴 문자
- 2byte: 그리스어, 히브리어 라틴 확장 문자
- 3byte: 한글, 한자, 일본어
- 4byte: 이모지, 고대문자 등
장점
- ASCII 문자는 1byte로 표현
- ASCII 호환
단점
- 상대적으로 사용이 복잡
- ASCII를 제외한 일부 언어에서 더 많은 용량 사용
- EUC-KR, MS949 한글 호환 되지 않음
- UTF-16 영어, 한글 호환 되지 않음
현대의 사실상 표준 인코딩 기술

결론: UTF-8을 사용하면 됩니다.