본문 바로가기
IT 놀이터/General

[Encoding] Character 를 나타내는 encoding 방식에 대한 정리. ( 유니코드, 아스키 코드, 엡시딕, UTF )

by 돼지왕 왕돼지 2012. 4. 15.
반응형



안녕하세요 돼지왕 왕돼지입니다.

오늘은 Character 를 표현하는 encoding 방식에 대해 간단히 정리해보겠습니다.


유니코드 ( Unicode )

세계문자 표준으로 34,168 개의 코드문자를 표현하며, 표준 24개 언어를 지원합니다. 각 코드문자는 unique한 숫자로 연결되어 있으며, 세계 주요 언어 문자들을 모두 충족시키고, 고문서까지도 지원합니다. platform, program, language 가 제한이 없이 사용할 수 있습니다. 




아스키 코드 ( ASCII ( American Standard Code for Internation Interchange ) )

인터넷 상에서 텍스트 파일을 위한 가장 일반적인 형식입니다. 1byte 로 문자가 표현되며, 알파벳, 숫자, 특수문자들이 7bit 로 표현되어 총 128개의 문자를 표현 가능합니다. 아스키는 미국 규격협회인 ANSI 에 의해 개발되었습니다.




엡시딕 ( EBCIDIC ( extended binary-coded decimal interchange code ) )

IBM 이 대형 운영체계에 사용하기 위해 개발한 알파벳 및 숫자를 위한 바이너리 코드입니다. EBCIDIC 은 1byte 즉 8bit 를 사용하여 총 256개의 문자를 표현 가능합니다.




UTF ( Universal Transformation Format )

UTF 는 유니코드 문자들을 7비트, 8비트, 16비트 혹은 32비트의 문자로 변환하기 위한 방법입니다. UTF-7 은 7비트 메일 시스템을 통한 전송을 위해 7비트 아스키 문자로 변경하는 것이고, UTF-8 은 유니코드를 8비트 문자로 변경하는 것입니다. UTF-16 은 16bit 로, UTF-32 는 Unicode 2.0 이 지원하는 32bit 를 모두 활용하는 방안을 말합니다.



도움이 되셨다면 손가락 꾸욱~




 
반응형

댓글