♧ 유니코드
-싱글바이트와 더블바이트
: strlen을 호출하면 싱글바이트 문자들의 문자열 종결자(제로)배열내 문자들의 수를 리턴한다. 문제는 몇 언어들과 쓰이고 있는 시스템들 (예 : 일본어 kanji)이 싱글바이트가 제공하는 최대 256개의 심볼보다 더 많은 기술을 사용한다는 것이다. 그래서 더블바이트 문자세트는 이런 언어들과 기록시스템을 지원한다. (비주얼 C++런타임 라이브러리 : _mbslen함수)
- 1988년 애플과 제록스 사에 의해 표준화
- 더블바이트 문자세트는 다음 바이트가 같은 문자의 일부인지 새로운 문자인지 구분해야 하는데 유니코드는 그럴 필요가 없어서 CharNext, CharPrev와 같은 함수는 필요가 없다. 또한 16비트 값으로 표현하기 때문에 65000이상의 문자들을 이용할수 있으므로 싱글바이트 문자세트로 256문자들을 이용하는것과는 많은 차이가 난다.
- 현재 29000코드 포인트들이 할당되지 않고 있어서 이것들은 미래의 사용을 위하여 보류된 것이다. (키릴어, 영어, 히브리어, 아라비아어 등등을 표현한다)
- 유티코드를 사용하는 이유
? 언어들 사이에서 쉬운 데이터로 변환이 가능
? 모든 언어를 지원하는 싱글 바이너리, .exe 또는 DLL파일의 분배가 가능
? 애플리케이션의 효율향상
- 윈도우 2000은 유니코드 사용을 근거로 만들어졌다. 즉, 윈도우 함수를 호출하고 그것을 ANSI문자열로 넘기면, 시스템은 처음에 그 문자열을 유니코드로 바꾸고, 그 다음 유니코드 문자열을 운영체제로 넘긴다. 또한 함수로부터 ANSI문자열을 기다린다면, 애플리케이션으로 돌아가기 전에 시스템은 유니코드 문자열을 ANSI문자열로 변환한다. 물론 이런 변환을 수행하기 위해서는 시간과 메모리의 오버헤드가 존재한다.
예를들어, CreateWindowEx를 호출하고 유니코드가 아닌 클래스 이름과 윈도우 캡션을 전달하게 되면, CreateWindowEx는 메모리 블록을 할당해야 하고, 유니코드가 아닌 문자열을 유니코드로 바꿔야 한다. 그리고 그 결과를 할당된 메모리 블록에 저장하고, 유니코드버전 CreateWindowEx를 호출하는 함수를 만들어야 한다. 또한 문자열을 버퍼에 넣는 함수에서는 애플리케이션이 그 문자열을 처리히기 전에 시스템은 반드시 유니코드를 유니코드가 아닌 코드로 바꾸어야 한다. 그러므로 처음부터 유니코드를 사용하는 애플리케이션을 개발함으로써 능률적으로 수행하게 할 수 있다.
- Microsoft Unicode Story
? 윈도우 2000은 유니코드와 ANSI를 지원한다. 즉 둘 중 하나로 개발할 수 있다.
? 윈도우 98은 ANSI만 지원하므로 ANSI로만 개발해야 한다.
? 윈도우 CE는 유니코드만 지원하므로 유니코드로만 개발해야 한다.
- COM : 문자열을 요구하는 모든 COM인터페이스 메소드는 단지 유니코드 문자열만 받도록 되어있다. 왜냐하면 COM은 전형적으로 다른 컴포넌트가 서로 대화할 때 사용되고, 유니코드는 문자열을 전달하는 좋은 방법이기 때문이다. 만일 윈도우 98로 개발하고 COM을 사용한다면 많은 문제가 발생할 것이다.
- 유니코드 소스 작성하는 방법
? typedef unsigned short wchar_t;
wchar_t szBuffer[100]; 이렇게 버퍼를 생성한다. 물론 strcpy, strcat같은 표준 c런타임 문자열함수는 ASNI문자열만 연산한다. 그래서 그에 대응하는 유니코드함수가 있다.
char* strcat(char*, const char*);
wchar_t* wcscat(schar_t*, const wchar_t*);
이렇게 모든 유니코드 함수는 wcs(wide character string)로 시작한다. 그러므로 str을 wcs로 변경하면 된다.
- CreateWindowExW와 CreateWindowExA함수 프로토타입 비교
? PCWSTR : 상수 유니코드 문자열 포인터
? 윈도우 2000에서 CreateWindowExA의 마이크로소프트 소스코드는 단순히 청크(thunking)또는 변환, 즉 ANSI문자열을 유니코드 문자열로 바꾸기 위한 레이어가 된다.
그래서 코드는 바꾼 문자열을 전달하여 CreateWindowExW를 호출한다.
- ANSI와 유니코드를 대비한 애플리케이션 만들기
? 윈도우 문자열 함수 : lstrcat, lstrcmp, lstrcmpi, lstrcpy, lstrlen
: 이들 함수는 소스 모듈이 컴파일될 때 UNICODE가 정의되었는지에 따라 유니코드 버전 함수나 ANSI버전 함수를 호출하는 매크로로 구현된다. 즉, lstrcat는 lstrcatA와 lstrcatW로 확장될 것이다.
? 일반적인 데이터타입(TCHAR과 PTSTR과 같은)을 텍스트문자와 문자열로 사용한다.
- 유니코드는 한마디로 말하면 모든 문자를 2byte로 표현하자는 의미이다.
- 98은 전혀 지원하지 않는다.
- CE은 유니코드만 지원한다.
- 2000은 유니코드와 ANSI를 지원한다.
- 미래 os는 유니코드만 지원하게 될 거 같다.
- 그래서 코드를 재 사용할 때 문자열 표현에 문제가 생긴다.
예)char sz[100] : 미래에는 char보다 short int로 컴파일 해야한다.
그래서 지금 코딩할 때 유니코드 버전을 대비해서 미리 코딩하는 기법을 써야한다.
- 유니코드 쓰는 방법 : short int sz[100];
그런데 아직은 전부 다 이렇게 쓸 수가 없다.
- 유니코드를 쓰는 세 가지 관점
① 변수 선언
② 상수 선언
③ 함수 선언
1) 변수 선언
- char나 short int를 쓸 수 없어서 매크로를 만들어 놨다. : TCHAR
이러면 상황에 따라서 두 가지로 컴파일이 된다. 유니코드는 short int로, ansi는 char로 컴파일이 된다. 그러므로 앞으로는 TCHAR을 쓰는 게 좋다.
윈도우 CE에서 작업할 때 기존의 소스를 포팅하려면 char를 전부 수정해줘야 하는 문제가 생긴다.
- 포인터 변수일 경우는 (정수는 문제가 되지 않기 때문에 char *를 말한다) TCHAR*로 써줘야 한다. 그래서 이것도 다음과 같이 매크로로 만들어 놓았다.
- LPCTSTR : 상수형이다. c가 있으면 TCHAR* 상수형이다
- LPTSTR : TCHAR* 버퍼형이다. 즉 배열을 잡아서 써야한다. 그렇지만 LPCTSTR은 상수형이므로 바로 "HOWON"과 같이 쓸 수 있다.
-LPCSTR, LPSTR : 이것들은 T가 없으므로 여전히 char*로만 컴파일이 된다. 그래서 쓰지 않는다.
2) 상수 선언
- 문자열 상수 " "를 말한다. "abc"면 \0까지 포함해서 4byte인데 이걸 유니코드에서
컴파일하면 여전히 4바이트이다. 그래서 유니코드 상수로 하여 L"abc"로 하면 8바이트가 된다. 그러나 이렇게 하면 지금 당장 컴파일이 안되므로 역시 매크로를 만들어 왔다.
- _T, TEXT : _T("abc") 이렇게 쓰면 컴파일될 때 현재 상황은 "abc"가 되고 유니코드로 컴파일하면 L"abc"가 된다.
TEXT는 API용이고 _T는 MFC용이다.
3. 함수사용
- strcpy는 char*를 인자로 받는다. 그래서 유니코드에서는 이 함수를 쓰지 못한다.
그래서 유니코드용 문자열 복사 함수를 만들어 놓았다. wcscpy(short int* )
그런데 지금 코딩할 때는 이걸 쓸 수 없으므로 역시 매크로를 만들어 놓았다. : _tcscpy
이 함수는 지금 컴파일 하면 strcpy가 되고 나중에는 wcscpy가 된다.
strcat, strlen등도 마찬가지이다. 즉, _tcslen, _tcscpy 이렇게 _tcs만 앞에 붙인다.
그런데 atoi함수같은 경우는 _ttoi, sprintf는 _stprintf이다.
즉 간혹 두 번 째에 t가 나올 경우가 있다.
- MSDN찾는 방법
strcpy : 위는 ansi, 두번째는 유니코드용, 밑에 TCHAR Routine에 _tcscpy가 나온다.
- API에 CreateWindow가 있다면 CreateWindowA는 ANSI용이고 CreateWindowW는 유니코드용이다. 이렇게 두개 함수가 있으므로 그냥 사용하면 된다.
- PTSTR과 LPTSTR은 같은 의미이다. 윈3.1때는 포인터에 NearPointer 2바이트가 있었고, 4바이트짜리 포인터가 있었다. 그래서 long형이 아닌 걸 만들어 놓았다.
지금은 세그먼트가 없으므로 LPCTSTR이나 PCTSTR차이가 없다. 그래서 PTSTR은 사용하지 않는다.
- char temp sz[100];
for(i = 0; i<sizeof(sz); i++ )
이렇게 하면 틀린다. 왜냐하면 유니코드가 아니면 100이므로 괜찮지만 유니코드에서는 short int로 바뀌므로 200이 된다. 그래서 sizeof(sz)/sizeof(TCHAR)로 해줘야 한다.
♣ 윈도우 문자열 함수
- CompareString : 문자열 비교하는 api함수이다. c 런타임함수로 strcmp함수가 있으니까 이걸 쓰거나 _tcscmp를 쓰면 되는데 이 함수는 문법적으로는 유니코드를 지원하지만 논리적으로는 지원하지 않는다.
유니코드는 한글, 알파벳이 한꺼번에 모여있다. 그래서 같은 국가문자들끼리만 비교해주려면 CompareString함수를 써야한다. CompareString함수의 첫 번째 인자가 지역ID를 나타낸다. 즉, 이 인자를 사용해서 문자의 EMt을 검사함으로서 두 문자열을 비교하게 된다. 이런 동작은 단순히 숫자를 비교하는 C런타임함수보다 훨씬 의미가 더 있다. (C런타임함수 strcmp, wcscmp등은 문자열에서 코드 포인트의 값을 비교한다. 즉, 함수는 실제 문자의 의미를 무시하고 단순히 각 문자의 숫자 값을 검사한다.)
- 즉 문자열 대소비교할 때 같은 버퍼 안에 한글, 영문이 섞여있을 때는 이 API함수를 써야한다.
- CharLower, CharUpper함수들은 ansi가 없고 유니코드 전용함수들이다.
- 이런 함수들을 쓸때는 다음과 같이 코딩한다.
#ifdef _UNICODE
CharLower();
#else
tolower();
#endif
- IsTextUnicode : 텍스트가 ANSI인지 유니코드인지 결정하는 함수로서 참, 거짓을 반환한다. 즉, 버퍼가 유니코드인지 ANSI인지 판단해주는 함수이다.
PDA는 윈도우CE를 쓴다. 메모장에서 작성한걸 pda에서 쓰려면 먼저 유니코드로 변환해야 하는데 이럴 때 이 함수를 써서 유니코드인지 아닌지를 먼저 판단한다.
- DWORD IsTextUnicode(CONST PVOID pvBuffer, int cb, PINT pResult);
- 함수인자로는 첫 번째 인자는 비교하고자 하는 버퍼주소인데 이때 버퍼문자열이 유니코드 문자열인지 ANSI 문자열인지 알지 못하므로 void포인터형이다.
두 번째 인자는 버퍼 바이트 수인데 역시 버퍼내용을 모르기 때문에 문자 카운트가 아닌 바이트의 카운트가 된다. 세 번째 인자는 비교하는 방법(옵션인데 null을 준다)으로 되어있다.
특히 이 함수는 통계적으로 판단한다. 즉 버퍼에 유니코드가 더 많으면 유니코드라고 판단해준다.
♧ 유니코드와 ANSI간의 문자열 변환
- MultiByteToWideChar : ANSI를 유니코드로 변환
- WideCharToMultiByte : 유니코드를 ANSI로 변환
- com은 os와 상관없이 반드시 유니코드를 써야한다.
- .Net : 실행가능한 개체를 만들자는게 목표이다. 실행가능한 개체란 소스상태가 아니고
컴파일된 상태를 말한다. 그래서 com도 같은 목표를 가지고 있다.
'C/C++언어 > 유니코드' 카테고리의 다른 글
멀티바이트->유니코드 , 유니코드->멀티바이트 간단변환 (0) | 2010.02.01 |
---|---|
CSting의 유니코드를 파일로 저장 & 로드 할때 (1) | 2007.11.18 |
유니코드 정보 모음 (0) | 2007.11.18 |