일단 이것땜에 숙제, 턴프로젝트, 할일등 모두 내 팽겨쳐 졌다.. orz

유니코드는 이 아래에서 긁어온 자료와 같이 여러 종류가 있다고 한다.

하지만 지금 중요한건 저 글자를 파일로 저장한뒤 온전하게 불러오는데 목적이 있다.

예제는 한줄경우 어떻게 처리가 되었지만, 몇백줄 넘어가는 자료를 저장하면 그 나름대로 테크닉이
필요하다.

데브 피아 등 여러곳을 돌아다니가 결국 잘못된곳을 찾아냈다..

다음은 J-Notebook 프로그램의 파일 저장 소스 일부분이다.

if(dlg.DoModal() == IDOK)
 {
  CFile file;
  CFileException e;
  if(!file.Open(dlg.GetFileName(), CFile::modeWrite | CFile::modeCreate, &e))
  {
   e.ReportError();
   return;
  }
  // 파일을 쓴다. 음... file.Write가 \n 이 자동으로 붙고, \r\n하면 한줄씩 내려준다.
  // 유니코드 시작
  WORD  a;
  a = 0xFEFF;
                                   <- 16진수 변환 프로그램을 보니, 제대로 읽히는 파일은 FFFE로 시작한다.
                                       하지만 FEFF로 넣었다.. 왜냐? 윈도우는 리틀 앤디안이기 떄문이라;;;
  file.Write((void*)&a, sizeof(a));
                                // 맨 처음부분에 넣어준다. 왜인지 모르겠지만 아무래도 유니코드 식별인자 인거 같다;;

  // 유니코드에서 한줄내림은 코드는 0x0a인듯 하다..
  a = 0x0A;
  JWord note;
  CString strWord;
 
  int i=0;
  for(; i < pDoc->m_szNoteWord.size()-1; i++)
  {
   note = pDoc->m_szNoteWord[i];
   strWord.Format(L"%s;%s;%s;%d\r",note.word, note.yomigana, note.mean, note.count);
   // 글자를 쓰고,
   file.Write(strWord, strWord.GetLength()* sizeof(wchar_t));
   // 이 글자의  유니코드식별자? 를 추가해준다.. 파일흐름상 개행라인인거 같다.
   file.Write((void*)&a, sizeof(a));

  }
  // 마지막은 개행할 필요가 없으므로 따로 써준다.
  note = pDoc->m_szNoteWord[i];
  strWord.Format(L"%s;%s;%s;%d",note.word, note.yomigana, note.mean, note.count);
  file.Write(strWord, strWord.GetLength()* sizeof(wchar_t));
 }

이짓을 해주면. CFile::typeText | CFile::modeRead 로 문제없이 읽어온다.

하지만... 유니코드... 이거 난해해서.. 괜한 지뢰밭 들어간건 아닌지 걱정된다.

유니코드 정보 모음 | 기타 기술정보
전체공개 0 / 2007.05.20 12:04


UTF의 개념
UTF는 16bit 유니코드 문자들을 7비트 또는 8비트 문자로 변환하기 위한 방법이다.
UTF-8은 유니코드를 8비트 문자로 변경하는 것입니다.
유니코드란 - 각각의 다른 나라를 시스템의 호환성 및 확장성에 문제를 일으키는 관계로
이를 하나의 문자인 유니코드로 통합시켜 표현하는 방법중에 한가지입니다.


UTF-8의 동작 방법
DNS를 찾을 경우 클라이언트에서 utf-8로 인코딩 되어 서버의 ip주소를 찾아 갑니다.
그러나 특정한 사이트인 경우 utf-8을 지원하지 못할 수 도 있고 서버에 접속을 못할 수 도 있습니다.

유니코드 용어의 이해

유니코드 관련 문서를 읽다보면 가장 많이 마주치는 용어들이
UCS2, UCS4, UTF8, UTF16, UTF32 등과 같은 단어들입니다.

기본언어판, BMP (Basic Mulitilingual Plane)
유니코드의 첫 65,536개의 코드를 의미합니다.

언어판, Plane (256x256 즉 65,536 개씩의 코드 묶음)
유니코드에서는 현재 17개의 언어판을 사용할 수 있습니다.
모두 그룹 00에 포함됩니다.

언어판 그룹, Group (256개씩의 언어판을 묶어 하나의 그룹)
유니코드의 17개 언어판은 모두 Group 00에 있습니다.
유니코드는 17개의 언어판에 한정되어 정의됩니다.
반면 ISO 표준(UCS-4)에서는 모두 128개의 언어판 그룹이 정의될 수 있습니다.
1 Plane = 65,536 code points
1 Group = 256 planes = 256x65,536 = 16,777,216 code points
UCS-4 = 128 groups = 128x16,777,216 = 2,147,483,648 code points

인코딩, Encoding (문자집합을 표현하는 방식)
유니코드는 코드체계 또는 문자집합을 명명하는 것이며 이를 표현하기 위해서는
UTF-8, UTF-16, UTF-32 등과 같은 인코딩이 필요합니다.

UCS-2: Universal Character Set 2(octets)
좀더 정확하게는 Universal Multipe-Octet Coded Character Set 2입니다.
ISO/IEC 10646의 용어로 BMP의 65,536 코드를 정의하며, 2바이트로 표현됩니다.
1개의 언어판, 즉 BMP만이 이에 해당합니다.
UCS-2는 인코딩 방법이 아니며 문자코드 자체입니다.
인코딩으로 봐도 무방하겠군요. 여기서 octet이라는 용어를 사용했는데 이 용어는
ISO쪽에서 사용하는 용어로, 유니코드 진영에서 사용하는 바이트와 같은 뜻입니다

UCS-4: Universal Character Set 4(octets)
ISO/IEC 10646의 용어로 4바이트로 표현됩니다.
모두 128개의 언어판 그룹, 즉 128*256 언어판 = 32,768 언어판을 정의합니다.
이는 대략 231 = 2,147,483,648개의 코드에 해당합니다.
UCS-4는 인코딩 방법이 아니며 문자코드 자체입니다.

UTF-8: UCS Transformation Format, 8-bit form
Unicode 표준의 인코딩 방식중의 하나입니다.
표준에서는 17개 언어판의 문자만을 표현할 수 있으나 기술적으로는
UCS-4 전영역의 문자를 표현할 수 있습니다.
문자에 따라 1 ~ 4(또는 6) 바이트로 표현됩니다.

UTF-16: UCS Transformation Format, 16-bit form
유니코드 3.0에서는 16을 16비트로 해석한 것이 아니라,
그룹 00의 16개 언어판이라고 써 놓았군요.
UTF-32의 32가 32비트를 지칭하므로 통일성을 위해 16비트로 이해하시는 게 좋습니다.
16비트로 표현한다는 점에서는 UCS-2와 흡사하지만 대행문자영역(Surrogates)을
이용하여 16개의 보충 언어판 코드를 표현할 수 있는 인코딩입니다.
대행문자영역 2개로 16개의 보충 언어판을 표현할 수 있습니다.
UCS-2에서는 65536개의 코드만을 정의할 수 있으나 UTF-16에서는
1백만여자를 더 표현할 수 있습니다.

UTF-32: UCS Transformation Format, 32-bit form
32비트 즉 4바이트로 각 문자를 표현합니다.
이점에서 UCS-4와 동일하지만 17개의 언어판만을 정의한다는 점에서는
UCS-4의 부분집합으로 간주하면 됩니다. UCS-4와 동일하나
0x00000000 ~ 0x0010FFFF 범위만을 문자코드로 간주한다고 이해하시면 됩니다.

출처 : http://cafe.naver.com/crazysystem/189


-------------------------------------------------------------------------


데브피아 VC QA 게시판에서 발췌.


1) "한글abc"가 유니코드로 써있다면 한글과 영어 구분은 어떻게 해요


    --> 영어와 한글은 code range가 다른 영역에 위치하므로 영역검사로 충분히 구분가능합니다.


2) 유니코드빌드로 하지 않고도 유니코드를 노트패드처럼 유니코드 txt문서로 저장할 수 있나요? 그런 함수는 없는것 같아요.


    --> 가능합니다. 저장할 data를 mbstowcs, MultiByteToWideChar를 통해 멀티바이트 데이타에서 unicode 데이타로 저장합니다.


3) 유니코드빌드로 해도 유니코드 txt문서로 저장할수없다고 앞에서 본거같은데 사실인가요?

    --> 유니코드는 크게 2가지로 보면 됩니다. (사실은 더많지만)

                UCS2 : 이것은 정말로 모든 문자로 2바이트로 표현되서 프로그램 내부의 데이타표현형으로 씁니다.

                            (WCHAR가 이경우죠)


                UTF8 : 이것은 영문은 1바이트 그외의 문자는 2~6(?)바이트의 가변바이트로 저장하게 됩니다.

                            영문권얘들이 자기네 기존 영문데이타와 호환시키기위해 만들었는데 파일저장등에 사용합니다.


            그러므로 저장시에 위의 포맷중 어느것인 확인해서 저장해야겠지요.    UTF8저장경우에는 내부의 WCHAR를

                다시 UTF8 encoding으로 변환해서 저장해야합니다.

                       

4) 유니코드로 해도 데이타베이스에 저장하려면 또 그 데이타베이스가 쓰는 유니코드로 바꿔야한다는데 사실인가요?


        아마 위의 UCS2와 UTF8등의 선택이 있겠지요.. 그러나 ODBC등을 사용한다면 encoding변환에 문제가 없지 않을까요?


5) 유니코드로 해도 윈도우 OS에 쓰는 유니코드와 맞게 고쳐야 유니코드 txt로 저장할수 있는건가요?

        UCS2라 하더라도 OS에 따라 bigendian format으로 little endian format으로 저장하는 것에 차이가 좀있습니다.


6) 유니코드도 종류가 많아서 오히려 쓰기 불편할거 같은생각도 드는데 괜한걱정인가요?

        어차피 encoding 변환 함수를 사용한다면 유니코드encoding변환끼리는 큰 문제가 되지 않을 겁니다.

        encoding변환함수를 짜는 사람이 머리아픈것이지...


        제가 보기에는 파일로 저장형식으로는 UTF8을 일반적으로 많이 쓰이는 것 같습니다.



----------------------------

이정신

http://redhotfrog.mytripod.co.kr




----------------------------------------------------------------------------------------------



아래 데브피아에서 QnA 발췌

자주올라오는 질문들에 대한 응답을 한번 모아보았습니다.

 보충하고 싶은 내용은 메일을 요청바랍니다.


/////////////////////////////////////////////////////////////////////////////

UNICODE PRIVATE FAQ 0.1 (2004.08.03) by redfrog@jitco.net


----------------------------------------------------------------------------

A000 : character set, code set, encoding, codepage가 뭡니까?

A001 : MBCS, SBCS, DBCS가 뭡니까?

A002 : i18n, l10n이 뭡니까?

A003 : 유니코드가 뭡니까?

A004 : 유니코드 UCS2에서 UTF8로 변환은 어떻게 하나요?

A005 : windows 9x와 windows NT계열 OS의 차이.

A006 : C/C++의 표준 문자열정의.

A007 : MFC의 TCHAR.

A008 : "한글abc"가 유니코드로 써있다면 한글과 영어 구분은 어떻게 해요.

A009 : 중국어는 유니코드에서 어떻게 다루나요?

A010 : 유니코드와 파일

A011 : db에 저장하려면 또 그 dbms가 쓰는 유니코드로 바꿔야한다는데 사실인가요?

A012 : database에서는 어떻게 다루나요?

A013 : 참조할 만한 자료들.

----------------------------------------------------------------------------


이것을 저는 UTF8로, 즉 8비트로 변환을 하고자 하는데 어떻게 하면 될까요?


============================================================================

A000 : character set, code set, character encoding, codepage가 뭡니까?

----------------------------------------------------------------------------

character set이란 문자의 집합입니다. 단 이때 각문자에는 숫자코드가 부여됩니다.

그렇지만 코드숫자가 컴퓨터상에서 어떻게 표현되는 가는 정해지지 않은 상태라고

보면 됩니다.


encoding이란 character set에 좀더 제약이 강해서 컴퓨터상에서 어떻게 표현 되는가까지를

정해진 상태의 문자의 집합입니다. 같은 그림이라도 압축방법에 따라 gif, png,

bmp등등의 파일형식이 있듯이 code set과 encoding의 차이를 이해할 수도 있을

겁니다. 실제 예를 들면 완성형한글인 KSC5601 codeset은 UNIX에서는 euc-kr이란

encoding으로 표현되고 DOS에서는 codeset 949란 encoding으로 표현됩니다.


오래전에는 character set과 character encoding은 같은 말이었습니다.

그러나 언젠가 부터 시스템의 종류도 많아지고 다국어시스템의 지원등등 여러여건들에

의해 character set에서 부터 character encoding이 분리된 것이죠.


code set이란 말은 어쩔 때는 character set의 의미로 어쩔 때는 encoding의

의미로 사용됩니다. 그렇다 보니 문맥을 보고서 적당히 해석해서 사용을 해야 합니다.


codepage는 IBM에서 사용하던(?) 말로 encoding과 같은 것으로 보면됩니다.

MICROSOFT에서 DOS를 만들때 IBM과 같이 만들었기 때문에 MICROSOFT에서는

codepage라는 말을 많이 사용합니다.


============================================================================

A001 : MBCS, SBCS, DBCS가 뭡니까?

----------------------------------------------------------------------------

MBCS이란 Multibyte code Set으로 하나의 문자를 표현하는 code가 문자에 따라

한 바이트로도 여러 개의 바이트로도 표현되는 encoding을 의미합니다.

완성형 한글의 경우 영문은 1바이트로 한글/한자는 두 바이트로 표현됩니다.


SBCS란 Singlebyte code Set으로 하나의 문자를 표현하는 code가 항상 한 바이트로

표현될 수 있는 encoding을 의미합니다.


DBCS는 Double Byte code Set으로 하나의 문자를 표현하는 code가 한 바이트나

두 바이트인 encoding을 의미합니다.


windows환경에서는 SBCS와 DBCS가 MBCS의 특수한 경우로 처리됩니다.



============================================================================

A002 : l10n, i18n이 뭡니까?

----------------------------------------------------------------------------

l10n은 localization(지역화)의 약칭입니다. 개발자들이 긴 낱말이 싫어서 약어로

사용하는 말입니다. 소프트웨어가 localization되어있다는 말은 소프트웨어를

사용하는 사용자를 위해 한 언어에 맞추어 개발이 되어있다는 겁니다. 그래서

이 경우에는 한번에 다중언어를 사용할 수 없습니다.


i18n은 internationalization(국제화)의 약칭입니다. software가

internationalization되었다는 말을 들을려면 여러언어를 예를 들면 한국어든

중국어든 동시에 입력해서 사용할 수 있어야 합니다.


multiligual system이란 말과 i18n system은 동일한 말입니다.



============================================================================

A003 : 유니코드가 뭡니까?

----------------------------------------------------------------------------

영문권에서 i18n을 위해서 만든 character set입니다.

유니코드가 나오기 이전에는 i18n system을 만들기가 어려웠습니다. 왜냐하면

여러언어를 포함하는 하나의 단일 character set이 없었기 때문입니다. 그래서

예전에는 여러 character set을 포함하는 가상의 character set을 각 소프트웨어회사마다

내부적으로 만들어서 사용하였습니다. 그러다보니 호환이 잘 안되겠지요.

그래서 유니코드 콘소시엄을 결성하여 모두가 동의하는 문자셋을 만들게 되었습니다.

이것이 바로 유니코드입니다. 유니코드에서 정의하는 character set은 UCS2와

UCS4가 있습니다. 우리가 보통 일반 프로그램을 개발할 때는 UCS2를 기반으로

만들게 됩니다. UCS4는 산스크리트어나 옛 이집트 고어와 같은 것까지 포함하는

것으로 알고 있습니다. 그러므로 보통 유니코드라고 말할 때는 UCS2를 지칭합니다.


UCS2/UCS4는 character set이면서 encoding으로도 존재합니다. 이 encoding의

특징은 UCS2경우에는 영문을 포함한 모든 문자가 두 바이트로 표현되고 UCS4경우에는

네 바이트로 표현됩니다. 이렇게 고정된 길이의 encoding을 쓰면 장점은

문자열내의 특정 문자를 index로 쉽게 접근할 수 있다는 것입니다. MBCS처럼

문자마다 길이가 다른 경우에는 n번째 문자를 접근하려면 문자열의 처음부터

검색을 해야 한다는 점을 생각한다면 문자열처리에 잇점이 있겠지요.


그러나 UCS2 encoding에 장점만 있는 것은 아닙니다. 문제는 기존의 ASCII기반으로

된 모든 소프트웨어와 데이타베이스를 UCS2로 업그레이드해야만 UCS2와 호환된다는

겁니다. Y2K보다 더 황당한 비용이 발생하겠지요. 그래서 이러한 단점을

보완하기 위한 encoding이 UTF7, UTF8입니다. 이 encoding들의 특징은 기존 MBCS처럼

한문자가 1바이트에서 여러바이트를 가질 수 있습니다. 이 경우 encoding의 디자인이

기존 ascii파일은 utf8 encoding을 하더라도 차이가 없도록 되어 있습니다. 즉 ascii파일은

그냥 utf8 encoding이 되어있다고 가정해도 상관없는 겁니다.


그래서 실제적으로 프로그램이 유니코드를 지원한다고 하면 내부적으로는 UCS2/UCS4 encoding을

사용하고 파일/데이타베이스 같은 외부자원에 대해서는 UTF7/UTF8과 같은 encoding을

사용합니다. 즉 혼용해서 사용하는 겁니다.


============================================================================

A004 : 유니코드 UCS2에서 UTF8로 변환은 어떻게 하나요?

----------------------------------------------------------------------------


WINDOWS API에서 보면 WideCharToMultiByte라는 함수가 있습니다.

이 함수의 인터페이스는 다음과 같습니다.


    int WideCharToMultiByte(

      UINT CodePage,            // code page

      DWORD dwFlags,            // performance and mapping flags

      LPCWSTR lpWideCharStr,    // wide-character string

      int cchWideChar,          // number of chars in string

      LPSTR lpMultiByteStr,     // buffer for new string

      int cbMultiByte,          // size of buffer

      LPCSTR lpDefaultChar,     // default for unmappable chars

      LPBOOL lpUsedDefaultChar  // set when default char used

    );


이 함수의 첫번째 매개변수 CodePage에 CP_UTF8를 할당하여 사용합니다.



============================================================================

A005 : windows 9x와 windows NT계열 OS의 차이.

============================================================================


windows 9x (windows 95,98,me)계열은 windows api를 표준적으로 ANSI 버젼을 지원합니다.

즉 unicode를 windows api에서 직접지원하지 않고 mbcs만을 직접지원합니다.

이 때 ANSI는 MBCS라고 생각해도 무방합니다.



windows NT (windows NT, windows 2000, windows XP등등)계열은 windows api를

ANSI버젼과 UNICODE버젼을 모두 지원합니다. ANSI버젼의 API를 쓰는 경우에는

OS가 api를 다시 UNICODE버젼으로 변환합니다. 그러므로 UNICODE로 버젼으로

만들어진 프로그램은 windows NT계열에서 약간의 속도향상을 가져올 수 있습니다.

그러나 windows 9x에서 동작하지 않는 단점이 있습니다. 그래서 microsoft에서는

windows 9x계열에서 UNICODE버젼으로 개발된 소프트웨어를 손쉽게 동작하게 하기

위해서 windows 9x용 unicode를 지원 dll을 제공합니다. 컴파일시 이 dll을 이용하면

unicode버젼으로 개발되었어도 windows 9x계열에서 동작가능합니다.



============================================================================

A006 : C/C++의 표준 문자열정의.

============================================================================


"안녕"이라고 literal을 표현하면 이것은 MBCS(언어규격 표준 용어로는 mcs)입니다.

L"안녕"이라고 literal을 표현하면 이것은 UCS encoding (언어규격 표준 용어로는 wcs)입니다.

어떤 encoding을 따르는 것인가는 compiler와 OS에 따라 다릅니다.

예를 등어 windows에서 visual studio 6.0 한글버젼을 사용하는 경우 MBCS로 컴파일시

codepage 949를 따르게 됩니다.


char데이타표현은 MBCS의 문자를 표현하는데 사용합니다. char는 사실 1바이트로

고정되어 있으므로 MBCS의 문자는 한 char또는 두 char로 표현됩니다.


wchar_t데이타표현은 UCS의 문자를 표현하는데 사용합니다. 많은 경우 2바이트이지만

시스템에 따라 4바이트거나 8바이트일 수도 있습니다. 이러한 UCS문자를

언어규격 표준 용어에서는 wide character라고 합니다.



============================================================================

A007 : MFC의 TCHAR.

============================================================================

MFC는 소스를 수정할 필요없이 mbcs 와 unicode 간의 compile switch을 손쉽게해주는

많은 macro를 제공합니다. strcpy같은 형태가 아니라 _tcscpy와 같은 방식으로 말이죠..

또한 strcpy를 와 같이 mbcs에서 먹는 함수를 바로 써버리면 아무리 UNICODE switch로

compile해보아보았자 MBCS로 컴파일되게 됩니다. 되도록이면 TCHAR계열 마크로를

쓰는 습관을 들이는 것이 중요합니다.


MBCS모드에서는 TCHAR는 char로 그리고 _tcscpy는 strcpy로 변환됩니다. _T("문자열") ---> "문자열"


UNICODE모드에서는 TCHAR가 wchar_t로 그리고 _tcscpy는 wcscpy로 변환됩니다. _T("문자열") ---> L"문자열"


============================================================================

A008 : "한글abc"가 유니코드로 써있다면 한글과 영어 구분은 어떻게 해요

============================================================================


영어와 한글은 code range가 다른 영역에 위치하므로 영역검사로 충분히 구분가능합니다.

자세한 것은 www.unicode.org에 있는 문자 테이블을 참조하십시요..


참고로 MBCS로 컴파일된 경우 완성형을 쓰기 때문에 영문검사시 if (ch < 0x80)

해도 무리가 없습니다.




============================================================================

A009 : 중국어는 유니코드에서 어떻게 다루나요?

============================================================================

중국어는 크게 두가지가 있습니다. 간체 (simplified)와 번체(traditional)이

그 것입니다. character set자체가 다르지요.


번체는 대만에서 표준으로 정립한 문제체계로 예전부터 내려온 기존한문을

그대로 씁니다. 그래서 이름이 traditional이라고 불리우는 것이지요..


간체는 중국본토에서 표준으로 정립한 문제체계로 공산화되면서 많은 한문문자가

약자로 표기되기 때문에 그내용도 약자한문을 담고 있습니다.

그래서 이름이 simplified이라고 불리우는 것이지요.


GB라고 앞에 붙은 encoding이나 character set은 간체를 의미합니다. GB-2312가

처음에 나와서 GBK의 서브셋으로 보면되고 보통은 이정도만 구현해도 많이 작동을

하지만, windows의 지원하는 중국어 간체는 GBK(GB-18030)이라고 보시면 됩니다. 몇

글자는 약간 변경되었지만요. 그리고 나온 것이 GB2K로 알고 있습니다. Unicode는 GB-

18030과 호환이라 보시면될 겁니다. 그외는 저도 기억이 잘나지 않네요.


홍콩이나 싱카폴등등에서 만든 문자셋도 있지만 요즘은 거의 쓰이지 않고 점차

간체가 힘을 쓰는 것 같습니다. 국력에 비례하네요..


============================================================================

A010 : 유니코드와 파일

============================================================================

유니코드 switch로 compile을 처음 해보는 경우 마추치게 되는 문제의 하나가

왜 파일에 저장시 유니코드로 저장되지 않는가 하는 점이다. 앞에서

말했듯이 유니코드라고 하더라도 다양한 encoding이 있으며 유니코드 switch는

API 함수와 자료들을 위한 ucs2 encoding만을 지원한다는 점이다. 즉 파일에

저장한다던지 utf encoding등으로의 변환등은 여전히 전적으로 개발자의 몫으로

남는다는 점이다.


파일로 저장시에는 많은 경우에는 UTF8 encoding을 사용하게되는데 이때는

WideCharToMultiByte API를 사용해서 변환하면 된다.


UTF계열이 아니라 UCS를 바로 저장하는 경우에는 조심해야 하는 것이

byte order이다. 이것은 CPU에 따라 다르게 되어있는데 intel계열은 little

endian이라 는 불리우는 바이트 순서로, 그 외 mac이나 workstation계열은

많은 경우 big endian으로 불리우는 바이트 순서를 가진다. 그러므로

CPU와 OS에  따라 bigendian format으로 little endian format으로 저장하는 것에

차이가 있다.


============================================================================

A011 : db에 저장하려면 또 그 dbms가 쓰는 유니코드로 바꿔야한다는데 사실인가요?

============================================================================

아마 UCS2와 UTF8등의 선택이 있겠지요.. 그러나 ODBC등을 사용한다면

encoding변환에 문제가 없지 않을까요?


============================================================================

A012 : database에서는 어떻게 다루나요?

============================================================================

어떤 분이 database에 대해 문의를 하셨는데 저도 줏어 들은 것 밖에 없고

실제 경험이 없기 때문에 확실한 답변은 안되어도 전에 응답하였던 내용을

올려 봅니다.



질문 :

    UTF8로 세팅된 DB에서 일본어문자를 ODBC를 통해 VC++어플리케이션에서

    가져옵니다.(rsData.GetFieldValue) 그런데 이 UTF8문자가 어플리케이션에서

    가져오면서 유니코드로 저절로 바뀌어서 들어옵니다. [(예)DB에 저장된

    문자열("????"  (12바이트)를 어플리케이션에서 CString으로 가져와서

    GetLength()한값은 8바이트로 찍힙니다.)] 이걸 UTF8로 유지시키려면 어떻게

    해야하나요? (일본어문자하나가 3바이트로 인식되게) 또 전체 어플리케이션의

    코드셋을 UTF8로 바꾸려면 어떻게 해야하나요?


응답 :

    ------------------------------------------------------------------------

    UTF8로 세팅된 DB에서 일본어문자를 ODBC를 통해 VC++어플리케이션에서

    가져옵니다.(rsData.GetFieldValue) 그런데 이 UTF8문자가 어플리케이션에서

    가져오면서 유니코드로 저절로 바뀌어서 들어옵니다.

    ------------------------------------------------------------------------


        ODBC가 UCS2로 자동변환하는 것 같습니다.


    ------------------------------------------------------------------------

    이걸 UTF8로 유지시키려면 어떻게 해야하나요? (일본어문자하나가 3바이트로

    인식되게)

    ------------------------------------------------------------------------

        그럴 필요가 정있다면 다시 UCS2를 UTF8문자열로 바꾸는 WideCharToMultiByte

        함수를 사용하세요. 단 이때 대상 인코딩을 CP_UTF8로 지정하십시요..



    ------------------------------------------------------------------------

    또 전체 어플리케이션의 코드셋을 UTF8로 바꾸려면 어떻게 해야하나요?

    ------------------------------------------------------------------------

        한글과 같은 Multibyte set과 UCS2만을 지원하신다고 보시면 됩니다.

        이론적으로는 UTF8를 기준으로 프로그램을 만들 수는 있지만 의미는 없습니다.

        MFC나 모든 관련 API들이 유니코드지원할 때 UCS2 기준으로 만들어져 있기 때문입니다.

        그러므로 필요할 때만 UTF8로 변환하여 사용하십시요.

       

       


질문 :

    우선 저희 솔루션은 한국어용으로 개발된것인데요 이번에 프로젝트에서 중국어와

    연계가 된 부분이 있어서 일부분을 수정작업하고 있습니다 중국어 문자열을

    추출하여 오라클에 저장하는 프로그램입니다. 그런데 별짓을 다해도

    ???????????????????? 이런식으로 깨져버리는군요 디비는 UTF-8부터해서 한국어

    확장완성형까지 다 바꿔봤지만 결국은 디비 문제가 아닌것을 알았습니다. 디비에

    입력할때 중국어가 깨지는것 같은데?


응답 :

    db의 encoding이 UTF8로 일단 맞춘것으로 가정하죠.


    ????????????????????으로 깨졌다는 것은 데이타가 UTF8형식으로 되어 있지

    않다는 것을 의미합니다. 즉 application이 db에 데이타를 넣을 때 utf8형식으로

    입력을 하지 않았다는 것이죠..


    제가 보기에는 application이 한글지원으로 만들어졌을 때 unicode가 아닌

    multibyte형식으로 compile되어 있는 것같습니다.


    다국어버젼 특히 단일 프로그램으로 다국어를 지원하는 경우에는 unicode형식을

    지원하도록 application을 수정하여야 합니다.


============================================================================

A013 : 참조할 만한 자료들.

============================================================================

1. MSDN

    당연히 윈도우즈에서 개발하려면 MSDN이 없으면 안되겠지요..

   

2. www.unicode.org

    유니코드 콘소시엄 공식 사이트입니다.

   

3. UTF계열 encoding

    자세한 정보가 http://www.elfdata.com/plugin/storage.html 에 잘 나와있네요..

   

4. 전문가가 되려면 다음 책은 필수 입니다.

    그러나 이것은 전문가를 위한 책입니다. 먼저 기본 지식을 습득한 후에 보세요.

   

    Title       : CJKV Information Processing (Chinese, Japanese, Korean &

                    Vietnamese Computing)

    Author      : Ken Lunde

    Publisher   : O'Reilly Media, Inc.

    ISBN        : 1-56592-224-7





-------------------------------------------------------------------------


아래 unnicows dll 링크관련 정보


Here is what MS says:

1. Add the following two files to your project:
   UnicoWS.dll -- the Microsoft Layer for Unicode DLL
   UnicoWS.lib -- the LIB file to which you link

Note that the Microsoft Layer for Unicode does not automatically load from
the $(WINDOWS) or $(WINSYS) directories. Thus, do not put UnicoWS.dll there
unless you are running from a system process that is located there. Instead,
keep the UnicoWS.dll in your application directory and call LoadLibrary
yourself to ensure that you load the correct .dll.

*** I did it: now unicows.dll is in my application directory
*** I receive no more the "unicows.dll not found" error but...
*** ... now I have an error on Kernel32.DLL  :(

Add the following to the link options for your application (note that these
libraries are not separated by commas because that is how you add them to
the link list):
First, add the following:
/nod:kernel32.lib /nod:advapi32.lib /nod:user32.lib /nod:gdi32.lib
/nod:shell32.lib
/nod:comdlg32.lib /nod:version.lib /nod:mpr.lib /nod:rasapi32.lib
/nod:winmm.lib
/nod:winspool.lib /nod:vfw32.lib /nod:secur32.lib /nod:oleacc.lib
/nod:oledlg.lib
/nod:sensapi.lib.

*** Not done: which are already added by wxWidget? Which are not? Help
required!

2. Then add UnicoWS.lib.

Finally, add the libraries that the Microsoft Layer for Unicode uses
explicitly:

kernel32.lib advapi32.lib user32.lib gdi32.lib shell32.lib comdlg32.lib
version.lib mpr.lib rasapi32.lib winmm.lib winspool.lib vfw32.lib
secur32.lib
oleacc.lib oledlg.lib sensapi.lib.

In this step, omit any libraries listed after kernel32.lib whose APIs are
not used in your application. However, if your application uses another
component, such as MFC, ATL, or CRT, be sure to include any libraries on
which the component depends.

*** Same as before. What sould I add and what should I not?

3. Compile your application.

If you are using side-by-side assemblies, you must define
MICROSOFT_LAYER_FOR_UNICODE as 1.

*** I assume this is done by wxWidget when I set MSLU to 1.

When you follow these steps, the Microsoft Layer for Unicode loads itself by
calling LoadLibrary. However, if you want to control the loading of the
UnicoWS.lib you must perform the following additional steps. (These steps
are also necessary if you are using side-by-side assemblies.)

*** Is this the case of wxWidget?

To control loading MSLU or use side-by-side assemblies
Add the following code to your application:
#ifdef _cplusplus
extern "C" {
#endif
extern FARPROC _PfnLoadUnicows = (FARPROC) &LoadUnicowsProc;
#ifdef _cplusplus
}
#endif

*** I assume this is done by wxWidget? Is it?

Define the LoadUnicowsProc function. This function is a user-defined
callback function that takes no parameters. The loader calls it when needed
to load the Microsoft Layer for Unicode. Note that LoadUnicowsProc is only
called on Windows 95/98/Me. Also, LoadUnicowsProc is called before the
DllMain PROCESS_ATTACH call and, for an .exe, before WinMain.

*** I assume this is done by wxWidget? Is it?

HMODULE LoadUnicowsProc(void);
The following is a typical implementation of LoadUnicowsProc.
HMODULE LoadUnicowsProc(void)
{
    return(LoadLibraryA("unicows.dll"));
}

Note that you must call LoadLibraryA and all other Ansi APIs explicitly.
This is because compiling as Unicode defines APIs like LoadLibrary as
LoadLibraryW. For more information, see Conventions for Function Prototypes.

*** I assume this is done by wxWidget? Is it?

If you load the Unicows.lib in this manner, you must never call any of the
APIs that the Microsoft Layer for Unicode itself wraps. Doing so leads to a
stack overflow because your callback calls the loader which calls your
callback, and so forth.

*** ????

Thank you for any help... in advance ;-)

DdJ


리스트뷰 컨트롤의 추가, 삭제, 수정, 검색 등

아주 기초적인 사용법에 대해 적어보고자 합니다.




이런식으로 전체적인 레이아웃을 잡고 시작한다고 봐야겠죠?

그리고 중요한 컨트롤의 컨트롤의 ID 의 값을 각각 아래와 같이 정하고 시작하겠습니다.




각각의 컨트롤에 대해서는 WM_COMMAND 메시지를 다루면 되겠죠.



추가



추가의 경우에는 지난번에 했던 방식 그대로

ListView_InsertItem 과 ListView_SetItemText 매크로를 이용하면 됩니다.


   li.mask=LVIF_TEXT;
   li.state=0;
   li.stateMask=0;
   
   idx=ListView_GetItemCount(hList);

   GetDlgItemText(hWnd,IDC_NAME,szName,255);
   GetDlgItemText(hWnd,IDC_SEX,szSex,255);
   GetDlgItemText(hWnd,IDC_ADDR,szAddr,255);


   li.iItem=idx;
   li.iSubItem=0;
   li.pszText=szName;


   ListView_InsertItem(hList,&li);
   ListView_SetItemText(hList,idx,1,szSex);
   ListView_SetItemText(hList,idx,2,szAddr);



그나마 지난번과 달라진건 컨트롤의 값을 읽어오는 GetDlgItemText 와

리스트 뷰의 아이템들의 수를 읽는 ListView_GetItemCount 가 추가된 것 밖에 없겠군요 ^^


int ListView_GetItemCount(HWND hWnd)


이게 원형입니다. sizeof 와 비슷하다고 보면 되겠군요.



삭제


삭제를 하기 위해서 사용되는 매크로는 아래와 같습니다.


int ListView_GetNextItem(HWND hWnd, int iStart, UINT flags);

BOOL ListView_DeleteItem(HWND hWnd, int iItem)


ListView_GetNextItem 의 첫번째 인수는 당연히 리스트의 핸들이고,

두번째는 어디서부터 찾을 것인가를 정하는 것입니다. -1 의 경우는

전체에서 찾는 것이고 주어지는 값에 따라 그 인덱스부터 차례로 찾아가는 것이죠.


리턴값이 int 형인데 이건 찾은 인덱스 값을 리턴합니다 ^^ 몇 번째 존재하는지를 리턴하죠.

세번째 인수는 Flags 값을 지정하는 것인데 LVNI_ALL | LVNI_SELECTED 를 보통 지정합니다.

왜 그런가 싶으면 LVNI_ALL 이나 LVNI_SELECTED 를 하나씩 삭제하여 컴파일해보면 알겠죠?


idx=ListView_GetNextItem(hList, -1, LVNI_ALL | LVNI_SELECTED);


이 경우는 만약 찾았을 경우에는 idx 의 값에는 해당 인덱스가 들어가겠지만,

찾기 실패하였을 경우에는 idx 에 -1 값이 들어갑니다.



   idx=ListView_GetNextItem(hList,-1,LVNI_ALL|LVNI_SELECTED);
   if(idx==-1)
        MessageBox(hWnd,"삭제할 아이템을 선택하세요","Error",MB_OK);
   else
   {
        while(idx!=-1)
        {
             ListView_DeleteItem(hList,idx);
             idx=ListView_GetNextItem(hList,idx-1,LVNI_ALL|LVNI_SELECTED);
        }
   }



여기서 중요한 것은 while 문의 ListView_GetNextItem 에 idx-1 이 들어간다는 것이죠.

선택된 아이템들을 하나씩 찾아서 지워주는 것이기 때문에 idx 보다 -1 된 것을 넣어야

차례로 지워나갑니다. idx  를 그대로 넣어준다면 무슨 일이 일어나는지는 직접 해보시면 압니다.


선택된 아이템들이 전부 삭제가 되지 않겠죠;



수정


수정은 추가와 비슷하여 상당히 쉽습니다. 다만 ListView_InsertItem 매크로 대신

ListView_SetItem 을 통하여 재설정을 해줘야 합니다. 아주 조금 추가와 다를 뿐,

기본 방식은 같습니다.



   idx=ListView_GetNextItem(hList,-1,LVNI_ALL|LVNI_SELECTED);

   if(idx==-1)
        MessageBox(hWnd,"수정할 아이템을 선택하세요","Error",MB_OK);
   else
   {
        GetDlgItemText(hWnd,IDC_NAME,szName,255);
        GetDlgItemText(hWnd,IDC_SEX,szSex,255);
        GetDlgItemText(hWnd,IDC_ADDR,szAddr,255);


        li.iItem=idx;
        li.iSubItem=0;
   
        ListView_SetItem(hList,&li);
        ListView_SetItemText(hList,idx,0,szName);
        ListView_SetItemText(hList,idx,1,szSex);
        ListView_SetItemText(hList,idx,2,szAddr);
   }



보시면 아시겠지만 일단 선택된 것을 찾아서 idx 에 그 인덱스 값을 넣어줍니다.

만약 선택되지 않았다면 Error 메시지박스가 뜨겠죠. 이제 LVITEM 구조체인

li 의 iItem 에 idx 값을 지정하고 iSubItem 멤버에도 첫번째 컬럼을 의미하는 0을 지정한 뒤


ListView_SetItem 으로 li 를 hList 에 설정합니다.

일단 내가 몇 번째 리스트 뷰 아이템을 설정한다고 알려주는 것이죠.


그런 뒤 ListView_SetItemText 매크로를 통하여 수정해주면 됩니다 ^^



검색



다행히 검색을 할 때도 편리하게(?) 매크로가 존재합니다.


int ListView_FindItem(HWND hWnd, int iStart, const LPLVFINDINFO plvfi);


여기서 중요한건 LVFINFO 구조체가 들어가는데요, 이건 검색의 조건으로


typedef struct tagLVFINDINFO {
    UINT flags;
    LPCTSTR psz;
    LPARAM lParam;
    POINT pt;
    UINT vkDirection;
} LVFINDINFO, *LPFINDINFO;


flags 멤버로 중요한건


LVFI_STRING    psz 멤버가 지정하는 문자열과 일치하는 텍스트를 가진 항목을 검색

LVFIN_WRAP    검색 대상이 발견되지 않을 경우 처음부터 다시 검색


이 두 개 정도로만 봐도 가장 기초적인 곳에서는 사용할 수 있습니다.

그리고 vkDirection 이라는 특이한 멤버가 존재하는데요,

이건 VK_LEFT , VK_DOWN, VK_HOME 등 가상 키를 넣어주는겁니다.


대게 VK_DOWN 을 설정하는 편이라는군요.



   LVFINDINFO fi;

   GetDlgItemText(hWnd,IDC_NAME,szName,255);


   fi.flags=LVFI_STRING;
   fi.psz=szName;
   fi.vkDirection=VK_DOWN;

   idx=ListView_FindItem(hList,-1,&fi);


   if(idx==-1)
        MessageBox(hWnd,"검색된 아이템이 없습니다","Error",MB_OK);
   else
   {
        ListView_SetItemState(hList,-1,0,LVIS_FOCUSED|LVIS_SELECTED);
        ListView_SetItemState(hList,idx,LVIS_FOCUSED|LVIS_SELECTED,0x000F);
        ListView_EnsureVisible(hList,idx,FALSE);
   }



이렇게 IDC_NAME 의 값을 읽어와 psz 에 설정한 후 ListView_FindItem 매크로에서 찾아주면 되네요.

ListView_FindItem 에서 -1 은 가장 처음에서 찾는, 전체에서 찾는다는 의미죠. 같은 문자열로 찾기를

계속 이어주려면 idx-1 값으로 루프를 돌려주면서 찾으면 되겠군요 ^^


찾았을 경우 ListView_SetItemState 로 상태를 설정해줘야하는데요.


ListView_SetItemState(hList,-1, 0,LVIS_FOCUSED|LVIS_SELECTED);

ListView_SetItemState(hList,idx,LVIS_FOCUSED|LVIS_SELECTED,0x000F);


이 두개가 왜 존재할까요? -1은 전체를 의미하고, 0은 상태를 없앤다고 보면 되죠.

일단 리스트 뷰에 어떤 항목들이 선택되어있거나 한다면 리플래시를 시켜 없앱니다.


그게 바로 ListView_SetItemState(hList,-1, 0,LVIS_FOCUSED|LVIS_SELECTED) 입니다.

그리고 나서 찾은 idx 번째의 리스트 뷰의 아이템을 선택해야하는데요, 그게 바로 두 번째인


ListView_SetItemState(hList,idx,LVIS_FOCUSED|LVIS_SELECTED,0x000F);


입니다. 마지막 인수가 16진수로 되어있지만 이것도 역시 아래와 같이 바꿀 수 있습니다.


ListView_SetItemState(hList,idx,LVIS_FOCUSED|LVIS_SELECTED, LVIS_FOCUSED|LVIS_SELECTED);


여기까지가 가장 기초적인(?) 방법이었네요.

사실상 개인적으로 시간이 많이 먹었던 부분이예요.


좀더 자세한건 소스 첨부 했으니 참고하시면 되구요 ^^;

다음엔 WM_NOTIFY 에 해당되는 리스트 뷰의 메시지 관리를 적어보겠습니다.

출처 : http://cafe.naver.com/seen/131

1) GetAsyncKeyState() 함수와 2) GetKeyState()는 사용방법이 다른데


1)은 비동기(Asynchronism)으로 처리 한다.

  : 호출된 시점에서 키 상태를 조사하여, 메시지 큐를 거치지 않고 바로 리턴을

    해주므로 키 입력을 바로 처리해 줄 수 가 있다.

2)는 호출된 시점에서 메시지 큐를 거치며, 메시지 발생 후의 상태를 리턴하게 되므로, 키보드 메시지

   처리 루틴내에서 사용해야 한다.


바로바로 키 입력을 처리해야하는 경우는 GetAsyncKeyState()를 사용하는 것이 바람직하다.


1) GetAsyncKeyState() 사용법


GetAsyncKeyState(해당키) 는 키가 눌려진 시점에 0x8000 값을 리턴해주고

키가 눌려 있었다면 0x0001 값을 리턴한다.


0x8000 은 현재 키가 눌려진 상태를 말하고

0x0001 은 키가 눌려있었음을 말해준다.


따라서 GetAsyncKeyState() & 0x8000 을 하면 키가 방금 눌렸을 경우만 1이 된다.

          GetAsyncKeyState() & 0x0001 을 하면 키가 눌려있었는지를 판단할 수 있다.


간단 예제


 while(1) {
  while(GetAsyncKeyState(VK_UP) & 0x0001) {
   au.vol_up();
  }
  while(GetAsyncKeyState(VK_DOWN) & 0x0001) {
   au.vol_down();
  }
  if(GetAsyncKeyState(VK_LEFT) & 0x0001) break;
 }


윗키, 아래키를 눌렀을때는 볼륨을 올리고 내리고

왼쪽키는 while문을 중단 시키는 역할을 한다.


 2) GetKeyState() 사용법

   : GetKeyState()는 해당키가 눌린 상태일때는 음수값을 리턴, 아닐 경우는

      해당키가 눌리지 않았음을 나타낸다.


if(GetKeyState(VK_CONTROL) < 0) // 눌려있는 상태이면... 이란 뜻으로 쓰인다

출처 : http://blog.naver.com/mklife/150020920925

출처 : http://blog.naver.com/joju1200/50003815326




1. 프로그램을 인스톨할때 한글이 깨질경우

일본어 게임때문에 AppLocale을 쓰고 다른 한글프로그램을 인스톨을 하면 몽땅 한글이 깨져버립니다.

AppLoc로 인해 윈도우인스톨러가 문제가 일어나는데 이걸 해결하는 방법입니다.

 어프로캘의 소개 페이지에 가 보시면 자세한 사항을 열람할 수 있으시겠지만, 어프로캘은 문자코드 문제의 일시적인 해결책일 뿐이며, 공식적인 사용자 지원이 이루어지지 않을 것이라고 적혀 있거든요.

저도 이 문제로 꽤나 속을 썩였습니다만, 오픈오피스 유저포럼의 정규님께서 비공식적이지만 해결책을 만들어 주셨습니다. 관련 레지스트리를 고쳐서 문제를 해결해주는 픽스인데요. [여기]서 파일을 받아, 포함된 레지스트리 파일을 실행 시켜주면 됩니다. 레지스트리를 직접 건드리는 패치이기 때문에 저어하시는 분들이 계실지 모르겠습니다만, 악성 코드같은 건 들어있지 않으니 안심하시고(;]), 저의 경우 패치를 하고서 아직까지 문제는 없었습니다. 또, 현재로서는 이게 유일한 해결책인 것 같습니다.

관련된 자세한 정보는 패치를 만들어주신 정규님의 블로그에서 찾아볼 수 있습니다.

파일명은 disable_msiexec_fix 입니다.

이 패치을 만드신 정규님 블러그 http://oooko.net/gomme/?p=131

오픈오피스 유저포럼 토론출처

http://oooko.ncity.net/forums/viewtopic.php?p=1252&sid=4d52419b7f9ebec50681b15e527c3e14

전파발전소 블러그

http://yser.egloos.com/2046738

관련 블러그

http://nudimmud.net/irisell/irisell.cgi?20051262n

2. 인터넷에서 한글이 한자로 보일 경우(한글로 작성된 웹페이지가 한자로 보일경우)

윈도우 폴더 안에 AppPatch폴더가 있는데 그 안에 있는 AppLoc.tmp 파일

(Drive root:\WINDOWS\AppPatch\AppLoc.tmp)

삭제 하시면 해결 되실겁니다.

apploc.tmp 삭제 해도 한자가 나오는 경우가 있는데

이때는 Applocale을 삭제 하신 후 재설치 하면 해결 될 겁니다.

apploc 을 실행시킬때다 apploc.tmp가 생기기떄문에 일일히 지우기 굉장히 귀잖으니

이럴때 배치파일로 한방에 날리세요

메모장을 연다음

del C:\WINDOWS\AppPatch\AppLoc.tmp

을 내용을 입력해서 다른이름으로 저장으로 하고 AppDel.bat 라는 파일을 만듭니다

파일병은 아무거나 해도 되지만 왠만하면 영어로 하시고 확장자는 BAT로 하세요

당연히 배치파일은 걍 바탕화면에 냅두면 됩니다.

AppDel.bat을 누루면 알아서 apploc.tmp을 삭제합니다.

BAT파일을 AppDel.bat라는 파일로 첨부했습니다.

BAT방법으로도 인터넷에 한자가 보일경우 귀잖지만 일일히 익스플로어메뉴의 보기 -> 인코딩 -> 한글로 바꿀수 밖에 없습니다.

최후의 방법은 중국어폰트와 일본어폰트을 삭제하면 됩니다.

3. AppLocale 다운로드 apploc


+ Recent posts