출처 : http://www.webmadang.net/database/database.do?action=read&boardid=4001&page=null&seq=5

[MSSQL - GROUP BY HAVING 을 이용한 중복 데이타 체크]



1 - 단일 테이블에서 GROUP BY HAVING 을 이용한 중복 데이타 체크

아래와 같은 로그인 정보를 기록하는 9개의 레코드를 가진 테이블이 있다고 가정하겠습니다. 테이블의 이름은
"loginLog_tbl" 이고 로그인 로그(log)를 기록해야 하니 당연히 중복된 데이타가 들어가 있을것입니다. 

위 테이블의 레코드를 보면 mfcchang이라는 uid가 3회나 로그인 했다는 것을 알 수 있습니다. 레코드의 갯수가 작아서
눈으로도 파악이 되지만 레코드의 갯수가 많을때는 다음과 같은 쿼리문으로 간편하게 파악 할 수도 있습니다.

SELECT uid, count(*) AS loginCount FROM loginLog_tbl GROUP BY uid ORDER BY loginCount DESC

위와 같은 쿼리를 실행해보면 GROUP BY 에 의해서 uid 컬럼의 count가 집계되고 결과는 아래와 같습니다.

 

여기에 Having 절의 제약조건을 이용해서 loginCount가 1 보다 큰것만 출력해 보겠습니다. loginCount 는 count(*)의 엘리어스 이니까, Having 절 이하는 아래와 같을 것입니다.

SELECT uid, count(*) AS loginCount FROM loginLog_tbl GROUP BY uid HAVING count(*) > 1

출력해 보면 결과는 아래와 같습니다. 아래의 결과에서 두번 즉 2회 이상 로그인한 사람은 kimchi 와 mfcchang 이라는 uid의 소유자 뿐임을 알수 있습니다.

 

어떠한 경우에서든 데이타의 중복을 확인하고자 한하면 바로 위의 쿼리문을 이용하시면 됩니다. 중복을 체크하고자 하는 
기준이 되는 컬럼만 바꾸면 될 것입니다.



2 - 두개 이상의 테이블에서 GROUP BY HAVING 을 이용한 중복 데이타 체크 

그렇다면 중복을 체크하고자 하는 컬럼이 위와 같이 테이블이 하나가 아니고 둘또는 셋이상에 걸쳐서 존재한다면 어떻게
처리하면 될까요? 테이블간에 합집합의 결과를 모두 보여주는 UNION ALL 로 테이블을 결합하시면 됩니다.

아래와 같이 로그인 정보를 기록하는 테이블이 하나 더 있고, 이 테이블은 예전에 퇴사한 선임자가 만들어 놓은 것이라고 
가정하겠습니다. 테이블의 이름은 loginLogTABLE 입니다.

 

처음에 사용했던 loginLog_tbl과 바로 위의 logLogTABLE에서 uid 컬럼의 데이타값이 2 개 이상인 것을 찾아내는
쿼리는 아래와 같습니다.

SELECT uid, count(*) AS loginCount FROM 
SELECT uid FROM loginLog_tbl UNION ALL SELECT uid FROM loginLogTABLE ) AS T
GROUP BY uid HAVING count(*) > 1

하나의 테이블을 사용할때와 틀린부분은 UNION ALL 로 해당 테이블을 묶어서 서브쿼리로 처리한다는 것뿐입니다.
결과는 아래와 같습니다. 두개의 테이블의 레코드 갯수가 몇개 없으니 눈으로도 확인 가능할 것입니다.

작성자: 다자래(mfcchang@naver.com) 
웹제작 토탈 커뮤니티 http://www.webmadang.net


+ Recent posts