문제 설명
대장균들은 일정 주기로 분화하며, 분화를 시작한 개체를 부모 개체, 분화가 되어 나온 개체를 자식 개체라고 합니다.
다음은 실험실에서 배양한 대장균들의 정보를 담은 ECOLI_DATA 테이블입니다. ECOLI_DATA 테이블의 구조는 다음과 같으며, ID, PARENT_ID, SIZE_OF_COLONY, DIFFERENTIATION_DATE, GENOTYPE 은 각각 대장균 개체의 ID, 부모 개체의 ID, 개체의 크기, 분화되어 나온 날짜, 개체의 형질을 나타냅니다.
Column name | Type | Nullable |
ID | INTEGER | FALSE |
PARENT_ID | INTEGER | TRUE |
SIZE_OF_COLONY | INTEGER | FALSE |
DIFFERENTIATION_DATE | DATE | FALSE |
GENOTYPE | INTEGER | FALSE |
최초의 대장균 개체의 PARENT_ID 는 NULL 값입니다.
문제
대장균 개체의 ID(ID)와 자식의 수(CHILD_COUNT)를 출력하는 SQL 문을 작성해주세요. 자식이 없다면 자식의 수는 0으로 출력해주세요. 이때 결과는 개체의 ID 에 대해 오름차순 정렬해주세요.
예시
예를 들어 ECOLI_DATA 테이블이 다음과 같다면
ID | PARENT_ID | SIZE_OF_COLONY | DIFFERENTIATION_DATE | GENOTYPE |
1 | NULL | 10 | 2019/01/01 | 5 |
2 | NULL | 2 | 2019/01/01 | 3 |
3 | 1 | 100 | 2020/01/01 | 4 |
4 | 2 | 17 | 2020/01/01 | 4 |
5 | 2 | 10 | 2020/01/01 | 6 |
6 | 4 | 101 | 2021/01/01 | 22 |
ID 1인 개체의 자식은 ID 3으로 1개 ID 2인 개체의 자식은 ID 4,5 로 2개 ID 4인 개체의 자식은 ID 6으로 1개이며 나머지 개체들은 자식이 없으므로 ID 에 대해 오름차순 정렬하면 결과는 다음과 같아야 합니다.
ID | CHILD_COUNT |
1 | 1 |
2 | 2 |
3 | 0 |
4 | 1 |
5 | 0 |
6 | 0 |
문제 풀이
문제 파악
•
자식의 수를 확인하고 ID와 대치시켜 묶는다.
로직
1.
현재 테이블 다음과 같다.
ID | PARENT_ID | SIZE_OF_COLONY | DIFFERENTIATION_DATE | GENOTYPE |
1 | NULL | 10 | 2019/01/01 | 5 |
2 | NULL | 2 | 2019/01/01 | 3 |
3 | 1 | 100 | 2020/01/01 | 4 |
4 | 2 | 17 | 2020/01/01 | 4 |
5 | 2 | 10 | 2020/01/01 | 6 |
6 | 4 | 101 |
•
우선 자식의 수를 합산하여 각 ID에 할당해줘야 하고.
•
PARENT_ID가 NULL인 건 0으로 반환하여 넘긴다.
2.
외부쿼리의 id와 내부쿼리의 parent_id와 같으면 해당 카운트 수 반환
주요 사용 함수
•
IFNULL : 해당 Column의 값이 NULL을 반환할 때, 다른 값으로 출력할 수 있도록 하는 함수
•
CASE, COALESCE가 추가로 있다.
◦
CASE : 해당 Column 값을 조건식을 통해 True, False를 판단하여 조건에 맞게 Column값을 변환할 때 사용하는 함수
◦
COALESCE : 지정한 표현식들 중에 NULL이 아닌 첫 번째 값을 반환한다. 모든 DBMS에서 사용가능
배타적 OR 관계 열에서 활용도가 높다.
엔터티(테이블)에서 두 개 이상의 속성(열) 중 하나의 값만 가지는 데이터 일 경우
의사 코드
1.
내부 쿼리
SELECT
COUNT(*)
FROM
ECOLI_DATA
GROUP BY
PARENT_ID
HAVING
PARENT_ID = 외부 쿼리의 ID
SQL
복사
2.
외부쿼리
SELECT
ID # ID 칼럼을 조회
, IFNULL(
(
각 ID에 대해, 이 ID를 PARENT_ID로 가진 자식의 개수를 계산
), 0
) AS CHILD_COUNT #자식수로 명명
FROM
ECOLI_DATA # 테이블
ORDER BY
ID # ID 오름차순
SQL
복사
코드
SELECT
ID
, IFNULL(
(
SELECT
COUNT(*)
FROM
ECOLI_DATA
GROUP BY
PARENT_ID
HAVING
PARENT_ID = ID
), 0
) AS CHILD_COUNT
FROM
ECOLI_DATA
ORDER BY
ID
SQL
복사
다른 방식
SELECT
A.ID
, COALESCE(B.COUNT, 0) AS CHILD_COUNT
# 두 칼럼을 합치는 기능
# NULL값을 특정 값으로 변환
FROM
ECOLI_DATA A
LEFT JOIN (
SELECT
PARENT_ID, COUNT(*) AS COUNT
FROM
ECOLI_DATA
GROUP BY
PARENT_ID
HAVING
PARENT_ID IS NOT NULL
) B
ON A.ID = B.PARENT_ID
ORDER BY
ID
SQL
복사
SELECT
PARENT.ID
, COUNT(CHILD.ID) AS CHILD_COUNT
FROM
ECOLI_DATA AS PARENT
LEFT OUTER JOIN
ECOLI_DATA AS CHILD
ON
PARENT.ID = CHILD.PARENT_ID
GROUP BY
PARENT.ID
ORDER BY
ID
SQL
복사
•
서브쿼리를 반복적으로 실행하는 첫 번째 쿼리에 비해, 두 번째 쿼리는 조인과 그룹화를 통해 모든 작업을 한 번의 스캔으로 처리합니다.
•
두 번째 쿼리는 데이터베이스가 조인과 그룹화 연산을 효율적으로 최적화할 수 있기 때문에, 대량의 데이터에 대해서도 상대적으로 더 나은 성능을 보일 수 있습니다.
•
일반적으론 두 번째 쿼리가 더 빠르다.