본문 바로가기
오늘하루생활

정렬·필터·중복 제거로 데이터 청소하기: 실무 정리 루틴

by samipea 2025. 12. 20.

엑셀이나 구글시트로 보고서를 만들 때 “피벗이 이상하게 나와요”, “합계가 안 맞아요” 같은 문제는 함수 실력보다 원본 데이터가 더럽기 때문인 경우가 훨씬 많습니다. 띄어쓰기 하나, 중복 한 줄, 잘못된 날짜 형식 하나가 결과를 전부 틀어버립니다.

이번 글은 실무에서 가장 많이 쓰는 데이터 청소(클리닝) 3종 세트인 정렬(Sort) · 필터(Filter) · 중복 제거(Remove duplicates)를 “순서대로” 적용하는 루틴으로 정리했습니다. 글을 끝까지 따라오면, 원본 데이터를 보고서/피벗/함수에 바로 써도 안전한 상태로 만들 수 있습니다.

1. 청소를 시작하기 전: 반드시 지켜야 할 3가지

  1. 원본 백업: 시트를 복사하거나(엑셀: 시트 탭 우클릭 > 이동/복사, 구글시트: 시트 복사) 최소한 파일 버전을 하나 저장해 둡니다.
  2. 표(테이블) 구조 확인: 헤더 1행, 빈 행/빈 열 없음, 병합 없음이 기본입니다. (이전 편의 “테이블로 시작” 규칙이 여기서 바로 효과를 봅니다.)
  3. 정렬/중복 제거는 ‘전체 범위’ 기준: 일부 열만 선택해서 정렬하면 데이터가 뒤섞여 사고가 납니다. 항상 표 전체 범위를 잡고 작업하세요.

2. 실무 데이터 청소의 정석 순서

실무에서는 아래 순서가 가장 안전합니다. 필터로 문제를 찾고 → 정렬로 흐름을 잡고 → 중복 제거로 마지막 정리를 합니다.

  1. 필터: 이상값/빈칸/오타를 눈으로 빠르게 찾기
  2. 정렬: 날짜/금액/담당자 기준으로 구조 정리
  3. 중복 제거: 중복 레코드를 제거(또는 중복 여부 표시)

물론 상황에 따라 순서를 바꿀 수도 있지만, 초보자일수록 위 루틴이 사고가 적습니다.

3. 필터(Filter): 문제를 찾는 가장 빠른 방법

3-1) 엑셀에서 필터 켜기

  • 단축키: Ctrl + Shift + L
  • 메뉴: 데이터 > 필터

3-2) 구글시트에서 필터 켜기

  • 메뉴: 데이터 > 필터 만들기

3-3) 필터로 반드시 체크할 것(실무 빈도 TOP)

  • 빈칸(Blanks): 날짜/금액/담당자 같은 핵심 열의 빈칸은 보고서 누락의 원인이 됩니다.
  • 오타/표기 흔들림: 예) “완료”, “완 료”, “완료 ”(뒤 공백), “완료(확정)”처럼 상태 값이 여러 형태로 섞이면 집계가 분산됩니다.
  • 0 또는 음수: 금액/수량에서 0이나 음수가 의미 있는 값인지(환불/반품) 확인이 필요합니다.
  • 날짜 범위: 월별 보고서인데 다른 월이 섞였는지, 잘못된 연도(예: 2024가 섞임)가 있는지 확인합니다.

3-4) 자주 쓰는 필터 팁 4가지

  1. 텍스트 필터로 “포함/시작/끝” 조건을 걸어 빠르게 추려보기
  2. 숫자 필터로 “이상/이하/상위 10개” 확인하기
  3. 색 기준 필터는 원인 파악에만 쓰고, 최종 데이터는 색 의존을 줄이기
  4. 필터 적용 중에는 행 번호가 끊겨 보이는 것이 정상(숨김 처리)

4. 정렬(Sort): 흐름을 정리하고 이상값을 드러내기

정렬은 단순히 보기 좋게 만드는 기능이 아니라, 이상값을 ‘튀게’ 만들어서 찾아내는 기능입니다. 예를 들어 날짜를 오름차순으로 정렬하면, 잘못 입력된 날짜(예: 2023-01-01)가 맨 위/아래로 튀어 나옵니다.

4-1) 정렬 전 체크리스트

  • 표 전체 범위를 선택했는가?
  • 헤더 포함 여부가 올바르게 인식되는가?
  • 병합 셀/빈 행/빈 열이 없는가?

4-2) 실무에서 가장 많이 하는 정렬 5가지

  1. 날짜 오름차순: 입력 실수(연도/월/일) 탐지에 최강
  2. 담당자 + 날짜: 담당자별 처리 흐름 확인
  3. 거래처(고객명) + 날짜: 고객별 누락/중복 탐지
  4. 금액 내림차순: 상위/하위 값 검토(이상치 탐지)
  5. 상태(진행중/완료/보류): 업무 병목 구간 파악

4-3) 다중 정렬(예: 담당자 → 날짜)의 요령

다중 정렬은 “1차 기준”이 가장 중요합니다. 예를 들어 담당자별로 묶고 그 안에서 날짜 순서를 보고 싶다면, 담당자를 먼저, 날짜를 다음으로 설정합니다.

  • 엑셀: 데이터 > 정렬에서 수준(레벨) 추가
  • 구글시트: 데이터 > 범위 정렬에서 기준 열을 선택

4-4) 정렬 사고를 막는 핵심 2가지

  • 열 일부만 선택해서 정렬하지 않기 (데이터가 서로 다른 행으로 섞입니다)
  • 병합 셀 제거 후 정렬하기 (정렬 오류/경고의 원인)

5. 중복 제거(Remove duplicates): ‘삭제’보다 먼저 판단하기

중복 제거는 강력하지만 위험합니다. 잘못 지우면 복구가 번거롭고, “중복처럼 보이지만 실제로는 다른 건”을 날릴 수도 있습니다. 그래서 실무에서는 보통 중복을 ‘발견’하고 ‘검증’한 다음 ‘제거’합니다.

5-1) 중복의 종류(실무에서 자주 나오는 형태)

  • 완전 중복: 모든 열 값이 동일
  • 키 중복: 주문번호/거래ID/사번 등 핵심 키가 동일
  • 유사 중복: 이름/금액은 같은데 날짜만 다름(정말 중복인지 확인 필요)

5-2) 엑셀에서 중복 제거하는 방법

  1. 표 전체 범위 클릭
  2. 데이터 > 중복 제거
  3. 기준 열 선택: 보통은 주문번호/거래ID 같은 키 열 중심
  4. 제거 결과(삭제된 개수)를 확인 후 저장

5-3) 구글시트에서 중복 처리하는 방법

  • 메뉴: 데이터 > 데이터 정리 > 중복 항목 제거(환경에 따라 명칭이 다를 수 있음)
  • 또는 “표시 후 검증” 방식: 조건부 서식으로 중복을 표시해 확인한 뒤 제거

5-4) (추천) 삭제 대신 “중복 표시”로 안전하게 검증하기

중복을 바로 삭제하기 부담스럽다면, 먼저 중복 여부를 표시해 눈으로 확인하세요. 가장 쉬운 방법은 조건부 서식입니다.

  • 엑셀: 홈 > 조건부 서식 > 셀 강조 규칙 > 중복 값
  • 구글시트: 서식 > 조건부 서식에서 “사용자 지정 수식”으로 중복 강조

중복 표시를 먼저 하면, “진짜로 지워도 되는 중복”만 골라 처리할 수 있어 실무 사고를 크게 줄입니다.

6. 데이터 청소 후 마지막 점검 체크리스트(실무용)

  • 헤더가 1행에 있고, 열 이름이 명확하다
  • 핵심 열(날짜/금액/담당자/상태)에 빈칸이 없다(또는 빈칸의 의미가 정의되어 있다)
  • 상태/구분 값이 표준화되어 있다(오타/공백/유사 표현 제거)
  • 날짜 형식이 통일되어 있다(텍스트 날짜가 섞이지 않음)
  • 숫자 열은 숫자만 있고, 단위/통화기호는 서식으로 처리한다
  • 중복 제거 기준 열(키)이 명확하고, 삭제 전에 검증했다
  • 필터를 전체 해제했을 때 총 행 수가 예상과 맞다

이 체크리스트를 통과하면, 다음 단계인 텍스트 처리/함수/피벗테이블에서 오류가 크게 줄어듭니다.

마무리

데이터 청소는 “한 번만 하면 끝”이 아니라, 매번 같은 방식으로 반복할수록 빨라집니다. 오늘 소개한 루틴은 간단합니다. 필터로 찾고 → 정렬로 드러내고 → 중복을 검증 후 제거. 이 3단계를 습관으로 만들면, 보고서 품질과 작업 속도가 동시에 올라갑니다.