본문으로 건너뛰기
실습하기

책임 있는 데이터 활용: 윤리와 개인정보 보호

개인정보 보호와 공정성을 고려하지 않은 무분별한 데이터 분석은 비즈니스에 큰 피해를 초래할 수 있습니다.

실제 사례로, 2019년 구글은 어린이 이용자의 동의 없이 YouTube 데이터를 수집한 사실이 드러나 연방거래위원회(FTC) 등과 1억 7천만 달러(약 2조 2천억 원) 규모의 벌금에 합의한 바 있습니다.

윤리적이고 책임 있는 데이터 활용은 데이터 분석가에게 필수적인 역량입니다.


윤리적 데이터 활용을 위해 무엇을 고려해야 할까요?

데이터를 분석할 때는 다음과 같은 부분을 반드시 점검해야 합니다.

  • 개인정보 보호: 개인을 식별할 수 있는 세부 정보가 노출되지 않는가?
  • 동의: 데이터 수집 시 당사자의 동의를 적절히 받았는가?
  • 편향: 특정 집단이 과소대표되거나 왜곡된 데이터는 아닌가?
  • 보안: 데이터가 안전하게 저장되고 관리되고 있는가?

특히 이름, 이메일, 나이 같은 정보는 적법한 절차로 수집되어야 하며, 수집된 데이터는 익명화 과정을 거치는 것이 좋습니다.


익명화란?

민감한 데이터를 다룰 때 분석가는 보통 익명화(Anonymization)를 수행합니다.

익명화는 개인을 식별할 수 있는 정보를 삭제하거나 마스킹(Masking, 숨김)해 특정 개인을 알아볼 수 없게 만드는 과정입니다.


개인 데이터 익명화 예제

아래는 개인 데이터에서 이름을 익명화하는 파이썬 예시 코드입니다.

개인 데이터 익명화
# 개인 이름과 나이가 포함된 예시 데이터
data = [
{"name": "Lina", "age": 25},
{"name": "Marcus", "age": 30}
]

# 개인정보 보호를 위해 이름을 일반적인 자리표시자로 대체
for person in data:
person["name"] = "REDACTED" # 이름을 "익명" 처리

# 익명화된 데이터 출력
print(data)
  • 예시 데이터에는 설문을 통해 수집한 이름과 나이가 포함되어 있습니다.
  • 신원 보호를 위해 이름을 "REDACTED"로 변경했습니다.
  • 이는 데이터를 공유하거나 분석하기 전 흔히 수행하는 첫 번째 단계입니다.

다음 내용이 궁금하다면?

코드프렌즈 PLUS 멤버십 가입 or 강의를 등록해 주세요!