Justweon
Justweon
Justweon
전체 방문자
오늘
어제
  • 분류 전체보기 (74)
    • 웹 개발 (2)
      • React (0)
      • Spring (0)
    • 모바일 앱 프로그래밍 (4)
    • 네트워크 프로그래밍 (17)
      • C (17)
    • DATA (42)
      • 데이터 사이언스 (6)
      • 머신 러닝 (31)
      • 데이터베이스 (2)
      • 기타 (3)
    • 토이 프로젝트 (0)
      • 닮은 배우 분류기 (0)
      • PDF 변환기 (GUI) (0)
    • 취미 (1)
      • Photoshop (1)
      • 먹부림 (0)
    • 이것저것 (2)
    • 보안 (1)
      • 드림핵 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 하이퍼파라미터
  • 파이썬
  • 그리드 서치
  • 데이터 사이언스
  • 데이터 전처리
  • 콜백
  • 맛집
  • 프로젝트
  • 알고리즘
  • 샐러드
  • pandas
  • keras
  • 토이프로젝트
  • 포토샵
  • 하이퍼 파라미터
  • 취미
  • 코랩
  • 모델 평가
  • 텐서보드
  • 과대적합(overfitting)
  • SVM
  • 정규화
  • 머신 러닝
  • 과소적합(underfitting)
  • tensorflow
  • GUI
  • 심층 신경망
  • 시각화
  • MLP
  • 경사 하강법

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Justweon

Justweon

DATA/데이터 사이언스

[데이터 사이언스] 데이터 퀄리티 높이기

2022. 1. 3. 19:15

데이터 퀄리티의 중요성

데이터 분석을 시작하기 전에 좋은 퀄리티의 데이터를 사용하는 게 우선입니다.
분석할 때 안 좋은 데이터를 분석하면 안 좋은 결과가 나올 가능성이 높습니다.

 

대부분의 경우에는 우리에게 주어진 데이터는 완벽하지 않습니다.
우리는 좋은 데이터가 뭔지 판단할 수 있어야 하고,
마음에 들지 않는 데이터가 있으면 그 데이터의 퀄리티를 높이는 법을 알아야 합니다.

좋은 데이터의 기준

좋은 데이터의 기준을 얘기해보고 아래 데이터 클리닝에서
데이터 퀄리티를 높여보겠습니다.

완결성: 필수적 데이터는 모두 기록되어 있어야 함

완결성은 결측값이 있는지 확인하면 됩니다.
결측값이 존재하면 완결성이 없는 데이터셋입니다.

 

pandas DataFrame에서 결측값은 NaN으로 표시됩니다.

유일성: 동일한 데이터가 불필요하게 중복되어 있으면 안됨
통일성: 데이터가 동일한 형식으로 저장되어 있어야 함
정확성: 데이터가 정확해야 함

데이터 클리닝

완결성
유일성
정확성

'DATA > 데이터 사이언스' 카테고리의 다른 글

[데이터 사이언스] pandas  (0) 2023.01.19
[데이터 사이언스] 데이터 만들기  (0) 2022.01.03
[데이터 사이언스] 데이터 분석과 시각화  (0) 2022.01.03
[데이터 사이언스] DataFrame 다루기  (0) 2022.01.03
[데이터 사이언스] 데이터 사이언스란?  (2) 2022.01.03
    'DATA/데이터 사이언스' 카테고리의 다른 글
    • [데이터 사이언스] pandas
    • [데이터 사이언스] 데이터 만들기
    • [데이터 사이언스] 데이터 분석과 시각화
    • [데이터 사이언스] DataFrame 다루기
    Justweon
    Justweon
    공부 목적을 위해 기록하는 블로그입니다 :)

    티스토리툴바