DATA/데이터 사이언스

DATA/데이터 사이언스

    [데이터 사이언스] pandas

    pandas란? 원래 데이터 사이엔스에서는 파이썬보다 R이 훨씬 인기가 많았습니다. R은 애초에 통계를 위해 만들어진 언어이기 때문에 데이터 분석에 파이썬보다 적합했습니다. 그러다가 개발자들이 R의 장점을 파이썬으로 베껴오기 시작했습니다. R에서 데이터를 보관, 분석 시 가장 핵심적 역할을 한 게 DataFrame인데, 파이썬의 pandas 그 DataFrame을 사용할 수 있게 해놓은 라이브러리입니다. pandas는 numpy를 이용해서 만들어졌으므로 numpy의 기능들은 pandas에 기본적으로 있다고 보면 되고, 거기에 추가로 데이터 분석, 정리, 외부 데이터 읽고 쓰기 등 편리한 기능들이 추가된 것이 pandas입니다. pandas로 DataFrame 만들어보기 HTML 삽입 미리보기할 수 없는 ..

    [데이터 사이언스] 데이터 만들기

    데이터를 만드는 방법 데이터 다운로드 받기 데이터를 구하는 가장 쉬운 방법은 이미 누군가가 만들어둔 데이터를 사용하는 것입니다. 아래는 데이터를 검색하는 사이트나 데이터를 공유하는 사이트들의 목록입니다. 국내 사이트 서울열린데이터광장 공공데이터포털 e-나라지표 국가통계포털 서울특별시 빅데이터 캠퍼스 통계청 해외 사이트 UC 얼바인 머신러닝 저장소 아마존 AWS 데이터셋 구글 데이터 검색 캐글 Awesome Public Datasets Github Data and Story Library 데이터허브 공개 데이터 저장소가 나열되어 있는 사이트들 데이터 포털 오픈 데이터 모니터 퀀들 위키백과 머신러닝 데이터셋 목록 Quora.com 데이터셋 서브레딧 이 외에도 구글 등의 검색 엔진을 활용하면 더 다양한 데이터..

    [데이터 사이언스] 데이터 퀄리티 높이기

    데이터 퀄리티의 중요성 데이터 분석을 시작하기 전에 좋은 퀄리티의 데이터를 사용하는 게 우선입니다. 분석할 때 안 좋은 데이터를 분석하면 안 좋은 결과가 나올 가능성이 높습니다. 대부분의 경우에는 우리에게 주어진 데이터는 완벽하지 않습니다. 우리는 좋은 데이터가 뭔지 판단할 수 있어야 하고, 마음에 들지 않는 데이터가 있으면 그 데이터의 퀄리티를 높이는 법을 알아야 합니다. 좋은 데이터의 기준 좋은 데이터의 기준을 얘기해보고 아래 데이터 클리닝에서 데이터 퀄리티를 높여보겠습니다. 완결성: 필수적 데이터는 모두 기록되어 있어야 함 완결성은 결측값이 있는지 확인하면 됩니다. 결측값이 존재하면 완결성이 없는 데이터셋입니다. pandas DataFrame에서 결측값은 NaN으로 표시됩니다. 유일성: 동일한 데이..

    [데이터 사이언스] 데이터 분석과 시각화

    시각화와 그래프 이번에는 데이터를 시각화해보겠습니다. 시각화가 중요한 이유는 크게 두가지가 있는데요, 첫번째로, 시각화는 데이터를 분석하는 데에 도움을 줍니다. 두번째로, 시각화는 리포팅에 도움을 줍니다. 이제 가장 기본적인 그래프 몇 가지를 살펴보도록 하겠습니다. 선 그래프 막대 그래프 파이 그래프 히스토그램 박스 플롯 산점도 seaborn 시각화 seaborn이라는 라이브러리를 이용해서 그래프를 그릴 수 있는데, seaborn을 사용하면 더 많은 그래프를, 더 멋지게 그려낼 수 있습니다. 그렇게 되면 같은 데이터로부터 더 좋은 insight를 얻게 될 수도 있습니다. KDE Plot LM Plot 카테고리별 시각화 상관 계수 시각화 EDA EDA(Exploratory Data Analysis)는 주어..

    [데이터 사이언스] DataFrame 다루기

    DataFrame 인덱싱 데이터 변형하기 DataFrame에 값 쓰기 DataFrame에 값 추가/삭제 index/column 설정하기 큰 데이터 다루기 큰 DataFrame 살펴보기 큰 Series 살펴보기

    [데이터 사이언스] 데이터 사이언스란?

    데이터 사이언스란? 데이터 과학이란, 데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야입니다. 데이터 사이언스에 대한 오해 데이터 사이언스에서 가장 중요한 건 인공지능, 딥러닝이다. 데이터를 모으는 과정, 데이터를 옮기고 저장하는 과정, 데이터를 정리하는 과정, 데이터 분석, 데이터에 대한 다양한 테스트나 시도가 있는 후에야 인공지능은 이뤄질 수 있습니다. 그런데 미디어에서 요즘 너무 딥러닝, 인공지능만 강조하다 보니 인공지능 외 선행되어야 할 과정들이 등한시되고있습니다. 인공지능이 있기 전의 과정에서는 적은 노력으로 많은 가치를 얻을 수도 있습니다. 그렇지만 인공지능의 과정에서는 노력,..