pandas

    [데이터 사이언스] pandas

    pandas란? 원래 데이터 사이엔스에서는 파이썬보다 R이 훨씬 인기가 많았습니다. R은 애초에 통계를 위해 만들어진 언어이기 때문에 데이터 분석에 파이썬보다 적합했습니다. 그러다가 개발자들이 R의 장점을 파이썬으로 베껴오기 시작했습니다. R에서 데이터를 보관, 분석 시 가장 핵심적 역할을 한 게 DataFrame인데, 파이썬의 pandas 그 DataFrame을 사용할 수 있게 해놓은 라이브러리입니다. pandas는 numpy를 이용해서 만들어졌으므로 numpy의 기능들은 pandas에 기본적으로 있다고 보면 되고, 거기에 추가로 데이터 분석, 정리, 외부 데이터 읽고 쓰기 등 편리한 기능들이 추가된 것이 pandas입니다. pandas로 DataFrame 만들어보기 HTML 삽입 미리보기할 수 없는 ..

    [데이터 사이언스] 데이터 분석과 시각화

    시각화와 그래프 이번에는 데이터를 시각화해보겠습니다. 시각화가 중요한 이유는 크게 두가지가 있는데요, 첫번째로, 시각화는 데이터를 분석하는 데에 도움을 줍니다. 두번째로, 시각화는 리포팅에 도움을 줍니다. 이제 가장 기본적인 그래프 몇 가지를 살펴보도록 하겠습니다. 선 그래프 막대 그래프 파이 그래프 히스토그램 박스 플롯 산점도 seaborn 시각화 seaborn이라는 라이브러리를 이용해서 그래프를 그릴 수 있는데, seaborn을 사용하면 더 많은 그래프를, 더 멋지게 그려낼 수 있습니다. 그렇게 되면 같은 데이터로부터 더 좋은 insight를 얻게 될 수도 있습니다. KDE Plot LM Plot 카테고리별 시각화 상관 계수 시각화 EDA EDA(Exploratory Data Analysis)는 주어..

    [데이터 사이언스] DataFrame 다루기

    DataFrame 인덱싱 데이터 변형하기 DataFrame에 값 쓰기 DataFrame에 값 추가/삭제 index/column 설정하기 큰 데이터 다루기 큰 DataFrame 살펴보기 큰 Series 살펴보기