분류 전체보기
[Photoshop] 포토샵 드과자
포토샵 공부를 시작했어 이번에 인프런에서 무료 강의 이벤트를 하는 걸 보고 바로 해야겠다고 결심했지 뭐야 1월 17일까지니까 관심 있는 사람은 위 사진을 클릭해서 들어가봐 예전에 포토샵 관련해서 외주할 일이 좀 있었는데, 그 때 돈 뜯기던 거 생각하면서 아득바득 이를 갈고 해보려고!! 이번에 들어볼 강의는 이 두개야 그럼 포토샵 해보면서 이것저것 해보는 것들을 리뷰하는 글로 다시 찾아올게 빠빠룽
[머신 러닝] 로지스틱 회귀 (Logistic Regression)
로지스틱 회귀 선형 회귀를 이용해서 분류를 할 수 있긴 하지만 선형 회귀는 예외적 데이터에 너무 민감합니다. 그래서 분류를 할 때는 보통 선형 회귀 대신 로지스틱 회귀를 이용합니다. 선형 회귀는 데이터에 가장 잘 맞는 일차 함수를 찾는 것이고, 로지스틱 회귀는 데이터에 가장 잘 맞는 시그모이드 함수를 찾는 것입니다. 시그모이드 함수는 아래와 같이 쓰고, \[ \displaystyle sigmoid(x) = \frac{1}{1 + e^{-x}} \] 그래프는 아래와 같습니다. 시그모이드 함수는 무조건 0과 1 사이의 값만 반환합니다. 그러니까, x가 아무리 커도, 아무리 작아도 0과 1사이의 값만 반환합니다. 결과가 0과 1 사이라는 것은 어떤 의미일까요? 선형회귀에서 썼던 일차함수 같은 경우에는 결과가 ..
[머신 러닝] 다항 회귀 (Polynomial Regression)
다항 회귀 입력 변수와 목표 변수의 관계를 여태 직선으로 나타냈는데, 사실 그 관계를 가장 잘 나타내는 게 직선이 아닐 수도 있습니다. 단일 속성 다항 회귀 다항 회귀도 두 가지로 나뉘는데, 속성이 하나인 경우랑 속성이 많은 경우입니다. 속성이 많으면 다중 다항 회귀라고 하는데, 우선 간단하게 속성이 하나인 경우부터 보겠습니다. 가설 함수가 이차 함수라면 아래와 같이 쓸 수 있습니다. \[ h_{\theta}(x) = \theta_{0} + \theta_{1}x + \theta_{2}x^{2} \] 선형 회귀를 할 때랑 마찬가지로 할 일은 학습 데이터에 잘 맞는 \(\theta\)를 찾는 것입니다. 그런데 위 식은 \( h_{\theta}(x) = \theta_{0} + \theta_{1}x_{1} + ..
[머신 러닝] 다중 선형 회귀 (Multiple linear regression)
다중 선형 회귀 여태는 이해의 편의를 위해 입력 변수가 1개인 경우로 한정해서 생각했는데요, 그런데 실제 상황에서는 입력 변수가 하나밖에 없는 경우는 굉장히 드뭅니다. 예를 들어, 집 값은 그 집의 평수만으로 예측하기엔 무리가 있죠, 그래서 보통은 훨씬 많은 입력 변수를 갖고 예측을 합니다. 이렇게 여러 입력 변수를 가지고 선형 회귀를 하면 다중 선형 회귀(Multiple Linear Regression)라고 합니다. 다중 선형 회귀는 시각적으로 표현하기 힘들어서 이해하기가 힘들 수 있는데 시각화를 못할 뿐이지 기본 개념은 이전 챕터에서 했던 것과 거의 똑같습니다. 다중 선형 회귀 표현법 다중 선형 회귀에서는 앞서 말했듯이 입력 변수가 여러 개 있습니다. 입력 변수의 개수는 n이라는 변수로 표현하고, i..
[머신 러닝] 선형 회귀 (Linear Regression)
선형 회귀(Linear Regression)란? 선형 회귀는 머신러닝에서 가장 단순하기도 하면서 대표적인 알고리즘으로, 종속 변수 y와 한 개 이상의 독립 변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법입니다. 좀 더 쉽게 말하면 주어진 데이터로부터 x와 y의 관계를 가장 잘 나타내는 직선을 그리는 것을 말합니다. 선형회귀는 프로그램에게 답을 알려 주면서 학습을 시키기 때문에 지도 학습 알고리즘에 속합니다. 그럼 선형 회귀에 대해 알아보기 전에 먼저 선형 회귀 용어부터 살펴보겠습니다. 선형 회귀 용어 학습 데이터: 프로그램을 학습시키기 위해 사용하는 데이터 목표 변수: 맞추려고 하는 값 (target variable, output variable이라고도 합니다.) 입력 변수: 맞추는 데 사용하는 ..
[머신 러닝] 머신 러닝이란?
머신 러닝 프로그램 일반적인 프로그램은 우리가 정해준 대로 일을 하는데, 머신 러닝 프로그램은 경험을 통해서 스스로 업무 능력을 키웁니다. 인공 지능, 빅 데이터, 머신 러닝 빅 데이터 간단하게 표현하자면 많은 양의 데이터를 다루는 분야입니다. 많은 양의 데이터를 효율적으로 보관/처리하고, 많은 양의 데이터를 분석해서 의미 있는 결과물을 만들어내는 것입니다. 머신 러닝도 일반적으로 많은 양의 데이터를 쓰기 때문에 빅 데이터와 겹친다고 볼 수 있습니다. 인공 지능 인공 지능은 컴퓨터 프로그램이 인간처럼 생각하거나 동작하게 하는 학문입니다. 영화에서 보는 인공 지능 로봇들은 사실상 인공 지능의 최고 목표이고, 그걸 달성하기 위한 수단 중 하나로 머신 러닝을 사용하는 것입니다. 딥 러닝 딥 러닝은 머신 러닝에..
[데이터 사이언스] 데이터 만들기
데이터를 만드는 방법 데이터 다운로드 받기 데이터를 구하는 가장 쉬운 방법은 이미 누군가가 만들어둔 데이터를 사용하는 것입니다. 아래는 데이터를 검색하는 사이트나 데이터를 공유하는 사이트들의 목록입니다. 국내 사이트 서울열린데이터광장 공공데이터포털 e-나라지표 국가통계포털 서울특별시 빅데이터 캠퍼스 통계청 해외 사이트 UC 얼바인 머신러닝 저장소 아마존 AWS 데이터셋 구글 데이터 검색 캐글 Awesome Public Datasets Github Data and Story Library 데이터허브 공개 데이터 저장소가 나열되어 있는 사이트들 데이터 포털 오픈 데이터 모니터 퀀들 위키백과 머신러닝 데이터셋 목록 Quora.com 데이터셋 서브레딧 이 외에도 구글 등의 검색 엔진을 활용하면 더 다양한 데이터..
[데이터 사이언스] 데이터 퀄리티 높이기
데이터 퀄리티의 중요성 데이터 분석을 시작하기 전에 좋은 퀄리티의 데이터를 사용하는 게 우선입니다. 분석할 때 안 좋은 데이터를 분석하면 안 좋은 결과가 나올 가능성이 높습니다. 대부분의 경우에는 우리에게 주어진 데이터는 완벽하지 않습니다. 우리는 좋은 데이터가 뭔지 판단할 수 있어야 하고, 마음에 들지 않는 데이터가 있으면 그 데이터의 퀄리티를 높이는 법을 알아야 합니다. 좋은 데이터의 기준 좋은 데이터의 기준을 얘기해보고 아래 데이터 클리닝에서 데이터 퀄리티를 높여보겠습니다. 완결성: 필수적 데이터는 모두 기록되어 있어야 함 완결성은 결측값이 있는지 확인하면 됩니다. 결측값이 존재하면 완결성이 없는 데이터셋입니다. pandas DataFrame에서 결측값은 NaN으로 표시됩니다. 유일성: 동일한 데이..