전체 글
-
kernel density estimation (작성중)카테고리 없음 2019. 10. 1. 17:24
(seaborn의 1차원 실수 플롯에서 묘사하는 커널 밀도 기능에 대해 알아보다가) Seaborn - 1차원 분포 플롯 1차원 데이터는 실수 값이면 히스토그램과 같은 실수 분포 플롯으로 나타내고, category 값이면 count 플롯으로 나타낸다. (실수값 -> 히스토그램 / 범주값 -> count) -1차원 실수 분포 플롯 실수 분포 플롯은 자료의 분포를 묘사하기 위한 것으로, matplotlib의 단순한 히스토그램과 달리 커널 밀도(kernel density) 및 러그 표시 기능 및 다차원 복합 분포 기능 등을 제공한다. Kernel density estimation In statistics, kernel density estimation is a non-parametric way to estim..
-
결정계수카테고리 없음 2019. 7. 25. 02:13
R-squred 파이썬에서 구현 시 r2_score 우리말로 결정계수라고 하며, R^2로 표현된다. 회귀모형의 설명력을 표현하는 것으로, p-value와 같이 0과 1사이의 값을 가지고 있으며, 1에 가까울 수록 설명력이 높다고(잘 만들어진 모형이라는 평가) 해석할 수 있다. 회귀분석이란, 흩어진 데이터들을 가장 잘 설명하는 하나의 선을 구하는 방법인데, 그 선이 얼마나 데이터를 잘 설명할 수 있는가에 대한 점수가 바로 R-squared이다. R-squared를 구하는 공식은 (SSR/SST) 인데, SST(Sum of Square Total) 은 편차의 제곱합으로, (실제값과 예측값의 차이 + 실제값과 평균값의 차이)를 제곱한 것이다. SSE(Sum of Square Error) 은 회귀식과 실제값의 ..
-
차원축소카테고리 없음 2019. 6. 21. 18:34
이 장에서는 대표적인 차원 축소 알고리즘인 PCA, LDA, SVD, NMF에 대해서 알아보겠습니다. 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse) 한 구조를 가지게 됩니다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우, 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 또한 피처가 많을 경우 개별 피처 간에 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 '다중 공선성' 의 문제로 모델의 에측 성능이 저하된다. 이렇게 매우 많은 다차원의 피..
-
steam review crawling카테고리 없음 2019. 6. 20. 22:20
data = pd.read_excel('11.xlsx', sheet_nmae = '11') data.head(6) # 데이터 확인 #데이터 리스트 만들기(한 줄 씩 리스트에 담기) data_list = [] for i in data['review']: data_list.append(str(i)) print(len(data_list)) #데이터 리스트 length 확인 print(data_list) # 데이터 리스트에 한줄씩 담겨있는 모습을 볼 수 있다. df = pd.DataFrame(data_list, columns = ['reviews']) #컬럼이 reviews 인 데이터 파일로 다시 저장 df.to_csv('csv/1122.csv', columns = ['reviews']) data_list1 =..
-
TfidfVectorizer카테고리 없음 2019. 6. 17. 18:28
TfidfVectorizer는 TF-IDF 라는 특정한 값을 사용해서 텍스트 데이터의 특징을 추출하는 값이다. TF(Term Frequency) 란, 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미한다. DF(Document Frequency) 란, 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표이다. IDF(Inverse Document Frequency) 는 이 값에 역수를 취해서 구할 수 있으며, 특정 단어가 다른 데이터에 등장하지 않을 수록 값이 커진다는 것을 의미한다. DF가 10 = 특정 단어가 10번 만큼 등장하였다. DF가 20 = 특정 단어가 50번 만큼 등장하였다. 이때 IDF 는 1/10, 1/50. 10번만큼 등장했을 때의 IDF값이 50번만큼 ..
-
chown / chmod 명령어카테고리 없음 2019. 6. 15. 03:41
software center에 없는 어플리케이션들을 설치할 때 자주 사용하게 되는 명령어. 주로 폴더, 또는 파일 이동 후 소유권과 파일 권한을 변경할 때 사용하게 되는 명령어인 chown, chmod이다. 두 명령어의 차이 chown: change owner, 파일 또는 폴더의 소유권을 변경하는 명령어. chmod: change mode, 파일이나 폴더의 권한(읽기, 쓰기, 실행)을 변경하는 명령어. 1. 우선 파일, 폴더(디렉토리)의 권한과 소유권 보기 drwxr-xr-x@ 11 hitk staff 352 4 22 07:19 KnuSentiLex-master drwx------@ 152 hitk staff 4864 6 13 15:12 Library 권한 문자열(Permission string), 해당..