발생일: 2020.11.25 키워드: tensorflow, coursera, 코세라 내용: 코세라의 TensorFlow Developer 강좌 노트 www.coursera.org/professional-certificates/tensorflow-in-practice (간단하게 기억을 더듬는 용도로 적어둔 노트임) CNN - DNN (Densed Neural Network), CNN (Convolutional Neural Network) - loss functions: binary_crossentropy, categorical_corssentropy - activation functions: relu, softmax, sigmoid - optimizer: sgd, rmsprops, adam, ... - c..
발생일: 2020.12.07 키워드: Coursera, Andrew Ng, Deep Learning, AI 문제: 코세라의 AI For Everyone 강의를 보고 정리한 노트 (강의 링크) 해결책: - AI > 머신러닝 > 딥러닝 = Neural Network - 딥러닝은 뉴런에서 영감을 받았지만, 사람의 뇌의 동작 방식은 알 수 없음 - 머신러닝의 대부분은 지도 학습(Supervised Learning) - Input A 로 B를 매핑하는 것 (A to B mapping) - 사람이 1초 안에 판단할 수 있는 것이라면 지도 학습으로 구현 가능 - AI 팀과 DS 팀은 다름 - AI 팀은 머신러닝을 활용한 자동화에 중점 - DS 팀은 데이터를 분석해서 인사이트를 얻는 것에 중점 (의사 결정, 프리젠테이..
발생일: 2017.01.14 키워드: Matchbox recommender 문제: 지금도 잘 모르지만, 지금보다 더 잘 몰랐을 때의 메모 ㅎㅎ. MS 의 Mathbox recommender 모델을 사용해 추천을 적용하려고 했다가 실패했다. 점수를 내는 기준을 제대로 잡지 못했기 때문이다. 지금 보면 워낙 기초가 없던 때라 그런 거였는데, 나중에 같은 실수를 하지 않게 기록해둔다. 해결책: 매치박스 레코멘더 모듈은 각 아이템 간에 점수(rating)를 부여하고 이를 조합해 추천하는 방식이다. 우린 아파트 정보 서비스여서, - 사용자에게 아파트를 추천 - 아파트와 비슷한 아파트 추천 하는 것을 목표로 했다. 점수는 조회수와 알림 구독 여부, 우리집 선택 여부로 아래와 같이 조합했다. - rating이 0부터..
발생일: 2018.09.22 키워드: Jupyter Notebook, 주피터 노트북, 한글 폰트, 한글 깨질 때, font_manager, fontManager, seaborn, custom font, 나눔고딕, Nanum Gothic, AppleGothic, Mac OS X, set matplotlib font directory 문제: 주피터 노트북에서 Matplotlib 이나 Seaborn 으로 차트를 그릴 때 한글이 깨지는 문제가 있다. 이상한 건, 기존엔 잘 그려지다가 갑자기 안된다는 것이다. 폰트 설정도 하고, rcParam도 설정하고, 캐시도 날려보고, 무려 재부팅도 했는데 안된다... 왜 그럴까? 해결책: Matplotlib 모듈이 내 맥의 폰트 디렉토리를 제대로 찾지 못하는 것 같다. 정확..
발생일: 2018.09.22 키워드: pandas, stack, unstack, split array to multiple rows 문제: df = pd.DataFrame({'foo': ['a,b,c,d,e', 'd,e,f', 'h,i']}) df 위와 같이 한 셀에 들어있는 문자열을 컴마로 구분해서 한 글자씩 여러 행으로 나누고 싶다. 해결책: 문자열을 split 해 각 행을 여러 컬럼으로 나눈 후 병합하는 방법으로 구현할 수 있다. 먼저, 각 foo 컬럼의 문자열을 배열로 나눈다. split = df.foo.str.split(',') split 각 배열이 Series를 리턴하게 apply를 적용하면, Series -> DataFrame으로 변환할 수 있다. split = split.apply(lamb..
발생일: 2017.01.07 키워드: Microsoft Matchbox Recommender, Matchbox Recommendation, Recommendation system, 마이크로소프트 매치박스, Azure Machine Learning Studio, 애저 머신러닝 스튜디오, 매치박스 알고리즘, 추천 알고리즘 문제: Matchbox Recommender는 MS Azure의 머신러닝 스튜디오에서 제공하는 추천 시스템이다. 이번에 MS의 제품을 활용해 추천 시스템을 구축하기 전에 정리한 내용이다. 해결책: 추천 시스템은 한 개 이상의 아이템이나 유저를 추천해주는 시스템. 두 가지 접근 방식이 있다. 하나는 content-based, 다른 하나는 collaborative filtering conten..
발생일: 2017.01.18 키워드: matchbox recommendation, out of memory 문제: MS Azure의 Matchbox Recommendation 알고리즘으로 추천 모델을 만들어봤다. 특정 피처 컬럼의 타입을 String으로 설정하고 학습시켰는데, Out of memory 란다. 얼라. 데이터가 그리 크지 않은 것 같은데, 왜 그런 걸까? 해결책: Matchbox Recommendation은 Collaborator Filtering에 기반하고 있다. 모델을 만들 때, 각 피처의 로우 * 피처의 고유값 개수만큼의 배열을 생성해 계산한다. 문제가 발생했던 컬럼은 카테고리로 구분하기 적합하지 않은 데이터였는데, 타입을 String으로 설정한 것이 잘못이었다. 이런 데이터라면, 선형..
발생일: 2016.11.10 키워드: 날짜 처리, date feature, 날짜 속성, 날짜 피처 문제: 학습 데이터를 준비할 때 날짜 부분은 어떻게 표현하는 게 좋을까? 선형적인 데이터로 만들려면 숫자로 바꿔야 할 것 같다. 예를 들면, 2016년 1월 데이터는, 2016-01 표시하는 게 좋을까, 아니면 201601, 아니면 타임스탬프로 출력하는 게 나을까? 해결책: 날짜를 계산 가능한 숫자로 바꾸는 게 중요한 게 아니라, 내가 데이터를 어떻게 생각하고 바라보고 있느냐가 중요하다. 그 기준에 따라 그 값이 타임스탬프일 수도 있고, 의미있는 기준값으로부터의 차일 수도 있다. 단순히 절대적인 값보다는 데이터가 의미하는 잘 이해하는 것부터 시작하는 것이 중요하다. 참고: http://stats.stacke..
발생일: 2016.08.29 키워드: 평균, 표준편차, 표준정규분포, 정규분포, 가우시안 분포 문제: 평균과 분산, 표준편차, 정규분포... 학교다닐 때 배웠을 게 분명한데, 세월이 너무 많이 흘렀나보다. 기억이 나지 않는다. ㅠㅠ 기초부터 다시 정리해봤다. 해결책: # 평균, 분산, 표준편차 데이터 분석, 통계는 의사 결정의 보조 자료 평균과 분산: - 얼마나 흩어져있는가? 표준편차 - 평균에서 얼마나 흩어져있는가? - 얼마나 들쭉날쭉한가? 표준정규분포 - 어떻게 분포되어 있나? 정규분포포에서 확률을 구하는 부분이 좀 헷갈린다. http://math7.tistory.com/45 변동계수 상대적으로 얼마나 들쭉날쭉한가? http://blog.naver.com/istech7?Redirect=Log&logN..
발생일: 2017.02.24 키워드: RFM, RFM Customer segmentation, RFC scoring, RFM 사용자 분류, RFM 고객 세분화 모형, RFM 모형 문제: 얼마 전 마이크로소프트와 핵페스트 행사를 진행했다. D사에서 오신 분이 추천 서비스를 구현했던 사례에 대해 이야기해주셨다. 유통 서비스의 사례였는데, 가장 먼저 한 일이 RFM을 사용해서 고객을 1에서 10등급으로 나눈 것이란다. RFM은 처음 들어봤다. 뭘까? 해결책: RFM은 고객의 가치를 점수화해서, 이를 기준으로 고객을 분류할 수 있는 간단하면서도 유용한 방법이라고 한다. 마케팅에서 가장 많이 사용하고 있는 사용자 분류법이라고 한다. RFM은 Recency, Frequency, Monetary의 약자로 고객의 가치..