발생일: 2020.07.30 키워드: mysql, aurora, DB 컬럼 추가, DB 인덱스 추가, add index without lock, add column 문제: 크기가 큰 MySQL (Aurora) 테이블에 컬럼이나 인덱스를 추가하려고 한다. 테이블 크기가 큰 경우, 락 타임이 길어져서 운영 중일 땐 문제가 발생할 수 있다. 어떻게 하면 될까? 해결책: algorithm 절과 lock 절을 이용하면, 락을 걸지 않고 컬럼이나 인덱스를 추가 또는 삭제할 수 있다. 컬럼 추가 규모가 큰 larget_table 에 new_date 란 이름으로 DATETIME 형식의 컬럼을 추가한다고 가정하면, 아래와 같이 하면 된다. ALTER TABLE large_table ADD new_date DATETIME..
발생일: 2020.11.25 키워드: tensorflow, coursera, 코세라 내용: 코세라의 TensorFlow Developer 강좌 노트 www.coursera.org/professional-certificates/tensorflow-in-practice (간단하게 기억을 더듬는 용도로 적어둔 노트임) CNN - DNN (Densed Neural Network), CNN (Convolutional Neural Network) - loss functions: binary_crossentropy, categorical_corssentropy - activation functions: relu, softmax, sigmoid - optimizer: sgd, rmsprops, adam, ... - c..
발생일: 2020.11.26 키워드: 호갱노노, 삼성전자 내용: 삼성전자 R&D 센터에 초청받아 강연하고 왔다. R&D 센터는 이번이 두 번째 방문이다. 한 때 나름 인기가 많았던ㅎㅎ 코드리뷰 경험을 주제로 강연을 부탁받아서 다녀왔었다. 벌써 4년 전 일인데, 당시 환대해주셔서 특히 기억에 남는다. 올해는 개발 문화를 주제로 하는 전사 사내 컨퍼런스라고 소개받았다. 최근에 시간적인 여유도 조금 생겼고, 마음 편하게 다녀왔던 생각에 큰 부담을 갖지 않고 수락했다. 양재라서 가깝고 주차도 편했던 건 덤^^ 막상 수락하고 보니 어떤 내용을 공유할까 고민이 많았다. 삼성전자와 호갱노노는 규모나 업종, 프로세스나 성향까지 크게 달라서, 개발 문화가 의미있을까 싶기도 했다. 고민 끝에, 호갱노노에서 개발자들이 직접..
발생일: 2020.02.03 키워드: 클럽하우스, clubhouse, voice data, voice recognition, 음성 인식 내용: 요새 클럽하우스가 인기인가보다. 음성 기반의 SNS 서비스이다. 초대 받아 들어가서 잠깐 체험만 해보았는데, 음성 데이터의 가치가 엄청날 것 같아 보인다. 얼마 전에 1조 가치로 투자 받았다는데, 이런 특징들이 클럽하우스의 내재 가치를 올려주었던 게 아닐까 생각해봤다. - 화자가 명확한 음성 데이터를 수집할 수 있다는 것 - 다자간 음성 대화를 주제별로 분류할 수 있는 것 음성 인식 시장에 대해 잠깐 검색해봤는데, 생각보다 훨씬 규모가 크고 다양하게 활용되고 있는 것 같다. 음성 인식 시장의 가치 - 음성 인식 시스템, 음성 지원 가상 비서, 소매, 은행, 커넥티..
발생일: 2020.02.04 키워드: GTP-3, GTP-Neo, NLP 내용: 화제가 됐던 NLP 모델인 GTP-3의 무료 복제본인 GPT-Neo 를 개발하고 있다는 소식 GPT-Neo - GTP-3 의 복제 버전을 무료 공개용으로 제작할 목적 - GTP-3는 현재 마이크로소프트가 독점 라이선스를 가지고 있음 - 올해 8월 초까지 완성할 계획으로 목표는 GTP-3와 동일한 수준으로 구현하는 것 - 파라미터 1750억개의 버전이 목표이고, 현재 파라미터 1000억개까지는 완료함 - 사회적 편견을 없애는데 주의를 기울이고 있음 - CoreWeave 라는 클라우드 서비스가 인프라를 무료로 제공해주기로 함 - 학습 데이터는 825GB - 텍스트 데이터셋, IRC 챗로그, 유튜브 자막, 의학 연구 보고서 등 -..
발생일: 2020.07.28 키워드: aws, elasticsearch size, 사이즈, node size, 노드 사이즈 문제: AWS 엘라스틱서치에 몇 가지 검색을 추가해 넣으려고 한다. 예전에 몇 번 다운됐던 적이 있어서, 미리 적합한 사이즈를 알아보려고 한다. 어느 정도가 적합한 걸까? 해결책: 사이즈 찾는 가이드 문서가 있다. https://docs.aws.amazon.com/elasticsearch-service/latest/developerguide/sizing-domains.html 적합한 스토리지 사이즈 - 클러스터 > 노드 > 샤드 - 물리 서버에 여러 노드를 생성할 수 있지만, AWS ES에서는 한 인스턴스의 한 개의 노드만 있는 듯 - 마스터 전용 노드(Dedicated Master..
발생일: 2020.07.25 키워드: 엘라스틱서치, elastic search 문제: 엘라스틱서치로 검색을 구현하려고 한다. 시작하기 문서를 찾아서 봤는데, 너무 이해하기 쉽게 잘 설명해준다. 아래는 노트해둔 것. 해결책: 엘라스틱 서비스 - Kibana 시각화 도구 - Elastic Search 검색 도구 - Beats, Logstash 수집 도구 - 이거 합해서 엘라스틱 스택 기타 기능 - 엘라스틱 사이트 서치: 사이트 URL 넣으면 색인 모두 만들어줌. 자동완성과 검색 제공하는 자바스크립트 모듈만 넣으면 된다고 함 - 엘라스틱서치 사이트에서 support matrix 라고 검색하면 지원환경 알 수 있음 - 엘라스틱서치 7버전부터 JDK를 같이 포함하고 있어서 자바 설치 안해도 됨 디렉토리 설명 - ..
발생일: 2020.12.23 키워드: byte, binary, 바이너리, 바이트, hex, hexdump, xdd, od 문제: 머신러닝 예제를 돌려보고 있는데, 1바이트에 1개의 레이블이 있고 10개씩 묶으로 가져와 처리하는 예제였다. 파일을 특정 바이트 단위로 묶어서 바이너리 형태로 보고 싶은데 어떻게 하면 될까? 해결책: xxd 툴로 바이너리로 읽어볼 수 있다. 기억을 더듬느라 좀 헷갈렸는데, 1byte = 8bit = 0~255 까지 256을 표현 = 2진수(binary)로 8자리 (00000000 ~ 11111111) = 2진수는 4자리 씩 끊어 보여주면 16진수 (0000 0000 ~ 1111 1111) = 16진수(hexadecimal)로 2자리 (00 ~ ff) xxd 나 hexdump 명..
발생일: 2020.12.07 키워드: Coursera, Andrew Ng, Deep Learning, AI 문제: 코세라의 AI For Everyone 강의를 보고 정리한 노트 (강의 링크) 해결책: - AI > 머신러닝 > 딥러닝 = Neural Network - 딥러닝은 뉴런에서 영감을 받았지만, 사람의 뇌의 동작 방식은 알 수 없음 - 머신러닝의 대부분은 지도 학습(Supervised Learning) - Input A 로 B를 매핑하는 것 (A to B mapping) - 사람이 1초 안에 판단할 수 있는 것이라면 지도 학습으로 구현 가능 - AI 팀과 DS 팀은 다름 - AI 팀은 머신러닝을 활용한 자동화에 중점 - DS 팀은 데이터를 분석해서 인사이트를 얻는 것에 중점 (의사 결정, 프리젠테이..
발생일: 2020.04.09 키워드: 스케치, sketch, 컬러 스페이스 문제: 디자이너가 스케치에서 작업해준 컬러를 크롬에 적용했는데, 컬러 코드가 동일한데도 색상이 눈에 띄게 다르다. 왜 그런 걸까? 해결책: 프로그램마다 사용하는 컬러 스페이스가 다르기 때문이었다. (좀 찾아보니 컬러 스페이스는 색 공간, 색 영역, 컬러 프로필, 컬러 프로파일, 디스플레이 프로필 같은 용어로 쓰인다. 여기선 통일해서 컬러 스페이스라고 표기했다) 크롬을 포한한 브라우저의 컬러 스페이스는 일반적으로 sRGB 이고, 스케치는 기본적으로 모니터의 컬러 스페이스를 사용한다. 우린 iMac을 사용하고 있는데, 디스플레이 속성 메뉴에 가보면 어떤 컬러 스페이스가 적용되어 있는지 알 수 있다. 디자이는 기본적으로 iMac 컬러 ..