개발 및 공부/Today I Learned

TIL) 22.04.03 ~ 22.04.09

Hㅏㄴ량 2022. 4. 4. 01:27

04.03

MLOps

모두의 MLOps 따라하기

  • 환경설정까지는 완료
  • Docker: 리눅스 컨테이너를 더욱더 쉽고 유연하게 사용할 수 있는 기능을 제공해주는 도구
  • kubelet: 클러스터의 각 노드에서 실행되는 에이전트. Kubelet은 파드에서 컨테이너가 확실하게 동작하도록 관리
    Kubelet은 다양한 메커니즘을 통해 제공된 파드 스펙(PodSpec)의 집합을 받아서 컨테이너가 해당 파드 스펙에 따라 건강하게 동작하는 것을 확실히 한다. Kubelet은 쿠버네티스를 통해 생성되지 않는 컨테이너는 관리하지 않는다.
  • kubectl: 쿠버네티스 클러스터에 API를 요청할 때 사용하는 클라이언트 툴
  • k3s: 가벼운 Kubernetes로 쉽게 설치하고 적은 메모리/binary 파일을 사용하여 Edge/IoT 환경 혹은 CI/Dev 환경에서 k8s를 쉽게 사용할 수 있도록 도와주는 도구
  • 쿠버네티스 기본 모듈
    • helm: 쿠버네티스 package managing tool. node.js 의 npm 과 비슷한 형태로 쿠버네티스 패키지 배포를 가능하게 하는 tool
    • kustomize: kustomization 파일을 통해 쿠버네티스 오브젝트를 사용자가 원하는 대로 변경하는(customize) 독립형 도구
    • CSI plugin: Container Storage Interface (CSI) 관리 도구 . kubernetes 내의 스토리지를 담당하는 모듈

가짜연구소 스터디

  • Ops 부분에서도 모델에 대한 지식이 없다면 ML에서 아무리 모델 업데이트를 해서 전달해도 정작 Ops단에서 방치되는 경우가 빈번..
  • CI/CD 배경지식

04.04

확률과 통계

자료의 정리

  • 모집단: 모든 가능한 추출값의 집합

  • 표본: 모집단의 일부분, 실제로 얻어진 관측값의 집합
    모집단 전체의 정보를 얻는 것은 불가능하거나 경제적이지 못하기 때문에 모집단의 일부만 추출하고 이를 표본이라 함

  • 확률(Probability): 모집단이 주어지면 표본의 행태를 조사

  • 통계(Statistics): 표본을 이용해 모집단을 추론

  • 기술통계학(descriptive statistics)

    • 주어진 자료를 탐색해 관심의 패턴을 찾는 것이 목적
    • 현대엔 data mining으로 발전
    • 결론은 현재 갖고 있는 자료에 대해서만 적용
  • 추측통계학(inferential statistics)

    • 자료수집 전 제기된 질문에 답하는 것이 목적
    • 오차가 발생
    • 결론을 얼마나 신뢰할 수 있는지 설명하기 위해 확률 이론을 사용
  • 변수의 분포: 변수가 어떤 값을 취하며, 그 값을 얼마나 자주 취하는지 보여줌
    보통 자료나 표를 이용해 시각화함

    • 이산형: 도수분표표, 막대그래프
    • 연속형: 점그래프, 도수분포표, 히스토그램, 줄기-잎 그림, 상자그림
    • 분포는 모양, 중심, 퍼짐을 보고 이상값이 있는지 기술함
  • 모수(parameter): 모집단의 분포의 특징을 나타내는 값
    평균, 분산, 표준편차

  • 통계랑(statistics): 자료를 바탕으로 계산한 값
    표본평균, 표본분산, 표본표준편차

  • 평균

    • 모평균
    • 표본평균
  • 분산, 표준편차: 자료가 평균으로부터 떨어진 거리를 측정

  • 사분위수: 자료를 크기순으로 나열해 4등분하는 수 $Q_1,Q_2,Q_3$

  • 사분위 범위(interquartile range): $IQR = Q_3 - Q_1$
    중심값으로 평균을 사용할 경우엔 산포의 측도로 표준편차를, 중앙값을 사용할 경우엔 사분위범위를 사용함
    $[Q_1-1.5_IQR, Q_3+1.5_IQR]$을 벗어날 경우 이상치로 의심

  • 5개 통계치 요약값(Five number summary): 최소값, Q1, 중앙값, Q3, 최대값

  • 상자그림(Box plot)

    • 상자는 IQR, 최대/최소치의 범위는 1.5*IQR 내에서만, 이를 넘을 경우는 이상치
  • 도수분포표에서 자료 요약

  • 표본상관계수(Sample Correlation Coefficient, SCC)

    • s는 표준편차
    • r은 -1~1 사이의 값, 값이 클수록 강한 상관관계
    • 선형관계의 강도만 측정
    • 이상치에 큰 영향을 받음
    • 상관계수는 두 변수 사이의 연관성을 나타내지 인과관계를 의미하지는 않음

04.06

확률과 통계

확률

  • 확률실험: 실험이 동일 조건 하에 반복적으로 수행될 때 그 결과를 예측할 수 없는 실험

  • 표본공간$S$: 확률실험에서 모든 가능한 실험 결과들의 집합

  • 사건, 사상$A$: 특정한 몇개의 실험결과

  • 확률$Pr(A), P(A)$: 상대도수의 수렴값, 확률실험의 결과 전체 실험의 횟수에서 그 사건이 일어나리라고 예상되는 횟수의 비율

  • 표본공간의 분할(partition): 상호배반인 사건 $A_1 \sim A_n$의 합집합이 전체집합$S$를 만족할 때

  • 조건부확률: 사건 B가 주어졌을 때 사건 A의 조건부 확률
    B의 표본공간을 전체 표본공간으로 확장시킨다고 이해하면 편함

  • 사건의 독립: 사건 A,B가 서로 영향을 받지 않을 경우
    복원추출, 병렬연결 등

  • 총확률의 법칙: $A_1 \sim A_n$이 표본공간의 분할일 때 임의의 사건 $B$의 확률의 계산

  • 베이즈 정리: $A_1 \sim A_n$이 표본공간의 분할일 때 임의의 사건 $B$에 대해 다음이 성립


04.07

영상신호처리

  • Histogram Equalization(HE): 주어진 이미지의 픽셀 분포가 모든 값에서 같은 확률로 나타나도록 픽셀 값을 변환해 이미지를 보다 잘 인식되게 만드는 영상 처리 과정ex) 8bit greyscale 이미지에서 모든 밝기의 확률이 1/256이 되게 만듬
  • 이는 최대 엔트로피를 주는 분포와 동일
    • 엔트로피 증가 = 무질서도 증가 = 정보량 증가
    • 여기서 정보량은 정보이론에서 말하는 정보로서, 놀람의 정도 또는 불확실성의 정도를 의미
    • 놀람의 정도: 모두가 알만한 정보가 아니라 새롭고 특이해서 사람들로 하여금 놀람을 일으키는 정도, 따라서 확률이 낮을수록 정보량은 커짐
    • 엔트로피: 정보량의 기댓값(평균)
  • 참고
  • 영상처리에서는 이미지의 색정보가 정렬되어 있지 않고 혼재되어 있다면 엔트로피가 크다고 말함
  • 색정보가 정렬되어 있다면 히스토그램이 몰려있고 분산이 작다는 의미기 때문에 contrast도 낮다
    반대로 색정보가 정렬되어 있지 않다면 눈에 잘 보인다, 하지만 압축률이 낮아 이를 표현하기 위한 bit가 많이 필요하다

04.08

선형대수

  • $Av = λv$
    • Eigenvalue: $(A-\lambda I)\mathbf{x}=0$을 만족하는 $\lambda$
    • Eigenvector: 각 eigenvalue에 대응하는 $\mathbf{x}$값
      행렬 $\mathbf{x}$에 곱해도 방향은 바뀌지 않고 크기만 바뀌는 벡터라는 특성이 있다
  • Diagonalization(대각화): 행렬 $A$가 어떤 행렬 $S$를 통해 $S^{-1}S$가 대각행렬이 될 수 있다면 $A$는 diagonalizable
  • Eigendecomposition(고유값 분해): 행렬 $A$를 eigenvector로 구성된 행렬 $S$와 eigenvalue의 대각행렬 $T$를 사용해 $S^{-1}TS$로 분해하는 것
    • 조건: 대각화 가능 행렬만 고유값 분해 가능,
      nxn인 행렬$A$의 col이 서로 다른 eigenvalue를 가지면 선형독립인 n개의 eigenvector를 갖게 돼서 대각화 가능
  • Singular Value Decomposition, SVD(특이값 분해): Eigendecomposition을 모든 행렬에 대해 확장
    • 효과: 원본 행렬의 정보를 갖는 sub행렬로 분해가능, data의 차원을 축소해 data 압축, noise 제거에 사용 가능

영상신호처리

  • LPF
  • Filtering
  • Convolution

'개발 및 공부 > Today I Learned' 카테고리의 다른 글

TIL) 22.05.01 ~ 22.05.07  (0) 2022.05.03
TIL) 22.04.17 ~ 22.04.23  (0) 2022.04.17
TIL) 22.04.10 ~ 22.04.16  (0) 2022.04.12
TIL) 22.03.27 ~ 22.04.02  (0) 2022.03.27
TIL) 22.03.25 ~ 22.03.26  (0) 2022.03.26