Category: Kubernetes

쿠버네티스에 관한 글들의 모음.

11/06/2023

Kubernetes 관련 기술 스택..

쿠버네티스 관련된 기술들이 워낙 많다보니 뭘 어디서부터 손대야할지 모를때도 있고 하다보면 어디에 서 있는지도 모를때가 있다. 더 나가 쿠버네티스를 시작하려고할때에 이게 어디에 있는건지를 알고 싶을때가 종종 있는데, 웹 서핑을 하다가 주운걸 기록해본다.

- K8S
Master Node 및 Worker Node의 동작 원리에 대한 이해
Master Node 클러스터링 경험, 폐쇄망 온프레미스 환경 구축 경험

- Dependency Tools 관련
Container 관련 지식
Repository, Registry(OS Package, Harbor..) 등 구성 경험 및 운
영 경험 등

- CPU, Memory Resource 관련
Deployment, Configmap, ReplicaSet..
HPA, VPA 등 Node, Pod 오토 스케일링 관련된 전반적인 지식

- Storage Resource 관련
Mount 방식 운영 예정 (정적 할당)
PV, PVC, Storage Class, CSI, 솔루션 등

-Network Resource 관련
SVC(Type별 이해 및 설계 지식), Ingress, DNS
CNI, Routing table, Network Inteface

- Management Tools
kubectl, kubelet 등에 관련된 전반적인 지식
Optional : kubespray, rancher, kops, kubeadm 등 배포 관리 도구 사용 여부

- CD 관련
CD 프로세스에 대한 전반적인 지식, 구성 경험, 운영 경험 등
다양한 CD 도구 사용 경험, CI 구성 경험, 운영 경험 등 (컨설팅이
필요할 수도 있음)

- 모니터링 관련
K8S Metric Data에 대한 모니터링 구성 경험, 운영 경험 등
다양한 Monitoring 도구 사용 경험

- K8S

Master Node 및 Worker Node의 동작 원리에 대한 이해

Master Node 클러스터링 경험, 폐쇄망 온프레미스 환경 구축 경험

- Dependency Tools 관련

Container 관련 지식

Repository, Registry(OS Package, Harbor..) 등 구성 경험 및 운

영 경험 등

- CPU, Memory Resource 관련

Deployment, Configmap, ReplicaSet..

HPA, VPA 등 Node, Pod 오토 스케일링 관련된 전반적인 지식

- Storage Resource 관련

Mount 방식 운영 예정 (정적 할당)

PV, PVC, Storage Class, CSI, 솔루션 등

-Network Resource 관련

SVC(Type별 이해 및 설계 지식), Ingress, DNS

CNI, Routing table, Network Inteface

- Management Tools

kubectl, kubelet 등에 관련된 전반적인 지식

Optional : kubespray, rancher, kops, kubeadm 등 배포 관리 도구 사용 여부

- CD 관련

CD 프로세스에 대한 전반적인 지식, 구성 경험, 운영 경험 등

다양한 CD 도구 사용 경험, CI 구성 경험, 운영 경험 등 (컨설팅이

필요할 수도 있음)

- 모니터링 관련

K8S Metric Data에 대한 모니터링 구성 경험, 운영 경험 등

다양한 Monitoring 도구 사용 경험

딱봐도 채용공고에 내용인데, 굵직하게 정리가 되어서 긁어왔다. 여기서 한가지 추가해야 한다면 IaC 부분인데, 요새는 쿠버네티스에 뭔가를 설치할때는 다음과 같은 걸 많이 사용한다.

Helm
Operator

ArgoCD 도 있지만 이것은 사실 애플리케이션 배포에 쓰인다고 보면 된다.

요새 하도 공부를 하지 않아서 잃어버리는 기억도 많고 이제는 쓰지 않는 기술들도 많은데, 슬슬 다시 공부를해야 겠다고 다짐한다. 해야할게 얼마나 많은지… 덕분에 잘 심심하지 않게 살수 있다는 것에 위안을 받는다.

07/17/2022

컨테이너에서 Java 힙 덤프 뜨기

Kubernetes 에서 Java 애플리케이션을 운영할때에, Java 힙 덤프를 떠야하는 경우가 있다. 하지만 다음과 같이 덤프를 떠지지 않는다.

$ kubectl exec -it employee-consumer-68cfc9864-kgx4w -- sh
/ # ps aux
PID   USER     TIME  COMMAND
    1 root      3:01 java -XX:+UseG1GC -XX:+UseStringDeduplication -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -Djava.security.egd=file:/dev/./urandom -jar /app/employee-consumer.jar --spring.active.profile=${SPRING_PROFILES_ACTIVE}
   57 root      0:00 sh
   63 root      0:00 ps aux
/ # jcmd 1 VM.flags
1:
com.sun.tools.attach.AttachNotSupportedException: Unable to get pid of LinuxThreads manager thread
        at sun.tools.attach.LinuxVirtualMachine.<init>(LinuxVirtualMachine.java:86)
        at sun.tools.attach.LinuxAttachProvider.attachVirtualMachine(LinuxAttachProvider.java:63)
        at com.sun.tools.attach.VirtualMachine.attach(VirtualMachine.java:208)
        at sun.tools.jcmd.JCmd.executeCommandForPid(JCmd.java:147)
        at sun.tools.jcmd.JCmd.main(JCmd.java:131)
/ #
</init>

$ kubectl exec -it employee-consumer-68cfc9864-kgx4w -- sh

/ # ps aux

PID USER TIME COMMAND

1 root 3:01 java -XX:+UseG1GC -XX:+UseStringDeduplication -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -Djava.security.egd=file:/dev/./urandom -jar /app/employee-consumer.jar --spring.active.profile=${SPRING_PROFILES_ACTIVE}

57 root 0:00 sh

63 root 0:00 ps aux

/ # jcmd 1 VM.flags

com.sun.tools.attach.AttachNotSupportedException: Unable to get pid of LinuxThreads manager thread

at sun.tools.attach.LinuxVirtualMachine.<init>(LinuxVirtualMachine.java:86)

at sun.tools.attach.LinuxAttachProvider.attachVirtualMachine(LinuxAttachProvider.java:63)

at com.sun.tools.attach.VirtualMachine.attach(VirtualMachine.java:208)

at sun.tools.jcmd.JCmd.executeCommandForPid(JCmd.java:147)

at sun.tools.jcmd.JCmd.main(JCmd.java:131)

/ #

</init>

“Unable to get pid of LinuxThread manager thread” 오류가 발생한다.

이 오류가 나오는 이유는 Java 애플리케이션의 Pid 값이 1이기 때문이다. 이를 해결하는 방법을 소개한다.

Container 이미지에 tini 설치, 배포

먼저 Openjdk 의 컨테이너 이미지에 tini 프로그램을 설치해야 한다. 이 tini 라는 프로그램은 인자값을 받은 프로그램을 실행 시켜 준다. 이렇게 하면 tini 는 Pid 1을 가지지만 tini 가 실행시킨 프로그램은 1보다 큰 Pid 값을 가지게 된다.

문제는 Openjdk 에 tini 라는 프로그램이 없다. 더군다나 아무 컨테이너 이미지에 이것을 설치할 수 있는게 아니라 Alpine 기반 이미지에서 쉽게 설치가 가능하다. Alpine 에서는 패키지로 제공하기 때문에 명령어로 간단하게 설치할 수 있다.

Dockerfile 을 다음과 같이 수정한다.

FROM openjdk:8-jdk-alpine
+ RUN apk add --no-cache tini
RUN mkdir -p /app
ARG JAR_FILE=target/*.jar
COPY ${JAR_FILE} /app/employee-consumer.jar
ENV SPRING_PROFILES_ACTIVE=kubernetes

- ENTRYPOINT ["java","-XX:+UseG1GC", "-XX:+UseStringDeduplication", "-XX:MetaspaceSize=128M", "-XX:MaxMetaspaceSize=128M", "-Djava.security.egd=file:/dev/./urandom","-jar","/app/employee-consumer.jar","--spring.active.profile=${SPRING_PROFILES_ACTIVE}"]
+ ENTRYPOINT ["/sbin/tini", "--", "java","-XX:+UseG1GC", "-XX:+UseStringDeduplication", "-XX:MetaspaceSize=128M", "-XX:MaxMetaspaceSize=128M", "-Djava.security.egd=file:/dev/./urandom","-jar","/app/employee-consumer.jar","--spring.active.profile=${SPRING_PROFILES_ACTIVE}"]

FROM openjdk:8-jdk-alpine

+ RUN apk add --no-cache tini

RUN mkdir -p /app

ARG JAR_FILE=target/*.jar

COPY ${JAR_FILE} /app/employee-consumer.jar

ENV SPRING_PROFILES_ACTIVE=kubernetes

- ENTRYPOINT ["java","-XX:+UseG1GC", "-XX:+UseStringDeduplication", "-XX:MetaspaceSize=128M", "-XX:MaxMetaspaceSize=128M", "-Djava.security.egd=file:/dev/./urandom","-jar","/app/employee-consumer.jar","--spring.active.profile=${SPRING_PROFILES_ACTIVE}"]

+ ENTRYPOINT ["/sbin/tini", "--", "java","-XX:+UseG1GC", "-XX:+UseStringDeduplication", "-XX:MetaspaceSize=128M", "-XX:MaxMetaspaceSize=128M", "-Djava.security.egd=file:/dev/./urandom","-jar","/app/employee-consumer.jar","--spring.active.profile=${SPRING_PROFILES_ACTIVE}"]

apk 명령어를 이용해 tini 를 설치해주고 ENTRYPOINT 에 실행 명령어에 tini 를 넣고 인자값으로 java 애플리케이션 명령어를 넣는다.

이렇게 컨테이너 이미지를 제작하고 배포를 한다.

tini 프로그램 이 후 Pid

tini 프로그램으로 Java 애플리케이션이 어떻게 실행되는 다음과 같이 확인 할 수 있다.

$ kubectl exec -it employee-consumer-cbfc7c94b-t65sz -- sh
/ # ps aux
PID   USER     TIME  COMMAND
    1 root      0:00 /sbin/tini -- java -XX:+UseG1GC -XX:+UseStringDeduplication -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -Djava.security.egd=file:/dev/./urandom -jar /app/employee-consumer.jar --spring.active.profile=${SPRING_PROFILES_ACTIVE}
    7 root      1:04 java -XX:+UseG1GC -XX:+UseStringDeduplication -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -Djava.security.egd=file:/dev/./urandom -jar /app/employee-consumer.jar --spring.active.profile=${SPRING_PROFILES_ACTIVE}
   56 root      0:00 sh
   63 root      0:00 ps aux
/ # jcmd 7 GC.heap_info
7:
 garbage-first heap   total 162816K, used 62180K [0x00000000f0000000, 0x00000000f01004f8, 0x0000000100000000)
  region size 1024K, 11 young (11264K), 10 survivors (10240K)
 Metaspace       used 53386K, capacity 56950K, committed 57216K, reserved 1099776K
  class space    used 6277K, capacity 6935K, committed 7040K, reserved 1048576K
/ # jcmd 7 VM.flags
7:
-XX:CICompilerCount=2 -XX:CompressedClassSpaceSize=125829120 -XX:ConcGCThreads=1 -XX:G1HeapRegionSize=1048576 -XX:InitialHeapSize=16777216 -XX:MarkStackSize=4194304 -XX:MaxHeapSize=268435456 -XX:MaxMetaspaceSize=134217728 -XX:MaxNewSize=160432128 -XX:MetaspaceSize=134217728 -XX:MinHeapDeltaBytes=1048576 -XX:+UseCompressedClassPointers -XX:+UseCompressedOops -XX:+UseG1GC -XX:+UseStringDeduplication

$ kubectl exec -it employee-consumer-cbfc7c94b-t65sz -- sh

/ # ps aux

PID USER TIME COMMAND

1 root 0:00 /sbin/tini -- java -XX:+UseG1GC -XX:+UseStringDeduplication -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -Djava.security.egd=file:/dev/./urandom -jar /app/employee-consumer.jar --spring.active.profile=${SPRING_PROFILES_ACTIVE}

7 root 1:04 java -XX:+UseG1GC -XX:+UseStringDeduplication -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -Djava.security.egd=file:/dev/./urandom -jar /app/employee-consumer.jar --spring.active.profile=${SPRING_PROFILES_ACTIVE}

56 root 0:00 sh

63 root 0:00 ps aux

/ # jcmd 7 GC.heap_info

garbage-first heap total 162816K, used 62180K [0x00000000f0000000, 0x00000000f01004f8, 0x0000000100000000)

region size 1024K, 11 young (11264K), 10 survivors (10240K)

Metaspace used 53386K, capacity 56950K, committed 57216K, reserved 1099776K

class space used 6277K, capacity 6935K, committed 7040K, reserved 1048576K

/ # jcmd 7 VM.flags

-XX:CICompilerCount=2 -XX:CompressedClassSpaceSize=125829120 -XX:ConcGCThreads=1 -XX:G1HeapRegionSize=1048576 -XX:InitialHeapSize=16777216 -XX:MarkStackSize=4194304 -XX:MaxHeapSize=268435456 -XX:MaxMetaspaceSize=134217728 -XX:MaxNewSize=160432128 -XX:MetaspaceSize=134217728 -XX:MinHeapDeltaBytes=1048576 -XX:+UseCompressedClassPointers -XX:+UseCompressedOops -XX:+UseG1GC -XX:+UseStringDeduplication

jcmd 뿐만 아니라 jstat, jmap 등 모든 명령어를 사용할 수 있다.

03/20/2022

Kubernetes API 서버 인증서에 도메인 추가하기

Kubernetes API 서버는 http 를 통해서 쿠버네티스에 대한 연산을 제공해 준다. kubectl 명령어로 실행되는 것들은 모두 API 서버를 거쳐서 이루어진다. 하지만 API 서버는 인증서를 기반으로 통신이 이루어지는데, 이 인증서에 기재된 도메인이나 IP가 아니면 통신이 이루어지지 않는다.

kubectl unable to connect to server: x509: certificate signed by unknown authority

1	kubectl unable to connect to server: x509: certificate signed by unknown authority

API 서버의 인증서는 SAN 인증서여야 한다. 도메인 리스트를 가지고 있는 SAN 인증서. 현재 API 서버의 인증서 상태는 다음과 같다.

$ openssl x509 -text -in /etc/kubernetes/pki/apiserver.crt -noout
        X509v3 extensions:
            X509v3 Key Usage: critical
                Digital Signature, Key Encipherment
            X509v3 Extended Key Usage: 
                TLS Web Server Authentication
            X509v3 Basic Constraints: critical
                CA:FALSE
            X509v3 Authority Key Identifier: 
                keyid:98:B6:19:7B:C4:FF:03:49:74:7D:F3:F1:7E:31:67:91:D9:2E:B5:EA

            X509v3 Subject Alternative Name: 
                DNS:haproxy2.systemv.local, DNS:kmaster, DNS:kubernetes, DNS:kubernetes.default, DNS:kubernetes.default.svc, DNS:kubernetes.default.svc.cluster.local, DNS:ol85.systemv.local, DNS:rhel8.systemv.local, IP Address:10.96.0.1, IP Address:192.168.96.23, IP Address:192.168.96.30, IP Address:192.168.96.7
    Signature Algorithm: sha256WithRSAEncryption

$ openssl x509 -text -in /etc/kubernetes/pki/apiserver.crt -noout

X509v3 extensions:

X509v3 Key Usage: critical

Digital Signature, Key Encipherment

X509v3 Extended Key Usage:

TLS Web Server Authentication

X509v3 Basic Constraints: critical

CA:FALSE

X509v3 Authority Key Identifier:

keyid:98:B6:19:7B:C4:FF:03:49:74:7D:F3:F1:7E:31:67:91:D9:2E:B5:EA

X509v3 Subject Alternative Name:

DNS:haproxy2.systemv.local, DNS:kmaster, DNS:kubernetes, DNS:kubernetes.default, DNS:kubernetes.default.svc, DNS:kubernetes.default.svc.cluster.local, DNS:ol85.systemv.local, DNS:rhel8.systemv.local, IP Address:10.96.0.1, IP Address:192.168.96.23, IP Address:192.168.96.30, IP Address:192.168.96.7

Signature Algorithm: sha256WithRSAEncryption

위 apiserver.crt 파일 상태를 보면 SAN 에 이미 도메인과 IP 들이 들어가 있다. 내용을 보면 haproxy2.systemv.local 도메인, 192.168.96.7 IP 가 들어가 있는데 이 서버에서 API 서버와 통신이 가능하다.

만일 추가적으로 도메인, IP 를 추가하고 싶다면 어떻게 해야할까? 이에 대해서 알아본다.

kubeadm-config 업데이트

kubeadm-config 라고 불리는 ConfigMap 을 업데이트 해줘야 한다. 이를 위해서 먼저 기존이 설정을 뽑아내야 하는데 다음과 같이 하면 된다.

$ kubectl -n kube-system get configmap kubeadm-config -o jsonpath='{.data.ClusterConfiguration}' > kubeadm.yaml
$ cat kubeadm.yaml
apiServer:
  extraArgs:
    authorization-mode: Node,RBAC
  timeoutForControlPlane: 4m0s
apiVersion: kubeadm.k8s.io/v1beta1
certificatesDir: /etc/kubernetes/pki
clusterName: kubernetes
controlPlaneEndpoint: ""
controllerManager: {}
dns:
  type: CoreDNS
etcd:
  local:
    dataDir: /var/lib/etcd
imageRepository: k8s.gcr.io
kind: ClusterConfiguration
kubernetesVersion: v1.14.4
networking:
  dnsDomain: cluster.local
  podSubnet: ""
  serviceSubnet: 10.96.0.0/12
scheduler: {}

$ kubectl -n kube-system get configmap kubeadm-config -o jsonpath='{.data.ClusterConfiguration}' > kubeadm.yaml

$ cat kubeadm.yaml

apiServer:

extraArgs:

authorization-mode: Node,RBAC

timeoutForControlPlane: 4m0s

apiVersion: kubeadm.k8s.io/v1beta1

certificatesDir: /etc/kubernetes/pki

clusterName: kubernetes

controlPlaneEndpoint: ""

controllerManager: {}

dns:

type: CoreDNS

etcd:

local:

dataDir: /var/lib/etcd

imageRepository: k8s.gcr.io

kind: ClusterConfiguration

kubernetesVersion: v1.14.4

networking:

dnsDomain: cluster.local

podSubnet: ""

serviceSubnet: 10.96.0.0/12

scheduler: {}

파일 내용을 보면 SAN 리스트가 없다. 도메인이나 IP 를 SAN 으로 추가하기 위해서 apiServer 아래에 certSANs 를 추가해 준다. 이미 다른 도메인이 있다면 제거하나 추가할 수도 있다.

apiServer:
  certSANs:
  - 192.168.96.23
  - rhel8.systemv.local
  - 192.168.96.30
  - ol85.systemv.local
  - 192.168.96.7
  - haproxy2.systemv.local
  extraArgs:
    authorization-mode: Node,RBAC
  timeoutForControlPlane: 4m0s
apiVersion: kubeadm.k8s.io/v1beta3
certificatesDir: /etc/kubernetes/pki

apiServer:

certSANs:

- 192.168.96.23

- rhel8.systemv.local

- 192.168.96.30

- ol85.systemv.local

- 192.168.96.7

- haproxy2.systemv.local

extraArgs:

authorization-mode: Node,RBAC

timeoutForControlPlane: 4m0s

apiVersion: kubeadm.k8s.io/v1beta3

certificatesDir: /etc/kubernetes/pki

위와같이 SAN 에 추가할 도메인, IP를 적어준다.

apiserver.crt 파일 업데이트

기존의 존재하는 apiserver.crt 파일을 백업한다.

$ sudo mv /etc/kubernetes/pki/apiserver.{crt,key} ~

1	$ sudo mv /etc/kubernetes/pki/apiserver.{crt,key} ~

kubeadm 을 이용해 새로운 인증서를 생성해 준다.

$ sudo kubeadm init phase certs apiserver --config kubeadm.yaml

1	$ sudo kubeadm init phase certs apiserver --config kubeadm.yaml

새로운 인증서가 생성되면서 certSANs 에 설정된 도메인, IP 주소들이 모두 인증서에 업데이트 된다. 이제 새로운 인증서를 가지고 구동되도록 api 서버를 재시작 시켜줘야 한다.

Docker 기반의 경우에는 다음과 같이 하면 된다.

docker ps | grep kube-apiserver 명령어로 kube-apiserver 의 컨테이너 ID 를 파악한다.
docker kill <containerID> 로 컨테이너를 킬(kill) 한다. 이렇게 하면 api 서버가 재시작 된다.

만약 containerd 를 이용하는 경우에는 다음과 같이 하면 된다.

crictl pods | grep kube-apiserver 로 kube-apiserver 의 Pod ID 를 파악한다.
crictl stopp <pod-id> 로 pod 를 정지
crictl rmp <pod-id> 로 pod 를 제거 합니다. 이렇게하면 다시 Pod 가 재시작 된다.

위와같이 Api 서버가 재시작되면서 새롭게 만들어진 API 서버 인증서를 인식하게 된다.

클러스터 설정 업데이트

마지막으로 클러스터 설정을 업데이트 해줘야 한다.

$ sudo kubeadm init phase upload-config kubeadm --config kubeadm.yaml

1	$ sudo kubeadm init phase upload-config kubeadm --config kubeadm.yaml

이렇게 하면 최종적으로 Api 서버에 인증서가 업데이트 된다.

03/01/2022

Kubernetes 의 Role Based Access Control(RBAC)

쿠버네티스는 RBAC 기반으로 허가권(Permission) 을 조정하도록 설계 되었다. 그런데, 쿠버네티스는 다음과 같이 네가지의 Role 관련 리소스를 가지고 있다. 그 차이는 다음과 같다.

ClusterRole – 전체 클러스터에 적용하기 위한 역할(Role) 에 할당된 허가권(Permission)
ClusterRoleBinding – 특정 계정(Account) 에 ClusterRole 을 바인딩
Role – 특정 네임스페이스에 적용하기 위한 역할(Role) 에 할당된 허가권(Permission)
RoleBinding – 특정 계정(Account) 에 Role 을 바인딩

RBAC 을 적용하기 위해서는 계정이 필요하다. 이 계정은 쿠버네티스의 사용자를 말하는것이 아닌 쿠버네티스에서 운영되는 자원에 대한 계정을 말한다.

예를들어 ingress-nginx 라는 계정을 생성했다면 이제 이 계정에 ClusterRole 과 Role 을 Binding 을 통해서 ingress-nginx 계정과 연결하는 형식이다.

참고: Role Based Access Control (RBAC)

02/28/2022

Istio, Pod CrashLoopBackOff 해결하기

Istio 를 설치하고 Pod 를 생성했는데, 다음과 같이 오류가 발생했다.

]$ kubectl describe pod/employee-producer-866cfb8cf8-s2qk4
Init Containers:
  istio-init:
    Container ID:  containerd://eb85c7971088c72e64b432a38f419a392182a44735281993c0c2b44460acd8fc
    Image:         docker.io/istio/proxyv2:1.13.1
    Image ID:      docker.io/istio/proxyv2@sha256:099ee79c150829471270a14520506b83117bb7448cc80ba215617785237c1eb0
    Port:          <none>
    Host Port:     <none>
    Args:
      istio-iptables
....
    State:          Waiting
      Reason:       CrashLoopBackOff
    Last State:     Terminated
      Reason:       Error
      Exit Code:    255
      Started:      Mon, 28 Feb 2022 13:07:52 +0900
      Finished:     Mon, 28 Feb 2022 13:07:52 +0900
...

]$ kubectl describe pod/employee-producer-866cfb8cf8-s2qk4

Init Containers:

istio-init:

Container ID: containerd://eb85c7971088c72e64b432a38f419a392182a44735281993c0c2b44460acd8fc

Image: docker.io/istio/proxyv2:1.13.1

Image ID: docker.io/istio/proxyv2@sha256:099ee79c150829471270a14520506b83117bb7448cc80ba215617785237c1eb0

Port: <none>

Host Port: <none>

Args:

istio-iptables

....

State: Waiting

Reason: CrashLoopBackOff

Last State: Terminated

Reason: Error

Exit Code: 255

Started: Mon, 28 Feb 2022 13:07:52 +0900

Finished: Mon, 28 Feb 2022 13:07:52 +0900

...

istio-init 컨테이너가 오류가 발생한 것을 알 수 있다. Pod 안에 컨테이너가 여러개일 경우에 컨테이너 로그를 봐야하는데 다음과 같이 Pod 에 속한 컨테이너 로그를 볼수 있다.

]$ kubectl logs employee-producer-866cfb8cf8-spnqs -c istio-init
COMMIT
2022-02-28T04:16:59.895565Z     info    Running command: iptables-restore --noflush /tmp/iptables-rules-1646021819895421411.txt3256082129
2022-02-28T04:16:59.896995Z     error   Command error output: xtables parameter problem: iptables-restore: unable to initialize table 'nat'

Error occurred at line: 1
Try `iptables-restore -h' or 'iptables-restore --help' for more information.
2022-02-28T04:16:59.897030Z     error   Failed to execute: iptables-restore --noflush /tmp/iptables-rules-1646021819895421411.txt3256082129, exit status 2

]$ kubectl logs employee-producer-866cfb8cf8-spnqs -c istio-init

COMMIT

2022-02-28T04:16:59.895565Z info Running command: iptables-restore --noflush /tmp/iptables-rules-1646021819895421411.txt3256082129

2022-02-28T04:16:59.896995Z error Command error output: xtables parameter problem: iptables-restore: unable to initialize table 'nat'

Error occurred at line: 1

Try `iptables-restore -h' or 'iptables-restore --help' for more information.

2022-02-28T04:16:59.897030Z error Failed to execute: iptables-restore --noflush /tmp/iptables-rules-1646021819895421411.txt3256082129, exit status 2

이 문제는 istio cni 컴포넌트를 함께 설치해주면 된다. 보통 Istio 를 설치할때에 Profile 만 지정하는데, demo 프로파일에 경우에 CNI 를 설치하지 않는다. 다음과 같이 재설치를 해준다.

]$ istioctl x uninstall --purge # 삭제
]$ istioctl install --set profile=demo --set components.cni.enabled=true -y

1 2	]$ istioctl x uninstall --purge # 삭제 ]$ istioctl install --set profile=demo --set components.cni.enabled=true -y

이렇게 CNI 를 활성화해서 재설치를 하면 문제없이 작동 된다.

문제점

여기서 한가지 문제가 있다. CNI 는 보통 Flannel, Calico 등을 이용하는데, 이것과 별도로 Istio-cni 를 설치하게 되는 것이다. 이왕이면 기존에 있는 것을 활용하는 방안을 고려해야 한다.

Calico 의 경우에 이에 대해서 기술하고 있는 문서가 있으니 참고해서 한번 해볼만 하다.

02/12/2022

Istio 설치

Istio 는 쿠버네티스의 Network 레벨의 Mesh 서비스다. 비교하자면 Netflix OSS 에 Ribbon 과 비슷하다고 볼 수 있다.

Istio 설치 방법

Istio 설치 방법은 다양하다. 처음에 Istio 를 시작할때에 가장 헷깔리는 것이 바로 설치 방법이다. 구글에서 검색을 하면 설치방법이 나오지만 읽어보면 제각각인 이유가 다양한 설치 방법 때문이다.

그래서인지 Istio 홈페이지에서 다양한 설치 방법을 적어놨는데 대략 3가지 방법이 많이 쓰인다.

Install with Istioctl
Install with Helm
Install Istio Operator

여기서는 Istoctl 을 이용해 설치하는 법을 다룬다. 이 방법은 다음 문서에 잘 나와 있다.

Getting Started

Download Istioctl

다음과 같이 Istio 를 다운로드 한다.

$ curl -L https://istio.io/downloadIstio | sh -
$ sudo cp istio-1.13.0/bin/istioctl /usr/local/bin/
[sudo] password for systemv:
$ sudo chmod +x /usr/local/bin/istioctl

$ curl -L https://istio.io/downloadIstio | sh -

$ sudo cp istio-1.13.0/bin/istioctl /usr/local/bin/

[sudo] password for systemv:

$ sudo chmod +x /usr/local/bin/istioctl

istio profile

istioctl 은 말그대로 istio 관련 작업을 위한 툴이다. 설치를 할때도 이를 활용할 수 있다.

istio 설치는 미리 정의되어 있는 프로파일을 정의하면 그 프로파일에 맞는 컴포넌트들을 같이 설치해 준다. 미리정의된 프로파일은 다음과 같이 조회가 가능하다.

$ istioctl profile list
Istio configuration profiles:
    default
    demo
    empty
    external
    minimal
    openshift
    preview
    remote

$ istioctl profile list

Istio configuration profiles:

default

demo

empty

external

minimal

openshift

preview

remote

프로파일의 내용은 대략 다음과 같다.

default: 프로덕트 환경에 적합하도록 기본세팅되어 있다.
demo: 쇼케이스를 위해서 세팅된 값을 쓴다.
minimal: 오진 컨트롤 플레인만 설치된다.
empty: 아무것도 디폴로이 되지 않는다. 이것은 커스텀 설정을 위한 베이스 프로파일처럼 사용할 수 있다.

각 프로파일의 내용은 다음과 같이 dump 옵션을 사용해 가능하다.

$ istioctl profile dump default
apiVersion: install.istio.io/v1alpha1
kind: IstioOperator
spec:
  components:
    base:
      enabled: true
    cni:
      enabled: false
    egressGateways:
    - enabled: false
      name: istio-egressgateway
    ingressGateways:
    - enabled: true
      name: istio-ingressgateway
    istiodRemote:
      enabled: false
    pilot:
      enabled: true
  hub: docker.io/istio
  meshConfig:
    defaultConfig:
      proxyMetadata: {}
    enablePrometheusMerge: true
  profile: default
  tag: 1.13.0

$ istioctl profile dump default

apiVersion: install.istio.io/v1alpha1

kind: IstioOperator

spec:

components:

base:

enabled: true

cni:

enabled: false

egressGateways:

- enabled: false

ingressGateways:

- enabled: true

istiodRemote:

enabled: false

pilot:

enabled: true

hub: docker.io/istio

meshConfig:

defaultConfig:

proxyMetadata: {}

enablePrometheusMerge: true

profile: default

tag: 1.13.0

위 내용을 보면, cni, egressGateway 와 istiodRemote 가 비활성화 되어 있다.

전체설정의 서브셋만 보고 싶다면 –config-path 를 사용하면 가능하다.

$ istioctl profile dump --config-path components.cni default
enabled: false

1 2	$ istioctl profile dump --config-path components.cni default enabled: false

프로파일에 차이를 알고 싶다면 다음과 같이 확인할 수 있다.

$ istioctl profile diff default demo
The difference between profiles:
 apiVersion: install.istio.io/v1alpha1

$ istioctl profile diff default demo

The difference between profiles:

apiVersion: install.istio.io/v1alpha1

demo profile 설치

demo 프로파일을 이용해 설치를 진행 한다. istio 문서대로 한번 해보는 것이다.

$ istioctl install --set profile=demo -y
✔ Istio core installed                                                                                                                                                                                
✔ Istiod installed                                                                                                                                                                                    
✔ Egress gateways installed                                                                                                                                                                           
✔ Ingress gateways installed                                                                                                                                                                          
✔ Installation complete                                                                                                                                                                               Making this installation the default for injection and validation.

Thank you for installing Istio 1.13.  Please take a few minutes to tell us about your install/upgrade experience!  https://forms.gle/pzWZpAvMVBecaQ9h9

$ istioctl install --set profile=demo -y

✔ Istio core installed

✔ Istiod installed

✔ Egress gateways installed

✔ Ingress gateways installed

✔ Installation complete Making this installation the default for injection and validation.

Thank you for installing Istio 1.13. Please take a few minutes to tell us about your install/upgrade experience! https://forms.gle/pzWZpAvMVBecaQ9h9

자동으로 Envoy 사이드카 프록시를 자동으로 주입시키기 위한 네임스페이스에 라벨을 추가해준다.

$ kubectl label namespace default istio-injection=enabled
namespace/default labeled

1 2	$ kubectl label namespace default istio-injection=enabled namespace/default labeled

default 네임스페이스에 라벨링을 해줬다. default 네임스페이스에 드플로이를 해주면 Envoy 사이드카가 자동으로 주입된다.

istio 설치 확인

먼저 네임스페이스를 확인해 보자. 네임스페이스는 istio-system 이 생성된다.

$ kubectl get ns
NAME              STATUS   AGE
default           Active   300d
ingress-nginx     Active   16d
istio-system      Active   4m54s
kube-node-lease   Active   300d
kube-public       Active   300d
kube-system       Active   300d
metallb-system    Active   204d
monitoring        Active   201d

$ kubectl get ns

NAME STATUS AGE

default Active 300d

ingress-nginx Active 16d

istio-system Active 4m54s

kube-node-lease Active 300d

kube-public Active 300d

kube-system Active 300d

metallb-system Active 204d

monitoring Active 201d

그리고 이제 어떤것이 설치되었는지를 살펴보자.

$ kubectl get all -n istio-system
NAME                                       READY   STATUS    RESTARTS   AGE
pod/istio-egressgateway-599c8845c9-hcp24   1/1     Running   0          8m31s
pod/istio-ingressgateway-69dc56d7f-64xl4   1/1     Running   0          8m31s
pod/istiod-8c75fcbc9-d6svq                 1/1     Running   0          8m51s

NAME                           TYPE           CLUSTER-IP    EXTERNAL-IP     PORT(S)                                                                      AGE
service/istio-egressgateway    ClusterIP      10.32.0.43    <none>          80/TCP,443/TCP                                                               8m29s
service/istio-ingressgateway   LoadBalancer   10.32.0.206   192.168.111.5   15021:30526/TCP,80:32234/TCP,443:30548/TCP,31400:30295/TCP,15443:30456/TCP   8m29s
service/istiod                 ClusterIP      10.32.0.196   <none>          15010/TCP,15012/TCP,443/TCP,15014/TCP                                        8m51s

NAME                                   READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/istio-egressgateway    1/1     1            1           8m31s
deployment.apps/istio-ingressgateway   1/1     1            1           8m31s
deployment.apps/istiod                 1/1     1            1           8m52s

NAME                                             DESIRED   CURRENT   READY   AGE
replicaset.apps/istio-egressgateway-599c8845c9   1         1         1       8m31s
replicaset.apps/istio-ingressgateway-69dc56d7f   1         1         1       8m31s
replicaset.apps/istiod-8c75fcbc9                 1         1         1       8m52s

$ kubectl get all -n istio-system

NAME READY STATUS RESTARTS AGE

pod/istio-egressgateway-599c8845c9-hcp24 1/1 Running 0 8m31s

pod/istio-ingressgateway-69dc56d7f-64xl4 1/1 Running 0 8m31s

pod/istiod-8c75fcbc9-d6svq 1/1 Running 0 8m51s

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE

service/istio-egressgateway ClusterIP 10.32.0.43 <none> 80/TCP,443/TCP 8m29s

service/istio-ingressgateway LoadBalancer 10.32.0.206 192.168.111.5 15021:30526/TCP,80:32234/TCP,443:30548/TCP,31400:30295/TCP,15443:30456/TCP 8m29s

service/istiod ClusterIP 10.32.0.196 <none> 15010/TCP,15012/TCP,443/TCP,15014/TCP 8m51s

NAME READY UP-TO-DATE AVAILABLE AGE

deployment.apps/istio-egressgateway 1/1 1 1 8m31s

deployment.apps/istio-ingressgateway 1/1 1 1 8m31s

deployment.apps/istiod 1/1 1 1 8m52s

NAME DESIRED CURRENT READY AGE

replicaset.apps/istio-egressgateway-599c8845c9 1 1 1 8m31s

replicaset.apps/istio-ingressgateway-69dc56d7f 1 1 1 8m31s

replicaset.apps/istiod-8c75fcbc9 1 1 1 8m52s

CRD 도 함께 생성된다. 다음과 같이 확인 가능하다.

$ kubectl get crd | grep istio
authorizationpolicies.security.istio.io               2022-02-12T12:35:39Z
destinationrules.networking.istio.io                  2022-02-12T12:35:40Z
envoyfilters.networking.istio.io                      2022-02-12T12:35:40Z
gateways.networking.istio.io                          2022-02-12T12:35:40Z
istiooperators.install.istio.io                       2022-02-12T12:35:40Z
peerauthentications.security.istio.io                 2022-02-12T12:35:41Z
proxyconfigs.networking.istio.io                      2022-02-12T12:35:41Z
requestauthentications.security.istio.io              2022-02-12T12:35:41Z
serviceentries.networking.istio.io                    2022-02-12T12:35:41Z
sidecars.networking.istio.io                          2022-02-12T12:35:41Z
telemetries.telemetry.istio.io                        2022-02-12T12:35:42Z
virtualservices.networking.istio.io                   2022-02-12T12:35:42Z
wasmplugins.extensions.istio.io                       2022-02-12T12:35:42Z
workloadentries.networking.istio.io                   2022-02-12T12:35:43Z
workloadgroups.networking.istio.io                    2022-02-12T12:35:43Z

$ kubectl get crd | grep istio

authorizationpolicies.security.istio.io 2022-02-12T12:35:39Z

destinationrules.networking.istio.io 2022-02-12T12:35:40Z

envoyfilters.networking.istio.io 2022-02-12T12:35:40Z

gateways.networking.istio.io 2022-02-12T12:35:40Z

istiooperators.install.istio.io 2022-02-12T12:35:40Z

peerauthentications.security.istio.io 2022-02-12T12:35:41Z

proxyconfigs.networking.istio.io 2022-02-12T12:35:41Z

requestauthentications.security.istio.io 2022-02-12T12:35:41Z

serviceentries.networking.istio.io 2022-02-12T12:35:41Z

sidecars.networking.istio.io 2022-02-12T12:35:41Z

telemetries.telemetry.istio.io 2022-02-12T12:35:42Z

virtualservices.networking.istio.io 2022-02-12T12:35:42Z

wasmplugins.extensions.istio.io 2022-02-12T12:35:42Z

workloadentries.networking.istio.io 2022-02-12T12:35:43Z

workloadgroups.networking.istio.io 2022-02-12T12:35:43Z

문제

이벤트(Events) 를 보면 다음과 같이 오류가 난것을 확인할 수 있다.

19m         Warning   listen tcp4 :30754: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istio-ingressgateway:status-port" (:30754/tcp4), skipping it
19m         Warning   listen tcp4 :32315: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istio-ingressgateway:https" (:32315/tcp4), skipping it
19m         Warning   listen tcp4 :31159: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istio-ingressgateway:tcp" (:31159/tcp4), skipping it
19m         Warning   listen tcp4 :31078: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istio-ingressgateway:http2" (:31078/tcp4), skipping it
19m         Warning   listen tcp4 :31384: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istio-ingressgateway:tls" (:31384/tcp4), skipping it
8m58s       Warning   listen tcp4 :30051: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istiod:http-monitoring" (:30051/tcp4), skipping it
8m58s       Warning   listen tcp4 :31601: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istiod:https-dns" (:31601/tcp4), skipping it
8m58s       Warning   listen tcp4 :30751: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istiod:https-webhook" (:30751/tcp4), skipping it
8m58s       Warning   listen tcp4 :30761: bind: address already in use   node/kworker3.systemv.local            can't open port "nodePort for istio-system/istiod:grpc-xds" (:30761/tcp4), skipping it
32m         Warning   FailedCreate                                       replicaset/productpage-v1-65b75f6885   Error creating: Internal error occurred: failed calling webhook "namespace.sidecar-injector.istio.io": failed to call webhook: Post "https://istiod.istio-system.svc:443/inject?timeout=10s": context deadline exceeded
35m         Warning   FailedCreate

19m Warning listen tcp4 :30754: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istio-ingressgateway:status-port" (:30754/tcp4), skipping it

19m Warning listen tcp4 :32315: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istio-ingressgateway:https" (:32315/tcp4), skipping it

19m Warning listen tcp4 :31159: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istio-ingressgateway:tcp" (:31159/tcp4), skipping it

19m Warning listen tcp4 :31078: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istio-ingressgateway:http2" (:31078/tcp4), skipping it

19m Warning listen tcp4 :31384: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istio-ingressgateway:tls" (:31384/tcp4), skipping it

8m58s Warning listen tcp4 :30051: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istiod:http-monitoring" (:30051/tcp4), skipping it

8m58s Warning listen tcp4 :31601: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istiod:https-dns" (:31601/tcp4), skipping it

8m58s Warning listen tcp4 :30751: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istiod:https-webhook" (:30751/tcp4), skipping it

8m58s Warning listen tcp4 :30761: bind: address already in use node/kworker3.systemv.local can't open port "nodePort for istio-system/istiod:grpc-xds" (:30761/tcp4), skipping it

32m Warning FailedCreate replicaset/productpage-v1-65b75f6885 Error creating: Internal error occurred: failed calling webhook "namespace.sidecar-injector.istio.io": failed to call webhook: Post "https://istiod.istio-system.svc:443/inject?timeout=10s": context deadline exceeded

35m Warning FailedCreate

02/12/2022

쿠버네티스 curl 사용하기

쿠버네티스에서 클러스터내에서 Pod 에 데이터가 잘 나오는지를 확인하는 방법은 CURL 일 것이다. ClusterIP 로 IP 가 할당되면 클러스터내에서 접근이 가능한데 이때에 다음과 같이 사용하면 된다.

$ kubectl run curl -it --rm --image curlimages/curl -- sh
If you don't see a command prompt, try pressing enter.
/ $

$ kubectl run curl -it --rm --image curlimages/curl -- sh

If you don't see a command prompt, try pressing enter.

/ $

curl 을 비롯한 ping, nslookup 도 가능하다.

02/12/2022

Calico Metrics 모니터링 하기

Calico 는 쿠버네티스(Kubernetes) 의 CNI 다. 쉽게 말해서 쿠버네티스의 네트워킹을 가능하게 해준다. 설치도 쉽게 할수 있는데, 프로메테우스에서 Calico 모니터링을 하기 위해서는 추가적인 작업이 필요한데 여기에 대해서 알아본다.

calicoctl

calicoctl 을 설치해야 한다. 이 파일은 바이너리이며 wget, curl 명령어를 이용해서 설치가 가능하다. 설치를 한 후에 이것을 사용하기 위해서는 다음과 같이 환경변수를 설정해 준다.

$ export DATASTORE_TYPE=kubernetes
$ export KUBECONFIG=~/.kube/config
$ calicoctl get nodes
NAME                     
kworker1.systemv.local   
kworker2.systemv.local   
kworker3.systemv.local
$ calicoctl get workloadendpoints
WORKLOAD                                 NODE                     NETWORKS          INTERFACE         
dnsutils                                 kworker2.systemv.local   10.31.168.71/32   calib3c61c3cba9   
springboot-deployment-77db875f78-9fshx   kworker3.systemv.local   10.31.4.57/32     cali11c98587cc4   
springboot-deployment-77db875f78-km8rd   kworker1.systemv.local   10.31.20.48/32    cali712f16523f2   
springboot-deployment-77db875f78-nj7t7   kworker1.systemv.local   10.31.20.57/32    calibcff04191b7
$ calicoctl get ippools
NAME                  CIDR           SELECTOR   
default-ipv4-ippool   10.31.0.0/16   all()

$ export DATASTORE_TYPE=kubernetes

$ export KUBECONFIG=~/.kube/config

$ calicoctl get nodes

NAME

kworker1.systemv.local

kworker2.systemv.local

kworker3.systemv.local

$ calicoctl get workloadendpoints

WORKLOAD NODE NETWORKS INTERFACE

dnsutils kworker2.systemv.local 10.31.168.71/32 calib3c61c3cba9

springboot-deployment-77db875f78-9fshx kworker3.systemv.local 10.31.4.57/32 cali11c98587cc4

springboot-deployment-77db875f78-km8rd kworker1.systemv.local 10.31.20.48/32 cali712f16523f2

springboot-deployment-77db875f78-nj7t7 kworker1.systemv.local 10.31.20.57/32 calibcff04191b7

$ calicoctl get ippools

NAME CIDR SELECTOR

default-ipv4-ippool 10.31.0.0/16 all()

calicoctl 명령어는 다양한 질의를 할 수 있다.

Calico CRD

Calico 설치를 메니페스트로 설치를 하게 되면 CRD 가 생성되면서 CRD 에 정의된 오브젝트가 함께 생성된다.

$ kubectl get crd | grep calico
bgpconfigurations.crd.projectcalico.org               2021-04-18T17:42:07Z
bgppeers.crd.projectcalico.org                        2021-04-18T17:42:07Z
blockaffinities.crd.projectcalico.org                 2021-04-18T17:42:08Z
caliconodestatuses.crd.projectcalico.org              2022-01-28T16:00:01Z
clusterinformations.crd.projectcalico.org             2021-04-18T17:42:08Z
felixconfigurations.crd.projectcalico.org             2021-04-18T17:42:08Z
globalnetworkpolicies.crd.projectcalico.org           2021-04-18T17:42:08Z
globalnetworksets.crd.projectcalico.org               2021-04-18T17:42:08Z
hostendpoints.crd.projectcalico.org                   2021-04-18T17:42:08Z
ipamblocks.crd.projectcalico.org                      2021-04-18T17:42:09Z
ipamconfigs.crd.projectcalico.org                     2021-04-18T17:42:09Z
ipamhandles.crd.projectcalico.org                     2021-04-18T17:42:09Z
ippools.crd.projectcalico.org                         2021-04-18T17:42:09Z
ipreservations.crd.projectcalico.org                  2022-01-28T16:00:02Z
kubecontrollersconfigurations.crd.projectcalico.org   2021-04-18T17:42:09Z
networkpolicies.crd.projectcalico.org                 2021-04-18T17:42:09Z
networksets.crd.projectcalico.org                     2021-04-18T17:42:10Z

$ kubectl get crd | grep calico

bgpconfigurations.crd.projectcalico.org 2021-04-18T17:42:07Z

bgppeers.crd.projectcalico.org 2021-04-18T17:42:07Z

blockaffinities.crd.projectcalico.org 2021-04-18T17:42:08Z

caliconodestatuses.crd.projectcalico.org 2022-01-28T16:00:01Z

clusterinformations.crd.projectcalico.org 2021-04-18T17:42:08Z

felixconfigurations.crd.projectcalico.org 2021-04-18T17:42:08Z

globalnetworkpolicies.crd.projectcalico.org 2021-04-18T17:42:08Z

globalnetworksets.crd.projectcalico.org 2021-04-18T17:42:08Z

hostendpoints.crd.projectcalico.org 2021-04-18T17:42:08Z

ipamblocks.crd.projectcalico.org 2021-04-18T17:42:09Z

ipamconfigs.crd.projectcalico.org 2021-04-18T17:42:09Z

ipamhandles.crd.projectcalico.org 2021-04-18T17:42:09Z

ippools.crd.projectcalico.org 2021-04-18T17:42:09Z

ipreservations.crd.projectcalico.org 2022-01-28T16:00:02Z

kubecontrollersconfigurations.crd.projectcalico.org 2021-04-18T17:42:09Z

networkpolicies.crd.projectcalico.org 2021-04-18T17:42:09Z

networksets.crd.projectcalico.org 2021-04-18T17:42:10Z

이것을 언급하는 이유는 Calico 홈페이지에 보면 이에 대한 언급이 많이 되어 있지 않은채, API 를 언급하고 있다. 만일 API 조회를 해봤는데 없다면 CRD 를 살펴보고 찾으면 된다.

Monitor Calico component metrics

Felix configuration

이제 Calico 의 컴포넌트 메트릭을 활성화 해보자. 이를 위해서는 felixconfigurations 의 설정을 먼저 바꿔야 한다. 이를 위해서 calicoctl 명령어를 활용한다.

$ kubectl get felixconfigurations -o yaml
apiVersion: v1
items:
- apiVersion: crd.projectcalico.org/v1
  kind: FelixConfiguration
  metadata:
    annotations:
      projectcalico.org/metadata: '{"uid":"92e205c7-7ba5-48f2-997d-e6c50b9893df","creationTimestamp":"2021-04-18T17:42:57Z"}'
    creationTimestamp: "2021-04-18T17:42:57Z"
    generation: 2
    name: default
    resourceVersion: "35474"
    uid: 92e205c7-7ba5-48f2-997d-e6c50b9893df
  spec:
    bpfLogLevel: ""
    ipipEnabled: true
    logSeverityScreen: Info
    reportingInterval: 0s
kind: List
metadata:
  resourceVersion: ""
  selfLink: ""
$ calicoctl patch felixConfiguration default  --patch '{"spec":{"prometheusMetricsEnabled": true}}'
Successfully patched 1 'FelixConfiguration' resource
$ kubectl get felixconfigurations -o yaml
apiVersion: v1
items:
- apiVersion: crd.projectcalico.org/v1
  kind: FelixConfiguration
  metadata:
    annotations:
      projectcalico.org/metadata: '{"uid":"92e205c7-7ba5-48f2-997d-e6c50b9893df","creationTimestamp":"2021-04-18T17:42:57Z"}'
    creationTimestamp: "2021-04-18T17:42:57Z"
    generation: 3
    name: default
    resourceVersion: "1015953"
    uid: 92e205c7-7ba5-48f2-997d-e6c50b9893df
  spec:
    bpfLogLevel: ""
    ipipEnabled: true
    logSeverityScreen: Info
    prometheusMetricsEnabled: true
    reportingInterval: 0s
kind: List
metadata:
  resourceVersion: ""
  selfLink: ""

$ kubectl get felixconfigurations -o yaml

apiVersion: v1

items:

- apiVersion: crd.projectcalico.org/v1

kind: FelixConfiguration

metadata:

annotations:

projectcalico.org/metadata: '{"uid":"92e205c7-7ba5-48f2-997d-e6c50b9893df","creationTimestamp":"2021-04-18T17:42:57Z"}'

creationTimestamp: "2021-04-18T17:42:57Z"

generation: 2

resourceVersion: "35474"

uid: 92e205c7-7ba5-48f2-997d-e6c50b9893df

spec:

bpfLogLevel: ""

ipipEnabled: true

logSeverityScreen: Info

reportingInterval: 0s

kind: List

metadata:

resourceVersion: ""

selfLink: ""

$ calicoctl patch felixConfiguration default --patch '{"spec":{"prometheusMetricsEnabled": true}}'

Successfully patched 1 'FelixConfiguration' resource

$ kubectl get felixconfigurations -o yaml

apiVersion: v1

items:

- apiVersion: crd.projectcalico.org/v1

kind: FelixConfiguration

metadata:

annotations:

projectcalico.org/metadata: '{"uid":"92e205c7-7ba5-48f2-997d-e6c50b9893df","creationTimestamp":"2021-04-18T17:42:57Z"}'

creationTimestamp: "2021-04-18T17:42:57Z"

generation: 3

resourceVersion: "1015953"

uid: 92e205c7-7ba5-48f2-997d-e6c50b9893df

spec:

bpfLogLevel: ""

ipipEnabled: true

logSeverityScreen: Info

prometheusMetricsEnabled: true

reportingInterval: 0s

kind: List

metadata:

resourceVersion: ""

selfLink: ""

Creating a service to expose Felix metrics

이제 프로메테우스에서 메트릭 수집을 위한 서비스를 다음과 같이 만든다.

$ kubectl apply -f - <<EOF
apiVersion: v1
kind: Service
metadata:
  name: calico-felix-metrics-svc
  namespace: kube-system
  labels:
    app.kubernetes.io/instance: calico
    app.kubernetes.io/name: felix
    k8s-app: felix-metrics
spec:
  selector:
    k8s-app: calico-node
  ports:
  - name: metrics
    port: 9091
    protocol: TCP
    targetPort: 9091
EOF
service/felix-metrics-svc created

$ kubectl apply -f - <<EOF

apiVersion: v1

kind: Service

metadata:

namespace: kube-system

labels:

app.kubernetes.io/instance: calico

app.kubernetes.io/name: felix

k8s-app: felix-metrics

spec:

selector:

k8s-app: calico-node

ports:

- name: metrics

port: 9091

protocol: TCP

targetPort: 9091

EOF

service/felix-metrics-svc created

Felix 는 쿠버네티스 WorkerNode 에서 실행되는 CNI 를 말한다. 셀렉터를 보면 k8s-app: calico-node 를 설정하고 있는데, Calico Node 의 Pods 를 지정한 것이다.

또, 나중에 ServiceMonitor 설정을 위해서 Labels 를 잘 설정해줘야 한다.

Typha 설정은 하지 않는다. 50개 노드 이하로 설치를 했기 때문에 Typha 가 없다.

Confirm prometheus metrics port

쿠버네티스는 컨트롤 설정을 하나로 모아 놨다. 이 설정을 보면 여러가지 오브젝트에 대한 내용도 나오는데, 이 오브젝트에 대한 프로메테우스 엔드포인트는 9094로 정의 되어 있다. 이 포트를 이용하면 모든 메트릭의 엔드포이트를 가지고 올 수 있다.

$ kubectl get kubecontrollersconfiguration -o yaml
apiVersion: v1
items:
- apiVersion: crd.projectcalico.org/v1
  kind: KubeControllersConfiguration
  metadata:
    annotations:
      projectcalico.org/metadata: '{"uid":"d2a63152-c0ba-407c-9d2e-8be8d559d941","creationTimestamp":"2021-04-18T17:43:07Z"}'
    creationTimestamp: "2021-04-18T17:43:07Z"
    generation: 4
    name: default
    resourceVersion: "797517"
    uid: d2a63152-c0ba-407c-9d2e-8be8d559d941
  spec:
    controllers:
      namespace:
        reconcilerPeriod: 5m0s
      node:
        leakGracePeriod: 15m0s
        reconcilerPeriod: 5m0s
        syncLabels: Enabled
      policy:
        reconcilerPeriod: 5m0s
      serviceAccount:
        reconcilerPeriod: 5m0s
      workloadEndpoint:
        reconcilerPeriod: 5m0s
    etcdV3CompactionPeriod: 10m0s
    healthChecks: Enabled
    logSeverityScreen: Info
    prometheusMetricsPort: 9094
  status:
    environmentVars:
      DATASTORE_TYPE: kubernetes
      ENABLED_CONTROLLERS: node
    runningConfig:
      controllers:
        node:
          hostEndpoint:
            autoCreate: Disabled
          leakGracePeriod: 15m0s
          syncLabels: Disabled
      etcdV3CompactionPeriod: 10m0s
      healthChecks: Enabled
      logSeverityScreen: Info
kind: List
metadata:
  resourceVersion: ""
  selfLink: ""

$ kubectl get kubecontrollersconfiguration -o yaml

apiVersion: v1

items:

- apiVersion: crd.projectcalico.org/v1

kind: KubeControllersConfiguration

metadata:

annotations:

projectcalico.org/metadata: '{"uid":"d2a63152-c0ba-407c-9d2e-8be8d559d941","creationTimestamp":"2021-04-18T17:43:07Z"}'

creationTimestamp: "2021-04-18T17:43:07Z"

generation: 4

resourceVersion: "797517"

uid: d2a63152-c0ba-407c-9d2e-8be8d559d941

spec:

controllers:

namespace:

reconcilerPeriod: 5m0s

node:

leakGracePeriod: 15m0s

reconcilerPeriod: 5m0s

syncLabels: Enabled

policy:

reconcilerPeriod: 5m0s

serviceAccount:

reconcilerPeriod: 5m0s

workloadEndpoint:

reconcilerPeriod: 5m0s

etcdV3CompactionPeriod: 10m0s

healthChecks: Enabled

logSeverityScreen: Info

prometheusMetricsPort: 9094

status:

environmentVars:

DATASTORE_TYPE: kubernetes

ENABLED_CONTROLLERS: node

runningConfig:

controllers:

node:

hostEndpoint:

autoCreate: Disabled

leakGracePeriod: 15m0s

syncLabels: Disabled

etcdV3CompactionPeriod: 10m0s

healthChecks: Enabled

logSeverityScreen: Info

kind: List

metadata:

resourceVersion: ""

selfLink: ""

Creating a service to expose kube-controllers metrics

앞에 Felix 는 Node 의 CNI 라고 한다면 이를 제어하는 것이 컨트롤러이다. 이를 위한 서비스를 다음과 같이 생성해 준다.

$ kubectl apply -f - <<EOF
apiVersion: v1
kind: Service
metadata:
  name: calico-kube-controllers-metrics-svc
  namespace: kube-system
  labels:
    app.kubernetes.io/instance: calico
    app.kubernetes.io/name: calico-kube-controllers-metrics-svc
    k8s-app: calico-kube-controllers-metrics-metrics
spec:
  selector:
    k8s-app: calico-kube-controllers
  ports:
  - name: metrics
    port: 9094
    protocol: TCP
    targetPort: 9094
EOF

$ kubectl apply -f - <<EOF

apiVersion: v1

kind: Service

metadata:

namespace: kube-system

labels:

app.kubernetes.io/instance: calico

app.kubernetes.io/name: calico-kube-controllers-metrics-svc

k8s-app: calico-kube-controllers-metrics-metrics

spec:

selector:

k8s-app: calico-kube-controllers

ports:

- name: metrics

port: 9094

protocol: TCP

targetPort: 9094

EOF

Calico-kube-controllers 의 Pods 를 찾기 위해서 셀렉터 k8s-app: calico-kube-controllers 지정해 준다. 그리고 ServiceMonitor 에서 찾을 수 있도록 Labels 를 설정해 줬다.

Prometheus ServiceMonitor 생성

나는 프로메테우스를 Operator 로 설치했다. Prometheus-Operator 설치를 할 경우에 메트릭 수집은 ServiceMonitor 를 통해서 이루어진다. 이 ServiceMonitor 는 Prometheus 의 설정을 함께 적용하면서 동작한다. Prometheus 의 Scape 을 ServiceMonitor 가 대신하는 것이라고 생각하면 쉽다.

Felix 를 위한 ServiceMonitor

Felix 를 위한 ServiceMonitor 는 다음과 같다.

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    serviceapp: calico-felix-servicemonitor
    release: prometheus
  name: prometheus-kube-prometheus-calico-felix
  namespace: monitoring
spec:
  namespaceSelector:
    matchNames:
    - kube-system
  selector:
    matchLabels:
      app.kubernetes.io/instance: calico
      app.kubernetes.io/name: felix
      k8s-app: felix-metrics
  jobLabel: felix_metrics
  endpoints:
  - bearerTokenFile: /var/run/secrets/kubernetes.io/serviceaccount/token
    interval: 15s
    port: metrics
    relabelings:
    - sourceLabels: [__meta_kubernetes_service_name]
      regex: calico-felix-metrics-svc
      action: keep
      replacement: $1

apiVersion: monitoring.coreos.com/v1

kind: ServiceMonitor

metadata:

labels:

serviceapp: calico-felix-servicemonitor

release: prometheus

namespace: monitoring

spec:

namespaceSelector:

matchNames:

- kube-system

selector:

matchLabels:

app.kubernetes.io/instance: calico

app.kubernetes.io/name: felix

k8s-app: felix-metrics

jobLabel: felix_metrics

endpoints:

- bearerTokenFile: /var/run/secrets/kubernetes.io/serviceaccount/token

interval: 15s

port: metrics

relabelings:

- sourceLabels: [__meta_kubernetes_service_name]

regex: calico-felix-metrics-svc

action: keep

replacement: $1

셀렉터를 이용해서 Service 의 Felix 를 지정해줬고, 스크랩에서도 Felix 를 인식하도록 서비스 이름을 지정해 줬다.

Calico Kube Controller ServiceMonitor

Calico kube controller 를 위한 ServiceMonitor 는 다음과 같다.

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    serviceapp: calico-kube-controller-servicemonitor
    release: prometheus
  name: prometheus-kube-prometheus-calico-controller
  namespace: monitoring
spec:
  namespaceSelector:
    matchNames:
    - kube-system
  selector:
    matchLabels:
      app.kubernetes.io/instance: calico
      app.kubernetes.io/name: calico-kube-controllers-metrics-svc
      k8s-app: calico-kube-controllers-metrics-metrics
  jobLabel: calico_kube_controller_metrics
  endpoints:
  - bearerTokenFile: /var/run/secrets/kubernetes.io/serviceaccount/token
    interval: 15s
    port: metrics
    relabelings:
    - sourceLabels: [__meta_kubernetes_service_name]
      regex: calico-kube-controllers-metrics-svc
      action: keep
      replacement: $1

apiVersion: monitoring.coreos.com/v1

kind: ServiceMonitor

metadata:

labels:

serviceapp: calico-kube-controller-servicemonitor

release: prometheus

namespace: monitoring

spec:

namespaceSelector:

matchNames:

- kube-system

selector:

matchLabels:

app.kubernetes.io/instance: calico

app.kubernetes.io/name: calico-kube-controllers-metrics-svc

k8s-app: calico-kube-controllers-metrics-metrics

jobLabel: calico_kube_controller_metrics

endpoints:

- bearerTokenFile: /var/run/secrets/kubernetes.io/serviceaccount/token

interval: 15s

port: metrics

relabelings:

- sourceLabels: [__meta_kubernetes_service_name]

regex: calico-kube-controllers-metrics-svc

action: keep

replacement: $1

위와같이 한 후에 프로메테우스를 살펴보면 다음과 같이 나온다.

02/08/2022

쿠버네티스 secret 파일 저장하기

쿠버네티스의 Secret 은 암호화해서 데이터를 저장하는데, 파일도 저장할 수 있다. 바이너리 파일이던 텍스트 파일이던 모두 base64 인코딩 스트링으로 저장이된다. 이것을 파일로 저장하는 방법에 대해서 간단하게 알아본다.

Prometheus 설정 Secret

Pormetheus 를 오퍼레이터(Operator) 로 설치를 했을 경우에 다음과 같은 Secret 을 볼 수 있다.

$ kubectl get secret prometheus-prometheus-kube-prometheus-prometheus -n monitoring -o yaml
apiVersion: v1
data:
  prometheus.yaml.gz: H4sIAAAAAAAA/+ydz4+jNhTH7/krfNjDzFYZdraXijmttJV66G5X7bGqLMe8JN4Y27JNOqOq/3uFYxJIIBtmWCZp3g0wfjz/4H2+NmAWUs+YTCeEwJrJgnmhFRXKg10zmZIf37kJIY5bZuDgMDx6sIpJKtkMpCuNEGKszsEvoXApybUSXluhFsnu8HRVzGBa299t7hmgFowUnKXkzc2X3z7Szx8+/Xw7sYUEOhcSXDqZkgQ8rxlPylSXtFo/cuFpmS3YnL5L3t49sVxOYqG5VnOxCNf6qmdUsRxS4sCuBYdPm/Ilp5WTSbA+Z4otwCbvJoQstdK2qjwyZ9LBhJAym1XgwVGX7S5PyJRYLSEloDKjhfKb6iodcoZxiPUfj1Q701ojTAjJwVvBHTXML1OSxN0JIRaCH83rOV1YDo3mDbUQtjyzC/CbxJRQ6nNDa21XVVYwxHjZr1KyAjAhc6tlSnPwjNYrYFPPm/MoM+a0M40FB8pvM1hYwGNKbvZbxHnGV412uX3wthjSZwsSWGjXHn7XM1W+79we3EcHck5jN+nn6EHOytvSwwH8rLo6Ndr6qjttr7L03kz/hll3Xz1ikWWZBedo7MYrobLembYOOTDMMq9tSh7qHn7WGTzc3L29jQeNZBxyUD4lb/65/7flPlI6g/Mtzxed9SuO0Vmf0myDWVvN1NJONlj12m3JmjZjch+LRmdd1noWtrTEtfJMKLBdNrcnDFjqKoK3NeB079yqqxxmOOXuq/oX7STGkrllSMx1VshSNNyH3SpilOn58XptmIkd9c3NH798+P3jbcNWjD4b6NF94pE//xqA8UaU+UYFfAZzVkgfdNoSStfLpikze+mi/c3ZQjnghQXqVsLQNVgxf9r5RcjG9Vj+nZshjbMgulKSrJlNbKESB9yCd8nuxDuhk1htjHNdKJ9wdsdt6dsMmAVLvV6BepalkPNClArXudEK4m1zMk6b2SqWbvvU4OA3Vq9FBj2h38hVl1abTKNg350vI5H5yPxLY/4AQa7rcpvwcPdDd//pJzmO3vlXpze4tpApN6LaCB64J+chvzaqf6f5h9iGVzL1cMKQfjcrdaZIRMQj4q8C8V/17NdyY1TCn3L/Xx3oF5bNmWL43OB53K4nCk2Fcp4p3pON37Azwkz9oQfbWPCCUuxD+CZ2NpzAR9Ij6S+O9DiB/wLOhv2yzayWEux0/Of1zQH286b0Y9zGWftzGN93dCkc7+N4H1UAqgAc7+N4v0OHgOcZTu1fOvrLVkTYI+wR9gh7hD3CvgP2xurHJ6T9pdM+NCPiHnGPuEfcI+4R9x24d3wJWSHx0QIqjhcqjm1PQtWBqgNVB6oOVB2oOtpVhwTfIjdiREa18T9SG2O8Jhh71OCyY/WT6y+Y6pmGd/CELxJRdKDoQNFxFqKjHgtG+y7xxPt/+xp9q/Kon4DqpUW93L+Oemn//iHhLFsLF9a+QX2D+gb1Deob1Deob1DfoL55pr55f1b6xlg9A4fqBtUNqpvXVgOoblDdoLpBdXOJ6kYbCCFgvIdPjdUrXrou5k6+7K02zsF6FxUI3V2SHlshNMuFc0IrylmMj7VFN0+ow8tRMb0lywH+D994qWoB33XBlTBRsaBiec3FM/D9kva/aeAiVefDy++4GNV5EhN/bYFwR7gj3HFlrCH47jzzUM2NvNLo/ULovTffjktMfvPpQ7N3jcLU8+UP8hR5emk8HTrAjDXbf9Vcr22WEWQKj2W0fL1fUtYn5y+H9i8bq3e1wZWM0fELzvMrD/Iaed0aQvALzoFIHf4zLFR45hy2D85qBNWQlFndIMfhz7ErY3FV4WgkvKJgLMzFY0qSzY3f5OwRqndxvY3se2w/oDshzAi6ButCodbvY2kOCt7Kk1ainHhjtNTZ0V9yD+BDB9cOZ3X/CwAA///mZWEHdn0AAA==
kind: Secret
metadata:
  annotations:
    generated: "true"
  creationTimestamp: "2022-01-29T16:06:35Z"
  labels:
    managed-by: prometheus-operator
  name: prometheus-prometheus-kube-prometheus-prometheus
  namespace: monitoring
  ownerReferences:
  - apiVersion: monitoring.coreos.com/v1
    blockOwnerDeletion: true
    controller: true
    kind: Prometheus
    name: prometheus-kube-prometheus-prometheus
    uid: 6b8415cb-b99a-4ac4-8bc1-a6175265fd1c
  resourceVersion: "841303"
  uid: 18933ea2-4dd8-464c-a61b-69513f7a807c
type: Opaque

$ kubectl get secret prometheus-prometheus-kube-prometheus-prometheus -n monitoring -o yaml

apiVersion: v1

data:

prometheus.yaml.gz: H4sIAAAAAAAA/+ydz4+jNhTH7/krfNjDzFYZdraXijmttJV66G5X7bGqLMe8JN4Y27JNOqOq/3uFYxJIIBtmWCZp3g0wfjz/4H2+NmAWUs+YTCeEwJrJgnmhFRXKg10zmZIf37kJIY5bZuDgMDx6sIpJKtkMpCuNEGKszsEvoXApybUSXluhFsnu8HRVzGBa299t7hmgFowUnKXkzc2X3z7Szx8+/Xw7sYUEOhcSXDqZkgQ8rxlPylSXtFo/cuFpmS3YnL5L3t49sVxOYqG5VnOxCNf6qmdUsRxS4sCuBYdPm/Ilp5WTSbA+Z4otwCbvJoQstdK2qjwyZ9LBhJAym1XgwVGX7S5PyJRYLSEloDKjhfKb6iodcoZxiPUfj1Q701ojTAjJwVvBHTXML1OSxN0JIRaCH83rOV1YDo3mDbUQtjyzC/CbxJRQ6nNDa21XVVYwxHjZr1KyAjAhc6tlSnPwjNYrYFPPm/MoM+a0M40FB8pvM1hYwGNKbvZbxHnGV412uX3wthjSZwsSWGjXHn7XM1W+79we3EcHck5jN+nn6EHOytvSwwH8rLo6Ndr6qjttr7L03kz/hll3Xz1ikWWZBedo7MYrobLembYOOTDMMq9tSh7qHn7WGTzc3L29jQeNZBxyUD4lb/65/7flPlI6g/Mtzxed9SuO0Vmf0myDWVvN1NJONlj12m3JmjZjch+LRmdd1noWtrTEtfJMKLBdNrcnDFjqKoK3NeB079yqqxxmOOXuq/oX7STGkrllSMx1VshSNNyH3SpilOn58XptmIkd9c3NH798+P3jbcNWjD4b6NF94pE//xqA8UaU+UYFfAZzVkgfdNoSStfLpikze+mi/c3ZQjnghQXqVsLQNVgxf9r5RcjG9Vj+nZshjbMgulKSrJlNbKESB9yCd8nuxDuhk1htjHNdKJ9wdsdt6dsMmAVLvV6BepalkPNClArXudEK4m1zMk6b2SqWbvvU4OA3Vq9FBj2h38hVl1abTKNg350vI5H5yPxLY/4AQa7rcpvwcPdDd//pJzmO3vlXpze4tpApN6LaCB64J+chvzaqf6f5h9iGVzL1cMKQfjcrdaZIRMQj4q8C8V/17NdyY1TCn3L/Xx3oF5bNmWL43OB53K4nCk2Fcp4p3pON37Azwkz9oQfbWPCCUuxD+CZ2NpzAR9Ij6S+O9DiB/wLOhv2yzayWEux0/Of1zQH286b0Y9zGWftzGN93dCkc7+N4H1UAqgAc7+N4v0OHgOcZTu1fOvrLVkTYI+wR9gh7hD3CvgP2xurHJ6T9pdM+NCPiHnGPuEfcI+4R9x24d3wJWSHx0QIqjhcqjm1PQtWBqgNVB6oOVB2oOtpVhwTfIjdiREa18T9SG2O8Jhh71OCyY/WT6y+Y6pmGd/CELxJRdKDoQNFxFqKjHgtG+y7xxPt/+xp9q/Kon4DqpUW93L+Oemn//iHhLFsLF9a+QX2D+gb1Deob1Deob1DfoL55pr55f1b6xlg9A4fqBtUNqpvXVgOoblDdoLpBdXOJ6kYbCCFgvIdPjdUrXrou5k6+7K02zsF6FxUI3V2SHlshNMuFc0IrylmMj7VFN0+ow8tRMb0lywH+D994qWoB33XBlTBRsaBiec3FM/D9kva/aeAiVefDy++4GNV5EhN/bYFwR7gj3HFlrCH47jzzUM2NvNLo/ULovTffjktMfvPpQ7N3jcLU8+UP8hR5emk8HTrAjDXbf9Vcr22WEWQKj2W0fL1fUtYn5y+H9i8bq3e1wZWM0fELzvMrD/Iaed0aQvALzoFIHf4zLFR45hy2D85qBNWQlFndIMfhz7ErY3FV4WgkvKJgLMzFY0qSzY3f5OwRqndxvY3se2w/oDshzAi6ButCodbvY2kOCt7Kk1ainHhjtNTZ0V9yD+BDB9cOZ3X/CwAA///mZWEHdn0AAA==

kind: Secret

metadata:

annotations:

generated: "true"

creationTimestamp: "2022-01-29T16:06:35Z"

labels:

managed-by: prometheus-operator

namespace: monitoring

ownerReferences:

- apiVersion: monitoring.coreos.com/v1

blockOwnerDeletion: true

controller: true

kind: Prometheus

uid: 6b8415cb-b99a-4ac4-8bc1-a6175265fd1c

resourceVersion: "841303"

uid: 18933ea2-4dd8-464c-a61b-69513f7a807c

type: Opaque

data 필드를 보면 prometheus.yaml.gz 파일이름이 보이고 내용이 base64 스트링이 보인다. 이 prometheus.yaml.gz 파일을 받기 위해서는 간단히 bas64 스트링을 디코딩하고 나오는 스트링을 그냥 파일명으로 저장하면 된다.

$ echo "H4sIAAAAAAAA/+ydz4+jNhTH7/krfNjDzFYZdraXijmttJV66G5X7bGqLMe8JN4Y27JNOqOq/3uFYxJIIBtmWCZp3g0wfjz/4H2+NmAWUs+YTCeEwJrJgnmhFRXKg10zmZIf37kJIY5bZuDgMDx6sIpJKtkMpCuNEGKszsEvoXApybUSXluhFsnu8HRVzGBa299t7hmgFowUnKXkzc2X3z7Szx8+/Xw7sYUEOhcSXDqZkgQ8rxlPylSXtFo/cuFpmS3YnL5L3t49sVxOYqG5VnOxCNf6qmdUsRxS4sCuBYdPm/Ilp5WTSbA+Z4otwCbvJoQstdK2qjwyZ9LBhJAym1XgwVGX7S5PyJRYLSEloDKjhfKb6iodcoZxiPUfj1Q701ojTAjJwVvBHTXML1OSxN0JIRaCH83rOV1YDo3mDbUQtjyzC/CbxJRQ6nNDa21XVVYwxHjZr1KyAjAhc6tlSnPwjNYrYFPPm/MoM+a0M40FB8pvM1hYwGNKbvZbxHnGV412uX3wthjSZwsSWGjXHn7XM1W+79we3EcHck5jN+nn6EHOytvSwwH8rLo6Ndr6qjttr7L03kz/hll3Xz1ikWWZBedo7MYrobLembYOOTDMMq9tSh7qHn7WGTzc3L29jQeNZBxyUD4lb/65/7flPlI6g/Mtzxed9SuO0Vmf0myDWVvN1NJONlj12m3JmjZjch+LRmdd1noWtrTEtfJMKLBdNrcnDFjqKoK3NeB079yqqxxmOOXuq/oX7STGkrllSMx1VshSNNyH3SpilOn58XptmIkd9c3NH798+P3jbcNWjD4b6NF94pE//xqA8UaU+UYFfAZzVkgfdNoSStfLpikze+mi/c3ZQjnghQXqVsLQNVgxf9r5RcjG9Vj+nZshjbMgulKSrJlNbKESB9yCd8nuxDuhk1htjHNdKJ9wdsdt6dsMmAVLvV6BepalkPNClArXudEK4m1zMk6b2SqWbvvU4OA3Vq9FBj2h38hVl1abTKNg350vI5H5yPxLY/4AQa7rcpvwcPdDd//pJzmO3vlXpze4tpApN6LaCB64J+chvzaqf6f5h9iGVzL1cMKQfjcrdaZIRMQj4q8C8V/17NdyY1TCn3L/Xx3oF5bNmWL43OB53K4nCk2Fcp4p3pON37Azwkz9oQfbWPCCUuxD+CZ2NpzAR9Ij6S+O9DiB/wLOhv2yzayWEux0/Of1zQH286b0Y9zGWftzGN93dCkc7+N4H1UAqgAc7+N4v0OHgOcZTu1fOvrLVkTYI+wR9gh7hD3CvgP2xurHJ6T9pdM+NCPiHnGPuEfcI+4R9x24d3wJWSHx0QIqjhcqjm1PQtWBqgNVB6oOVB2oOtpVhwTfIjdiREa18T9SG2O8Jhh71OCyY/WT6y+Y6pmGd/CELxJRdKDoQNFxFqKjHgtG+y7xxPt/+xp9q/Kon4DqpUW93L+Oemn//iHhLFsLF9a+QX2D+gb1Deob1Deob1DfoL55pr55f1b6xlg9A4fqBtUNqpvXVgOoblDdoLpBdXOJ6kYbCCFgvIdPjdUrXrou5k6+7K02zsF6FxUI3V2SHlshNMuFc0IrylmMj7VFN0+ow8tRMb0lywH+D994qWoB33XBlTBRsaBiec3FM/D9kva/aeAiVefDy++4GNV5EhN/bYFwR7gj3HFlrCH47jzzUM2NvNLo/ULovTffjktMfvPpQ7N3jcLU8+UP8hR5emk8HTrAjDXbf9Vcr22WEWQKj2W0fL1fUtYn5y+H9i8bq3e1wZWM0fELzvMrD/Iaed0aQvALzoFIHf4zLFR45hy2D85qBNWQlFndIMfhz7ErY3FV4WgkvKJgLMzFY0qSzY3f5OwRqndxvY3se2w/oDshzAi6ButCodbvY2kOCt7Kk1ainHhjtNTZ0V9yD+BDB9cOZ3X/CwAA///mZWEHdn0AAA==" | base64 -d > prometheus.yaml.gz
$ file prometheus.yaml.gz 
prometheus.yaml.gz: gzip compressed data, original size modulo 2^32 32118

$ echo "H4sIAAAAAAAA/+ydz4+jNhTH7/krfNjDzFYZdraXijmttJV66G5X7bGqLMe8JN4Y27JNOqOq/3uFYxJIIBtmWCZp3g0wfjz/4H2+NmAWUs+YTCeEwJrJgnmhFRXKg10zmZIf37kJIY5bZuDgMDx6sIpJKtkMpCuNEGKszsEvoXApybUSXluhFsnu8HRVzGBa299t7hmgFowUnKXkzc2X3z7Szx8+/Xw7sYUEOhcSXDqZkgQ8rxlPylSXtFo/cuFpmS3YnL5L3t49sVxOYqG5VnOxCNf6qmdUsRxS4sCuBYdPm/Ilp5WTSbA+Z4otwCbvJoQstdK2qjwyZ9LBhJAym1XgwVGX7S5PyJRYLSEloDKjhfKb6iodcoZxiPUfj1Q701ojTAjJwVvBHTXML1OSxN0JIRaCH83rOV1YDo3mDbUQtjyzC/CbxJRQ6nNDa21XVVYwxHjZr1KyAjAhc6tlSnPwjNYrYFPPm/MoM+a0M40FB8pvM1hYwGNKbvZbxHnGV412uX3wthjSZwsSWGjXHn7XM1W+79we3EcHck5jN+nn6EHOytvSwwH8rLo6Ndr6qjttr7L03kz/hll3Xz1ikWWZBedo7MYrobLembYOOTDMMq9tSh7qHn7WGTzc3L29jQeNZBxyUD4lb/65/7flPlI6g/Mtzxed9SuO0Vmf0myDWVvN1NJONlj12m3JmjZjch+LRmdd1noWtrTEtfJMKLBdNrcnDFjqKoK3NeB079yqqxxmOOXuq/oX7STGkrllSMx1VshSNNyH3SpilOn58XptmIkd9c3NH798+P3jbcNWjD4b6NF94pE//xqA8UaU+UYFfAZzVkgfdNoSStfLpikze+mi/c3ZQjnghQXqVsLQNVgxf9r5RcjG9Vj+nZshjbMgulKSrJlNbKESB9yCd8nuxDuhk1htjHNdKJ9wdsdt6dsMmAVLvV6BepalkPNClArXudEK4m1zMk6b2SqWbvvU4OA3Vq9FBj2h38hVl1abTKNg350vI5H5yPxLY/4AQa7rcpvwcPdDd//pJzmO3vlXpze4tpApN6LaCB64J+chvzaqf6f5h9iGVzL1cMKQfjcrdaZIRMQj4q8C8V/17NdyY1TCn3L/Xx3oF5bNmWL43OB53K4nCk2Fcp4p3pON37Azwkz9oQfbWPCCUuxD+CZ2NpzAR9Ij6S+O9DiB/wLOhv2yzayWEux0/Of1zQH286b0Y9zGWftzGN93dCkc7+N4H1UAqgAc7+N4v0OHgOcZTu1fOvrLVkTYI+wR9gh7hD3CvgP2xurHJ6T9pdM+NCPiHnGPuEfcI+4R9x24d3wJWSHx0QIqjhcqjm1PQtWBqgNVB6oOVB2oOtpVhwTfIjdiREa18T9SG2O8Jhh71OCyY/WT6y+Y6pmGd/CELxJRdKDoQNFxFqKjHgtG+y7xxPt/+xp9q/Kon4DqpUW93L+Oemn//iHhLFsLF9a+QX2D+gb1Deob1Deob1DfoL55pr55f1b6xlg9A4fqBtUNqpvXVgOoblDdoLpBdXOJ6kYbCCFgvIdPjdUrXrou5k6+7K02zsF6FxUI3V2SHlshNMuFc0IrylmMj7VFN0+ow8tRMb0lywH+D994qWoB33XBlTBRsaBiec3FM/D9kva/aeAiVefDy++4GNV5EhN/bYFwR7gj3HFlrCH47jzzUM2NvNLo/ULovTffjktMfvPpQ7N3jcLU8+UP8hR5emk8HTrAjDXbf9Vcr22WEWQKj2W0fL1fUtYn5y+H9i8bq3e1wZWM0fELzvMrD/Iaed0aQvALzoFIHf4zLFR45hy2D85qBNWQlFndIMfhz7ErY3FV4WgkvKJgLMzFY0qSzY3f5OwRqndxvY3se2w/oDshzAi6ButCodbvY2kOCt7Kk1ainHhjtNTZ0V9yD+BDB9cOZ3X/CwAA///mZWEHdn0AAA==" | base64 -d > prometheus.yaml.gz

$ file prometheus.yaml.gz

prometheus.yaml.gz: gzip compressed data, original size modulo 2^32 32118

간단하게 echo “<encoded-value>” | base64 -d prometheus.yaml.gz 으로 보면 된다.

압축을 해제하고 파일을 수정한 후에 다시 압축을 한다. 그리고 이것을 base64 로 인코딩 스트링을 만들면 되는데 다음과 같이 만들 수 있다.

$ cat prometheus.yaml.gz | base64 -w 0

1	$ cat prometheus.yaml.gz \| base64 -w 0

이렇게 하게 되면 Base64 인코딩 스트링 나오는데, Secret 에 데이터부분에 이 스트링을 넣고 편집하면 된다.

07/25/2021

쿠버네티스에 프로메테우스(Prometheus) 오퍼레이터 설치하기

프로메테우스(Prometheus)는 모니터링 시스템을 말한다. 프로메테우스는 파일 기반의 타임시리즈(Time-Series) 데이터베이스다. 시스템의 메트릭스들을 수집하기 위해서는 익스포터(Exportor) 를 설치해야 한다. 이외에도 알람을 전달해주는 AlertManager 도 있는데, 전체적인 아키텍쳐는 다음과 같다.

프로메테우스는 쿠버네티스에서도 설치가 가능한데, 이글은 쿠버네티스에 프로메테우스 설치에 대한 글이다.

환경

환경은 다음과 같다.

Kubernetes 버전: 1.20
Kubernetes Nodes: Master 3개, Worker 3개
Prometheus 설치 방법: Helm Operator

설치

프로메테우스(Prometheus) 설치는 매우 다양한데, 검색을 해보면 Helm 을 이용한 방법 그중에서도 오퍼레이터(Operator) 를 이용한 방법이 많이 소개 되어 있다. 여기서도 이 오퍼레이터를 이용한 방법을 사용하고자 한다.

Prometheus Operator 로 검색을 해보면 github 저장소를 찾을 수 있다.

GitHub – prometheus-operator/prometheus-operator: Prometheus Operator creates/configures/manages Prometheus clusters atop Kubern etes

중간에 보면 Prometheus Operator vs kube-prometheus vs community helm chart 가 보인다. 자세히 읽어보면 쿠버네티스에 설치할 수 있는 방법이 세 가지로 나뉜다는 것을 알수 있다.

이중에서 나는 Helm chart 를 이용한 방법을 이용할 생각이다.

노드 레이블 설정

노드에 레이블을 설정하게 되면 쿠버네티스에 앱을 배포할때에 레이블을 지정함으로써 특정 노드에 생성되도록 강제할 수 있다. 프로메테우스 오퍼레이터 설치를 특정 노드에 하기 위해서 레이블을 부여할 생각이다. 대상 노드는 kworker3.systemv.local 노드이며 다음과 같이 레이블을 할당해 줬다.

$ kubectl get node --show-labels
NAME                     STATUS   ROLES    AGE   VERSION   LABELS
kworker1.systemv.local   Ready    <none>   97d   v1.20.6   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=kworker1.systemv.local,kubernetes.io/os=linux
kworker2.systemv.local   Ready    <none>   97d   v1.20.6   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=kworker2.systemv.local,kubernetes.io/os=linux
kworker3.systemv.local   Ready    <none>   97d   v1.20.6   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=kworker3.systemv.local,kubernetes.io/os=linux
$ kubectl label nodes kworker3.systemv.local system.rule=monitoring
node/kworker3.systemv.local labeled

$ kubectl get node --show-labels

NAME STATUS ROLES AGE VERSION LABELS

kworker1.systemv.local Ready <none> 97d v1.20.6 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=kworker1.systemv.local,kubernetes.io/os=linux

kworker2.systemv.local Ready <none> 97d v1.20.6 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=kworker2.systemv.local,kubernetes.io/os=linux

kworker3.systemv.local Ready <none> 97d v1.20.6 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=kworker3.systemv.local,kubernetes.io/os=linux

$ kubectl label nodes kworker3.systemv.local system.rule=monitoring

node/kworker3.systemv.local labeled

kworker3.systemv.local 노드에 system.rule=monitoring 레이블이 새겨졌다.

Helm Chart 가지고 오기

Helm 를 이용하면 명령어 한줄로 설치가 되지만 설정을 변경하기 위해서는 챠트(Chart) 를 수정해줘야 한다. 이를 위해서 챠트를 다운받아야만 한다. Helm 챠트는 프로메테우스 커뮤니티에서 관리하고 있다.

$ git clone https://github.com/prometheus-community/helm-charts.git
$ cd helm-charts/charts
$ ls
alertmanager           prometheus-adapter              prometheus-couchdb-exporter        prometheus-mongodb-exporter  prometheus-pingdom-exporter   prometheus-redis-exporter        prometheus-to-sd
kube-prometheus-stack  prometheus-blackbox-exporter    prometheus-druid-exporter          prometheus-mysql-exporter    prometheus-postgres-exporter  prometheus-snmp-exporter
kube-state-metrics     prometheus-cloudwatch-exporter  prometheus-elasticsearch-exporter  prometheus-nats-exporter     prometheus-pushgateway        prometheus-stackdriver-exporter
prometheus             prometheus-consul-exporter      prometheus-kafka-exporter          prometheus-node-exporter     prometheus-rabbitmq-exporter  prometheus-statsd-exporter

$ git clone https://github.com/prometheus-community/helm-charts.git

$ cd helm-charts/charts

$ ls

alertmanager prometheus-adapter prometheus-couchdb-exporter prometheus-mongodb-exporter prometheus-pingdom-exporter prometheus-redis-exporter prometheus-to-sd

kube-prometheus-stack prometheus-blackbox-exporter prometheus-druid-exporter prometheus-mysql-exporter prometheus-postgres-exporter prometheus-snmp-exporter

kube-state-metrics prometheus-cloudwatch-exporter prometheus-elasticsearch-exporter prometheus-nats-exporter prometheus-pushgateway prometheus-stackdriver-exporter

prometheus prometheus-consul-exporter prometheus-kafka-exporter prometheus-node-exporter prometheus-rabbitmq-exporter prometheus-statsd-exporter

많은 챠트가 존재하는데, 여기서 설치 대상은 kube-prometheus-stack 이다.

설정을 하기위해서 프로메테우스 오퍼레이터의 구성을 살펴볼 필요가 있다.

Prometheus – 프로메테우스 리소스 정의가 되어 있다. 프로메테우스를 위한 파드(Pod) 의 리플리카(Replica) 갯수, 퍼시스턴스 볼륨 구성등이다. 프로메테이스 오퍼레이터는 파드를 StatefulSet 으로 배포 한다. 그리고 어떤 애플리케이션, 혹은 리소스를 모니터링할 것이지를 지정하는 것인데, 이것은 ServiceMonitor 로 설정이 이루어 진다.
ServiceMonitor – 프로메테우스 오퍼레이터는 어노테이션 기반의 서비스 디스커버리를 지원하지 않으며 대신 PodMonitor, ServiceMonitor 를 이용한다. ServiceMonitor는 애플리케이션이나 서비스의 리소스를 모니터링할 것인지를 지정한다. 쿠버네티스의 NodeSelector 처럼 LableSelector 로 서비스의 리소스를 선택할 수 있고, 엔드포인트(EndPoint) 를 통해서 애플리케이션의 메트릭을 수집할 수 있다. ServiceMonitor 는 rule 을 기반으로 Prometheus의 모니터링 대상이 되는 ServiceMonitor를 scan하여 해당 정보를 Secret으로 배포한다. 그리고 이 Secret을 Prometheus StatefulSet에 마운트한다. 이런 방식으로 Prometheus 팟은 자신이 모니터링할 Service가 무엇인지 알 수 있다.
Altermanager – 알람 매니저 이다. 프로메테우스 컴포넌트중에 하나다.
PodMonitor – 파드에 대한 모니터다. 역시나 LabelSelector 를 통해서 모니터링하고자 하는 파드를 지정할 수 있다.

위 내용을 잘 알야하는 이유는 kube-prometheus-stack 디렉토리에 values.yaml 파일에 구조와 연관이 있다.

values.yaml 파일 편집

프로메테우스 오퍼레이터를 Helm 으로 설치할 때에는 values.yaml 파일의 설정을 참고하도록 되어 있다. values.yaml 에는 altermanager, Grafana, Prometheus 등에 대한 설정 값들이 들어가 있다. 앞에서 특정 노드에 배포하도록 하기 위해서 worker3.systemv.local 노드에 레이블링을 해줬기 때문에 이들 컴포넌트의 NodeSeletor 를 지정해 줘야 한다.

    ## Define which Nodes the Pods are scheduled on.
    ## ref: https://kubernetes.io/docs/user-guide/node-selection/
    ##
    nodeSelector:
      system.rule: monitoring

## Define which Nodes the Pods are scheduled on.

## ref: https://kubernetes.io/docs/user-guide/node-selection/

nodeSelector:

system.rule: monitoring

Grafana, Altermanager, Prometheus 의 파드들은 system.rule=monitoring 레이블링 된 노드에만 설치되도록 해뒀다.

Node Exportor 는 system.rule=monitoring 레이블링을 할당하지 않는다. 이들은 노드마다 작동되어야 하기 때문이다.

Helm 설치

이제 설치를 해야 하는데, 설치하기 앞서 의존성 챠트를 업데이트 해야 한다.

$ cd charts/kube-prometheus-stack/
$ helm dependency update
Getting updates for unmanaged Helm repositories...
...Successfully got an update from the "https://grafana.github.io/helm-charts" chart repository
Hang tight while we grab the latest from your chart repositories...
...Successfully got an update from the "ingress-nginx" chart repository
...Successfully got an update from the "prometheus-community" chart repository
...Successfully got an update from the "stable" chart repository
Update Complete. ⎈Happy Helming!⎈
Saving 3 charts
Downloading kube-state-metrics from repo https://prometheus-community.github.io/helm-charts
Downloading prometheus-node-exporter from repo https://prometheus-community.github.io/helm-charts
Downloading grafana from repo https://grafana.github.io/helm-charts
Deleting outdated charts

$ cd charts/kube-prometheus-stack/

$ helm dependency update

Getting updates for unmanaged Helm repositories...

...Successfully got an update from the "https://grafana.github.io/helm-charts" chart repository

Hang tight while we grab the latest from your chart repositories...

...Successfully got an update from the "ingress-nginx" chart repository

...Successfully got an update from the "prometheus-community" chart repository

...Successfully got an update from the "stable" chart repository

Update Complete. ⎈Happy Helming!⎈

Saving 3 charts

Downloading kube-state-metrics from repo https://prometheus-community.github.io/helm-charts

Downloading prometheus-node-exporter from repo https://prometheus-community.github.io/helm-charts

Downloading grafana from repo https://grafana.github.io/helm-charts

Deleting outdated charts

이제 다음과 같이 설치를 실행해 준다.

$ helm install -f values.yaml promethus --namespace=monitoring .
NAME: promethus
LAST DEPLOYED: Sun Jul 25 09:08:15 2021
NAMESPACE: monitoring
STATUS: deployed
REVISION: 1
NOTES:
kube-prometheus-stack has been installed. Check its status by running:
  kubectl --namespace monitoring get pods -l "release=promethus"

Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

$ helm install -f values.yaml promethus --namespace=monitoring .

NAME: promethus

LAST DEPLOYED: Sun Jul 25 09:08:15 2021

NAMESPACE: monitoring

STATUS: deployed

REVISION: 1

NOTES:

kube-prometheus-stack has been installed. Check its status by running:

kubectl --namespace monitoring get pods -l "release=promethus"

Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

확인

이제 확인을 해보자.

$ kubectl get pod -n monitoring -o wide
NAME                                                    READY   STATUS    RESTARTS   AGE     IP              NODE                     NOMINATED NODE   READINESS GATES
alertmanager-promethus-kube-prometheus-alertmanager-0   2/2     Running   0          5m52s   10.31.4.1       kworker3.systemv.local   <none>           <none>
prometheus-promethus-kube-prometheus-prometheus-0       2/2     Running   0          5m51s   10.31.4.2       kworker3.systemv.local   <none>           <none>
promethus-grafana-5d7bb49d46-w9447                      2/2     Running   0          6m19s   10.31.4.63      kworker3.systemv.local   <none>           <none>
promethus-kube-prometheus-operator-5b8849665f-b47dq     1/1     Running   0          6m19s   10.31.4.62      kworker3.systemv.local   <none>           <none>
promethus-kube-state-metrics-7f4995ccfb-5l2tb           1/1     Running   0          6m19s   10.31.20.15     kworker1.systemv.local   <none>           <none>
promethus-prometheus-node-exporter-g8hvx                1/1     Running   0          6m19s   192.168.96.49   kworker1.systemv.local   <none>           <none>
promethus-prometheus-node-exporter-mwdwd                1/1     Running   0          6m19s   192.168.96.50   kworker2.systemv.local   <none>           <none>
promethus-prometheus-node-exporter-p684h                1/1     Running   0          6m19s   192.168.96.51   kworker3.systemv.local   <none>           <none>
$ $ kubectl get svc -n monitoring -o wide
NAME                                     TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)                      AGE     SELECTOR
alertmanager-operated                    ClusterIP   None          <none>        9093/TCP,9094/TCP,9094/UDP   9m59s   app.kubernetes.io/name=alertmanager
prometheus-operated                      ClusterIP   None          <none>        9090/TCP                     9m58s   app.kubernetes.io/name=prometheus
promethus-grafana                        ClusterIP   10.32.0.231   <none>        80/TCP                       10m     app.kubernetes.io/instance=promethus,app.kubernetes.io/name=grafana
promethus-kube-prometheus-alertmanager   ClusterIP   10.32.0.135   <none>        9093/TCP                     10m     alertmanager=promethus-kube-prometheus-alertmanager,app=alertmanager
promethus-kube-prometheus-operator       ClusterIP   10.32.0.147   <none>        443/TCP                      10m     app=kube-prometheus-stack-operator,release=promethus
promethus-kube-prometheus-prometheus     ClusterIP   10.32.0.148   <none>        9090/TCP                     10m     app.kubernetes.io/name=prometheus,prometheus=promethus-kube-prometheus-prometheus
promethus-kube-state-metrics             ClusterIP   10.32.0.71    <none>        8080/TCP                     10m     app.kubernetes.io/instance=promethus,app.kubernetes.io/name=kube-state-metrics
promethus-prometheus-node-exporter       ClusterIP   10.32.0.162   <none>        9100/TCP                     10m     app=prometheus-node-exporter,release=promethus

$ kubectl get pod -n monitoring -o wide

NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES

alertmanager-promethus-kube-prometheus-alertmanager-0 2/2 Running 0 5m52s 10.31.4.1 kworker3.systemv.local <none> <none>

prometheus-promethus-kube-prometheus-prometheus-0 2/2 Running 0 5m51s 10.31.4.2 kworker3.systemv.local <none> <none>

promethus-grafana-5d7bb49d46-w9447 2/2 Running 0 6m19s 10.31.4.63 kworker3.systemv.local <none> <none>

promethus-kube-prometheus-operator-5b8849665f-b47dq 1/1 Running 0 6m19s 10.31.4.62 kworker3.systemv.local <none> <none>

promethus-kube-state-metrics-7f4995ccfb-5l2tb 1/1 Running 0 6m19s 10.31.20.15 kworker1.systemv.local <none> <none>

promethus-prometheus-node-exporter-g8hvx 1/1 Running 0 6m19s 192.168.96.49 kworker1.systemv.local <none> <none>

promethus-prometheus-node-exporter-mwdwd 1/1 Running 0 6m19s 192.168.96.50 kworker2.systemv.local <none> <none>

promethus-prometheus-node-exporter-p684h 1/1 Running 0 6m19s 192.168.96.51 kworker3.systemv.local <none> <none>

$ $ kubectl get svc -n monitoring -o wide

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE SELECTOR

alertmanager-operated ClusterIP None <none> 9093/TCP,9094/TCP,9094/UDP 9m59s app.kubernetes.io/name=alertmanager

prometheus-operated ClusterIP None <none> 9090/TCP 9m58s app.kubernetes.io/name=prometheus

promethus-grafana ClusterIP 10.32.0.231 <none> 80/TCP 10m app.kubernetes.io/instance=promethus,app.kubernetes.io/name=grafana

promethus-kube-prometheus-alertmanager ClusterIP 10.32.0.135 <none> 9093/TCP 10m alertmanager=promethus-kube-prometheus-alertmanager,app=alertmanager

promethus-kube-prometheus-operator ClusterIP 10.32.0.147 <none> 443/TCP 10m app=kube-prometheus-stack-operator,release=promethus

promethus-kube-prometheus-prometheus ClusterIP 10.32.0.148 <none> 9090/TCP 10m app.kubernetes.io/name=prometheus,prometheus=promethus-kube-prometheus-prometheus

promethus-kube-state-metrics ClusterIP 10.32.0.71 <none> 8080/TCP 10m app.kubernetes.io/instance=promethus,app.kubernetes.io/name=kube-state-metrics

promethus-prometheus-node-exporter ClusterIP 10.32.0.162 <none> 9100/TCP 10m app=prometheus-node-exporter,release=promethus

이렇게 설치가 된것으로 보이지만, 사실 프로메테우스의 오퍼레이터는 CRD 를 이용해 리소스를 생성하였기 때문에 이를 알아야 한다. CRD 를 포함한 monitoring 네임스페이스에 모든 리소스를 보기 위해서 다음과 같이 할 수 있다.

$ kubectl api-resources --verbs=list --namespaced -o name | xargs -n 1 kubectl get --show-kind --ignore-not-found -n monitoring

1	$ kubectl api-resources --verbs=list --namespaced -o name \| xargs -n 1 kubectl get --show-kind --ignore-not-found -n monitoring

이를 통해 확인할 수 있는 CRD 예로 ServiceMonitor, Prometheus 등을 확인해 볼 수 있다.

필자는 Metallb 를 이용해서 LoadBalancer 를 사용할 수 있기 때문에 grafana, prometheus 서비스에 대해서 타입을 ClusterIP 를 LoadBalancer 로 변경해 외부접속이 가능하도록 할 수 있다.

$ kubectl get svc -n monitoring
NAME                                      TYPE           CLUSTER-IP    EXTERNAL-IP     PORT(S)                      AGE
prometheus-grafana                        LoadBalancer   10.32.0.147   192.168.111.3   80:30015/TCP                 83m
prometheus-kube-prometheus-prometheus     LoadBalancer   10.32.0.142   192.168.111.4   9090:31559/TCP               83m

$ kubectl get svc -n monitoring

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE

prometheus-grafana LoadBalancer 10.32.0.147 192.168.111.3 80:30015/TCP 83m

prometheus-kube-prometheus-prometheus LoadBalancer 10.32.0.142 192.168.111.4 9090:31559/TCP 83m

Metallb 에 의해서 EXTERNAL-IP 에 외부접속 IP 가 할당 되었다.