EvenChan's Ops.

k8s排错概览

字数统计: 869阅读时长: 4 min
2020/05/29

在排错过程中,kubectl 是最重要的工具,通常也是定位错误的起点。这里也列出一些常用的命令,在后续的各种排错过程中都会经常用到。

排错概览

查看 Pod 状态以及运行节点

1
2
kubectl get pods -o wide
kubectl -n kube-system get pods -o wide

查看 Pod 事件

1
kubectl describe pod <pod-name>

查看 Node 状态

1
2
kubectl get nodes
kubectl describe node <node-name>

kube-apiserver 日志

1
2
PODNAME=$(kubectl -n kube-system get pod -l component=kube-apiserver -o jsonpath='{.items[0].metadata.name}')
kubectl -n kube-system logs $PODNAME --tail 100

 以上命令操作假设控制平面以 Kubernetes 静态 Pod 的形式来运行。如果 kube-apiserver 是用 systemd 管理的,则需要登录到 master 节点上,然后使用 journalctl -u kube-apiserver 查看其日志。

kube-controller-manager 日志

1
2
PODNAME=$(kubectl -n kube-system get pod -l component=kube-controller-manager -o jsonpath='{.items[0].metadata.name}')
kubectl -n kube-system logs $PODNAME --tail 100

 以上命令操作假设控制平面以 Kubernetes 静态 Pod 的形式来运行。如果 kube-controller-manager 是用 systemd 管理的,则需要登录到 master 节点上,然后使用 journalctl -u kube-controller-manager 查看其日志。

kube-scheduler 日志

1
2
PODNAME=$(kubectl -n kube-system get pod -l component=kube-scheduler -o jsonpath='{.items[0].metadata.name}')
kubectl -n kube-system logs $PODNAME --tail 100

 以上命令操作假设控制平面以 Kubernetes 静态 Pod 的形式来运行。如果 kube-scheduler 是用 systemd 管理的,则需要登录到 master 节点上,然后使用 journalctl -u kube-scheduler 查看其日志。

kube-dns 日志

 kube-dns 通常以 Addon 的方式部署,每个 Pod 包含三个容器,最关键的是 kubedns 容器的日志:

1
2
PODNAME=$(kubectl -n kube-system get pod -l k8s-app=kube-dns -o jsonpath='{.items[0].metadata.name}')
kubectl -n kube-system logs $PODNAME -c kubedns

Kubelet 日志

 Kubelet 通常以 systemd 管理。查看 Kubelet 日志需要首先 SSH 登录到 Node 上,推荐使用 kubectl-node-shell而不是为每个节点分配公网 IP 地址。比如:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
[root@localhost ~]# cat kubectl-node_shell
#!/bin/sh
if [ -z "$1" ]; then
echo "Please specify node name"
exit 1
fi

NODE="$1"
IMAGE="alpine"
POD="nsenter-$(env LC_CTYPE=C tr -dc a-z0-9 < /dev/urandom | head -c 6)"
NAMESPACE=""

# Check the node
kubectl get node "$NODE" >/dev/null || exit 1

OVERRIDES="$(cat <<EOT
{
"spec": {
"nodeName": "$NODE",
"hostPID": true,
"containers": [
{
"securityContext": {
"privileged": true
},
"image": "$IMAGE",
"name": "nsenter",
"stdin": true,
"stdinOnce": true,
"tty": true,
"command": [ "nsenter", "--target", "1", "--mount", "--uts", "--ipc", "--net", "--pid", "--", "bash", "-l" ]
}
]
}
}
EOT
)"

echo "spawning \"$POD\" on \"$NODE\""
kubectl run --namespace "$NAMESPACE" --rm --image alpine --overrides="$OVERRIDES" --generator=run-pod/v1 -ti "$POD"
chmod +x ./kubectl-node_shell
sudo mv ./kubectl-node-shell /usr/local/bin/kubectl-node_shell
[root@localhost ~]# ./kubectl-node_shell localhost.localdomain
spawning "nsenter-i71opm" on "localhost.localdomain"
If you don't see a command prompt, try pressing enter.
[root@localhost /]# journalctl -l -u kubelet

Kube-proxy 日志

 Kube-proxy 通常以 DaemonSet 的方式部署,可以直接用 kubectl 查询其日志

1
2
3
4
5
6
$ kubectl -n kube-system get pod -l component=kube-proxy
NAME READY STATUS RESTARTS AGE
kube-proxy-42zpn 1/1 Running 0 1d
kube-proxy-7gd4p 1/1 Running 0 3d
kube-proxy-87dbs 1/1 Running 0 4d
$ kubectl -n kube-system logs kube-proxy-42zpn

ui小工具

部署

1
2
kubectl apply --namespace weave -f "https://cloud.weave.works/k8s/scope.yaml?k8s-version=$(kubectl version | base64 | tr -d '\n')"
kubectl patch svc $(kubectl get svc -n weave |grep weave-scope-app |awk '{print $1}') -p '{"spec":{"type": "NodePort"}}' -n weave

效果图

img

img

CATALOG
  1. 1. 排错概览
    1. 1.1. 查看 Pod 状态以及运行节点
    2. 1.2. 查看 Pod 事件
    3. 1.3. 查看 Node 状态
    4. 1.4. kube-apiserver 日志
    5. 1.5. kube-controller-manager 日志
    6. 1.6. kube-scheduler 日志
    7. 1.7. kube-dns 日志
    8. 1.8. Kubelet 日志
    9. 1.9. Kube-proxy 日志
  2. 2. ui小工具
    1. 2.1. 部署
    2. 2.2. 效果图