1、linux资源管理器

linux中对需要运维去管理、去查看的资源信息,如下

内存资源、使用率

free命令

磁盘资源、使用率

df

CPU资源、使用率

top

htop

glances

进程资源、使用率

ps

pstree

pidof

网络资源、使用率

Iftop

所有资源的整体查看命令

top

glances

htop

2、进程

2.1 区分

进程是正在执行的一个程序或命令,每个进程都是一个运行的实体,并占用一定的系统资源。

程序是人使用计算机语言编写的可以实现特定目标或解决特定问题的代码集合。

线程是真正干活的

2.2进程fork概念

1.我们的操作系统都是一堆进程而已,系统运行时,就产生了0号进程,然后其他进程都是0号进程创建的子进程。

2.linux启动之后,第一个进程就是PID为0,然后通过0号进程fork()出其他的进程。

3.操作系统的运行,就是不断的创建进程、以及销毁进程。

2.3 孤儿进程

1.当父亲进程挂了,导致儿子进程成了孤儿,甚至是一个、或者多个孤儿进程。

2.孤儿进程会被系统的1号进程收养,并且有1号进程来回收,处理这些孤儿进程。

3.孤儿进程就是失去了原本父亲的进程,1号进程好比是孤儿院,专门处理孤儿进程的善后工作,因此孤儿进程不会对系统产生什么危害。

2.4僵尸进程

1.僵尸听着明显比孤儿进程可怕些,是有害的

2.父亲进程创建出子进程后,如果子进程先挂了,父进程却不知道儿子进程挂了这件事,就无法正确送走儿子进程,清楚它在系统中的信息,那么这个儿子进程就成了可怕的僵尸进程,会对系统产生危害。

3.当系统中有了僵尸进程,你可以通过ps命令找到它,并且它的状态是(Z,zombie僵尸进程)

4.如果系统中产生大量僵尸进程,占据了系统中大量可分配的资源,如进程id号,系统就无法再正确创建新进程,完成任务,导致系统无法使用的危害。

2.3.1 解决僵尸进程

杀死父进程

优化代码,不要再写这种垃圾代码了,把unix高级编程,好好学学。

开除、换一个更懂操作系统的程序员。

1. 当程序运行的时候,通过父进程fork创建子进程去处理任务。

2. 子进程被创建后开始处理任务,任务处理完毕后就退出了,子进程应该去通知父进程,将儿子进程销毁,别浪费资源。

3. 如果子进程没有正确告知父进程,回收自己的系统资源,且父进程还未结束,导致该子进程成为僵尸进程。

3、进程管理命令

3.1 top查看 CPU使用情况

命令:top

作用:查看服务器的进程占用的资源(100%使用)

语法:# top (动态显示)

top操作快捷键

z::打开,关闭颜色

M(大写):表示将结果按照内存(MEM)从高到低进行降序排列;

m(小写):切换内存memmory的显示格式。

P(大写):,表示将结果按照CPU 使用率从高到低进行降序排列;

1 :当服务器拥有多个cpu 的时候可以使用“1”快捷键来切换是否展示显示各个cpu 的详细信息;

q:退出

3.2 ps查看进程

ps aux #unix 查看进程

命令:ps(process status 进程状态)

语法:ps [参数选项]

作用:主要是查看服务器的进程信息,并且是打印当前的运行状态快照,而不是实时的监控,只是某一时刻的系统进程信息

参数风格,请注意,参数的位置,存在先后关系,位置错误可能导致无法使用。

# UNIX风格,没有短横线

a # 显示所有终端、所有用户执行的进程

u # 以用户显示出进程详细信息

x # 显示操作系统所有进程信息

f # 显示进程树形结构

o # 格式化显示进程信息,指定如pid

k # 对进程属性排序,如k %mem ,正序排序 ,k -%mem 逆序

--sort,再进行排序,如 --sort %mem 根据内存使用率显示

linux标准参数用法

-e # 显示所有进程

-f # 显示进程详细

-p # 指定pid,显示其信息,如 ps -fp 2609

-C # 指定进程的名字查看,如ps -fC sshd

-U # 指定用户名,查看用户进程信息 ps -Uf yuchao01

3.3 grep取反

同学们会发现总有一个grep进程

可以grep过滤掉。

语法

grep -v 选项,取反

[root@yuchao-linux01 ~]# ps -ef|grep vim |grep -v grep

root 20313 19658 0 20:38 pts/0 00:00:00 vim chaoge666.txt

3.4 ps常用命令组合(重点)

参数风格,请注意,参数的位置,存在先后关系,位置错误可能导致无法使用。

# UNIX风格,没有短横线

a # 显示所有终端、所有用户执行的进程

u # 以用户显示出进程详细信息

x # 显示操作系统所有进程信息

f # 显示进程树形结构

o # 格式化显示进程信息,指定如pid

k # 对进程属性排序,如k %mem ,正序排序 ,k -%mem 逆序

--sort,再进行排序,如 --sort %mem 根据内存使用率显示

linux标准参数用法

-e # 显示所有进程

-f # 显示进程详细

-p # 指定pid,显示其信息,如 ps -fp 2609

-C # 指定进程的名字查看,如ps -fC sshd

-U # 指定用户名,查看用户进程信息 ps -Uf yuchao01

3.5 lsof查看进程打开了什么文件

比如,当我们需要检查网站服务器的nginx进程,以及nginx都打开了哪些文件,比如nginx记录的日志,写入到了什么文件里,lsof可以轻松帮你找到这些文件。

linux一切皆文件,任何事务都以文件的形式存在,通过文件,不仅可以直接访问到文本数据,常规数据,甚至网络连接(socket套接字文件)、以及硬件(/dev/sda),都以文件形式可以在linux管理。

常用参数

-c # 指定进程名,打开了哪些系统文件,如lsof -c nginx

-i # 显示符合条件的进程,如ipv[46][protocol][@host|addr][:service|port]

-p # 显示指定pid打开的文件

-u # 显示指定用户uid打开的文件,以及具体进程信息

+d # 显示文件夹下被打开的文件有哪些,如 lsof +d /var/log/nginx/

+D # 递归列出目录下哪些文件被进程打开

-n # 不显示主机名,直接显示ip

-P # 不显示端口名,直接显示端口号

-s # 列出文件大小

状态解释

[root@yuchao-linux01 log]# lsof +D /var/log/nginx/ | head -2

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME

nginx 5489 root 2w REG 253,0 0 17579733 /var/log/nginx/error.log

名称

进程标识符id号

进程执行的用户主

文件描述符

文件类型 reg普通文本 DIR目录

NODE 索引节点(文件在磁盘上的标识)

NAME 进程打开文件的名字

4、kill关闭进程

杀死进程的其他命令

Kill (结束指定pid的进程)

killall (根据进程名杀死)

pkill (根据进程名杀死)

1. kill需要找到pid,然后再干掉进程

2. pkill更省事了,直接根据进程名字干掉进程

3. 注意pkill,kill可能会误杀,因为是根据进程名字匹配,如果进程包含了某名字,也会被杀掉,因此少用。

5、进程后台运行

程序运行可以有2种

前台运行

程序运行在当前的终端,所有的信息都输出到屏幕上,占用你的终端,你也无法继续使用

如果终端异常关闭,导致程序会自动退出

后台运行

不会占用你的终端,程序在系统后台跑着,你该干啥干啥,终端关了,程序也继续运行。

命令集合

command & # 未启动的command放入后台去运行

jobs # 查看后台进程列表

ctrl + z # 暂停进程

bg # 程序放入后台运行,和 & 一样

fg # 将后台任务放入前台执行

实战

1.命令直接放入后台运行,注意日志写入到黑洞文件

[root@yuchao-linux01 ~]# ping yuchaoit.cn > /dev/null &

[1] 1718

[root@yuchao-linux01 ~]#

2.查看后台任务列表

[root@yuchao-linux01 ~]# jobs

[1]+ Running ping yuchaoit.cn > /dev/null &

[root@yuchao-linux01 ~]#

3.可以将后台任务,放入前台执行,然后ctrl + z 再次暂停程序,放入后台

[root@yuchao-linux01 ~]# fg 1

ping yuchaoit.cn > /dev/null

^Z

[1]+ Stopped ping yuchaoit.cn > /dev/null

[root@yuchao-linux01 ~]#

[root@yuchao-linux01 ~]#

的确发现了一个停止的程序

[root@yuchao-linux01 ~]# jobs

[1]+ Stopped ping yuchaoit.cn > /dev/null

[root@yuchao-linux01 ~]#

4.可以再次让程序运行起来,并且依然是运行在后台

[root@yuchao-linux01 ~]# bg 1

[1]+ ping yuchaoit.cn > /dev/null &

[root@yuchao-linux01 ~]#

[root@yuchao-linux01 ~]#

[root@yuchao-linux01 ~]# jobs

[1]+ Running ping yuchaoit.cn > /dev/null &

[root@yuchao-linux01 ~]#

6、screen命令

GNU Screen是一款由GNU计划开发的用于命令行终端切换的自由软件。用户可以通过该软件同时连接多个本地或远程的命令行会话,并在其间自由切换。

GNU Screen可以看作是窗口管理器的命令行界面版本。

它提供了统一的管理多个会话的界面和相应的功能。

会话恢复

只要Screen本身没有终止,在其内部运行的会话都可以恢复。

这一点对于远程登录的用户特别有用——即使网络连接中断,用户也不会失去对已经打开的命令行会话的控制。

只要再次登录到主机上执行screen -r就可以恢复会话的运行。

同样在暂时离开的时候,也可以执行分离命令detach,在保证里面的程序正常运行的情况下让Screen挂起(切换到后台)。

这一点和图形界面下的VNC很相似。

多窗口

在Screen环境下,所有的会话都独立的运行,并拥有各自的编号、输入、输出和窗口缓存。用户可以通过快捷键在不同的窗口下切换,并可以自由的重定向各个窗口的输入和输出。

Screen实现了基本的文本操作,如复制粘贴等;还提供了类似滚动条的功能,可以查看窗口状况的历史记录。窗口还可以被分区和命名,还可以监视后台窗口的活动。

会话共享

Screen可以让一个或多个用户从不同终端多次登录一个会话,并共享会话的所有特性(比如可以看到完全相同的输出)。它同时提供了窗口访问权限的机制,可以对窗口进行密码保护。

命令参数

screen -S 终端名称 # 新建一个指定名称的终端

ctrl + a + d 切换 # detach,暂时离开当前会话,将screen任务丢到后台执行,回到还未进入screen的状态

screen -ls # 显示存在的screen进程,常用命令

screen -r 终端名或iD # 进入指定名称的screen会话

screen -m # 如果在一个Screen进程里,用快捷键crtl+a c或者直接打screen可以创建一个新窗口,screen -m 也可以可以新建一个screen进程。

常规用法

screen -D -r 踢掉screen的用户,让其logout,然后再连接该会话(当screen会话是Attached状态,表示有人在用)

实践

1.安装命令

[root@yuchao-linux01 ~]# yum install screen -y

2.创建screen终端

screen -S about_echo

3.可以再开一个窗口,查看该进程

[root@yuchao-linux01 ~]# ps -ef|grep screen

root 2677 2340 0 17:24 pts/0 00:00:00 screen -S about_echo

root 2691 2532 0 17:24 pts/2 00:00:00 grep --color=auto screen

注意看该会话的状态

[root@yuchao-linux01 ~]# screen -ls

There is a screen on:

2678.about_echo (Attached)

1 Socket in /var/run/screen/S-root.

4.使用about_echo这个终端,执行命令,如

不断的向文件中写入信息

[root@yuchao-linux01 ~]# for i in `seq 5000`;do sleep 1; echo '超哥带你学linux' >> /tmp/cc.log;done

5.用快捷键切出后台 ctrl + a + d组合键,将任务放入后台,任务不会中断

[root@yuchao-linux01 ~]# screen -S about_echo

[detached from 2678.about_echo]

6.用命令,恢复到指定的离线screen进程中,然后你可以选择中断该进程

screen -r about_echo

7.最后你可以exit,退出,结束这个终端,没有后台进程了。

[root@yuchao-linux01 ~]# screen -ls

No Sockets found in /var/run/screen/S-root.

[root@yuchao-linux01 ~]# ps -ef|grep screen

root 2817 2532 0 17:27 pts/2 00:00:00 grep --color=auto screen

7、nohup命令

nohup 英文全称 no hang up(不挂起),用于在系统后台不挂断地运行命令,退出终端不会影响程序的运行。

nohup 命令,在默认情况下(非重定向时),会输出一个名叫 nohup.out 的文件到当前目录下

如果当前目录的 nohup.out 文件不可写,输出重定向到$HOME/nohup.out 文件中。

一般和 & 后台符,结合使用。

记住一个标准用法

语法nohup command 选项 &

Command:要执行的命令。

Arg:一些参数,可以指定输出文件。

&:让命令在后台执行,终端退出后命令仍旧执行。

nohup 生产环境下的用法(重要)

[root@yuchao-tx-server ~]# nohup ping baidu.com > /tmp/nohup_ping.log 2>&1 &

[1] 31021

[root@yuchao-tx-server ~]# jobs

[1]+ 运行中 nohup ping baidu.com > /tmp/nohup_ping.log 2>&1 &

[root@yuchao-tx-server ~]#

[root@yuchao-tx-server ~]# tail -f /tmp/nohup_ping.log

64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=1 ttl=50 time=5.50 ms

64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=2 ttl=50 time=5.52 ms

64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=3 ttl=50 time=5.45 ms

64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=4 ttl=50 time=5.50 ms

64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=5 ttl=50 time=5.50 ms

关闭窗口,程序也不会中断,只有通过ps命令可以看到该进程,还在运行了。

####

关于2>&1的含义

2代表错误标准输出,1代表标准输出,“2>&1”是一种优化写法,表示把标准错误输出也输出到标准输入所指定的文件

8、linux数据流

执行linux命令时,linux默认为用户进程提供了3种数据流

stdin

标准输入、0

一般是键盘输入数据

比如cat命令等待用户输入

stdout

标准输出、1

程序执行结果,输出到终端

stderr

标准错误输出

程序执行结果,输出到终端

8.1标准输入

cat 接收键盘的输入数据,然后打印到终端,直到ctrl +d 结束输入

[root@yuchao-tx-server ~]# cat

hello

hello

我爱你

我爱你

8.2标准输出

[root@yuchao-linux01 ~]# ls /opt/

HelloWorld.class HelloWorld.java jdk jdk1.8.0_221 jdk-8u221-linux-x64.tar.gz passwd

8.3标准错误输出

[root@yuchao-linux01 ~]# ls /opppp > stderr.txt

ls: cannot access /opppp: No such file or directory

8.4数据重定向

8.4.1输入重定向

输入重定向是指把命令(或可执行程序)的标准输入,重定向到指定的文件中。

也就是说,输入可以不来自键盘,而来自一个指定的文件。

比如依然是是cat命令,原本应该是,等待键盘输入数据

现在是通过输入重定向符号,将标准输入stdin,改为了文件数据作为输入。

[root@yuchao-linux01 ~]# cat < t1.log

于超老师带你学Linux

666

666

8.4.2输出重定向(重要)

输出重定向是指把命令(或可执行程序)的标准输出或标准错误输出重新定向到指定文件中。

这样,该命令的输出就不显示在屏幕上,而是写入到指定文件中。

使用 “ > ”符号,将标准输出重定向到文件中。形式为:命令>文件名

使用“ >> ”符号,将标准输出结果追加到指定文件后面。形式为:命令>>文件名

使用“ 2> ”符号,将标准错误输出重定向到文件中。形式为:命令 2> 文件名

使用“ 2>> ”符号,将标准错误输出追加到指定文件后面。形式为:命令 2>>文件名

使用“ 2>&1 ”符号或“ &> ”符号,将把标准错误输出stderr重定向到标准输出stdout

使用“ >/dev/null ”符号,将命令执行结果重定向到空设备中,也就是不显示任何信息。

重定向基本用法

[root@yuchao-tx-server ~]# echo '超哥带你学linux' > test.log

[root@yuchao-tx-server ~]#

[root@yuchao-tx-server ~]# echo '超哥带你学linux' >> test.log

错误重定向追加

[root@yuchao-tx-server ~]# echhhho '超哥带你学linux' 2>> test.log

[root@yuchao-tx-server ~]#

[root@yuchao-tx-server ~]# cat test.log

超哥带你学linux

超哥带你学linux

-bash: echhhho: 未找到命令

将stderr重定向到stdout,就可以防止程序运行出错,导致程序异常

写法1

[root@yuchao-tx-server ~]# echhhho '超哥带你学linux' &>> test.log

写法2

[root@yuchao-tx-server ~]# echhhho '超哥带你学linux' >> test.log 2>&1

黑洞文件,空设备文件,也同样遵循,stdout、stderr的语法

[root@yuchao-tx-server ~]# echo '超哥带你学linux' &>> /dev/null

[root@yuchao-tx-server ~]# echhhhho '超哥带你学linux' &>> /dev/null

9 机器负载查看

9.1系统平均负载查看uptime

系统负载指的是在单位时间内,系统分配给CPU处理的进程数量,必然是数量越多,负载值越高,机器的压力越大。

uptime命令

[root@yuchao-linux01 ~]# uptime

17:45:12 up 2:13, 2 users, load average: 0.00, 0.01, 0.05

1.最理想化的状态是每个CPU都在运行着进程,充分让cpu工作起来,效率最大化,你得先看看你机器上有几个CPU(几个核,就是有几个cpu可以工作)。

# 发现是4核的

[root@yuchao-linux01 ~]# lscpu |grep -i '^cpu(s)'

CPU(s): 4

# 以及用top命令,按下数字1,查看几核。

top

2. 如何理解uptime看到的负载

分别是1、5、15分钟内的平均负载情况,表示是1~15分钟内CPU的负载变化情况。

1. 三个值如果差不多,表示系统很稳定的运行中,15分钟以内,CPU都没有很忙

2. 如果1分钟内的值,远大于15分钟的值,表示机器在1分钟内压力在直线上升

3. 如果1分钟内的值,小于15分钟的值,表示系统的负载正在下降中

实际工作中,uptime是运维临时看一看机器的压力的,具体的还得

1. 编写shell脚本,结合定时任务,周期性的查看uptime命令的结果,写入到文件中,综合判断机器压力情况。

2. 使用成熟的监控软件,如zabbix、Prometheus,他们有丰富的图形化报表展示,可以从可视化下,轻松掌握机器压力。

9.2 CPU压力测试

cpu的压力,来自于高频的计算任务,比如数值计算等,我们可以用bash程序,python程序,以及各种编程语言,来实现复杂的高频率计算。

stress stress是一个linux的压力测试工具,专门用于对设备的CPU、IO、内存、负载、磁盘等进行压测。

mpstat 多核CPU性能分析

pidstat 实时查看cpu、内存、io等指标

9.3sysstat工具包

sysstat是一个软件包,包含监测系统性能及效率的一组工具,这些工具对于我们收集系统性能数据,比如:CPU 使用率、硬盘和网络吞吐数据,这些数据的收集和分析,有利于我们判断系统是否正常运行,是提高系统运行效率、安全运行服务器的得力助手。

包含的工具

iostat

输出CPU的统计信息和所有I/O设备的输入输出(I/O)统计信息

mpstat

mpstat是Multiprocessor Statistics的缩写,是实时系统监控工具。其报告与CPU的一些统计信息,这些信息存放在/proc/stat文件中。在多CPUs系统里,其不但能查看所有CPU的平均状况信息,而且能够查看特定CPU的信息。mpstat最大的特点是:可以查看多核心cpu中每个计算核心的统计数据;而类似工具vmstat只能查看系统整体cpu情况。

pidstat

关于运行中的进程/任务、CPU、内存等的统计信息

sar

保存并输出不同系统资源(CPU、内存、IO、网络、内核等)的详细信息

sadc

系统活动数据收集器,用于收集sar工具的后端数据

sa1

系统收集并存储sadc数据文件的二进制数据,与sadc工具配合使用

sa2

配合sar工具使用,产生每日的摘要报告

sadf

用于以不同的数据格式(CVS或者XML)来格式化sar工具的输出

sysstat

sysstat 工具包的 man 帮助页面。

nfsiostat

NFS(Network File System)的I/O统计信息

cifsiostat

CIFS(Common Internet File System)的统计信息

官方网站: http://sebastien.godard.pagesperso-orange.fr

1.安装该工具包

[root@yuchao-linux01 ~]# yum install sysstat stress -y

2.对cpu压测,stress命令

# -c, --cpu N 产生 N 个进程,每个进程都反复不停的计算随机数的平方根

# -t, --timeout N 在 N 秒后结束程序

# 跑满2个cpu核,

[root@yuchao-linux01 ~]# stress --cpu 2 --timeout 600

stress: info: [3782] dispatching hogs: 2 cpu, 0 io, 0 vm, 0 hdd

3. 再开一个终端,查看机器的负载情况

一分钟内的CPU压力飙升

[root@yuchao-linux01 ~]# uptime

19:01:26 up 3:29, 2 users, load average: 1.35, 0.45, 0.19

4. 用watch命令,高亮检测哪些数值在变化

[root@yuchao-linux01 ~]# watch -d uptime

5.可以用mpstat命令查看cpu状态细节

-P {|ALL} 表示监控哪个CPU, cpu在[0,cpu个数-1]中取值

#查看多核CPU核心的当前运行状况信息, 每5秒更新一次

[root@yuchao-linux01 ~]# mpstat -P ALL 5

可以清晰的看到,哪一个cpu核,压力最大,通过%usr看到用户进程,消耗了100%的cpu。

6.也可以用top命令检测cpu压力,发现是有2个stress进程,占据了100%的cpu

top - 19:07:46 up 3:36, 2 users, load average: 1.33, 1.38, 0.74

Tasks: 131 total, 4 running, 127 sleeping, 0 stopped, 0 zombie

%Cpu0 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

%Cpu2 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

%Cpu3 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

KiB Mem : 7992344 total, 7450560 free, 139564 used, 402220 buff/cache

KiB Swap: 2097148 total, 2097148 free, 0 used. 7573368 avail Mem

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

3955 root 20 0 7312 100 0 R 100.0 0.0 0:10.55 stress

3954 root 20 0 7312 100 0 R 99.6 0.0 0:10.54 stress

1 root 20 0 125460 3896 2584 S 0.0 0.0 0:02.25 systemd

10 free查看内存使用情况

命令:free

作用:查看内存使用情况

语法:#free -m

选项:

-m 表示以mb为单位查看(1g = 1024mb,1mb = 1024kb)

-h 以可读形式显示容量,需要free -V显示版本大于3.3

free 命令主要是用来查看内存和 swap 分区的使用情况的,其中:

total:是指物理内存总大小,信息来自于/proc/meminfo

used:是指已经使用的内存,userd=total-free-buffers-cache

free:是指空闲的;free = total - used - buff - cache

shared:是指共享的内存;用于tmpfs系统

buff/cache

buffers:缓冲区,写入缓冲,用于内存和磁盘之间的数据写入缓冲,存放内存需要写入到磁盘的数据。

cached:缓存区,读取缓存,加快CPU和内存数据交换,存放内存已经读取完毕的数据。