线上服务内存OOM问题定位详解

相信大家都有感触，线上服务内存OOM的问题，是最难定位的问题。

假如某服务器上部署了Java服务一枚，出现了OutOfMemoryError异常问题，那到底是什么原因，又如何定位和排查呢？

不妨设服务进程PID为10765（ps -ef |grep java命令，可以查看到自己服务的进程ID是多少）。

Java服务OOM，最常见的原因有这么三种：

更具体的，可以使用以下的一些工具逐一排查。

方法：jmap-heap 10765

如上图，可以查看新生代，老生代堆内存的分配大小以及使用情况，看是否本身分配过小。

方法：jmap -histo:live 10765 | more

图示：

如上图，输入命令后，会以表格的形式显示存活对象的信息，并按照所占内存大小排序：

是不是很直观？对于实例数较多，占用内存大小较多的实例/类，相关的代码就要针对性review了。

上图中占内存最多的对象是RingBufferLogEvent，共占用内存18M，属于正常使用范围。

如果发现某类对象占用内存很大（例如几个G），很可能是类对象创建太多，且一直未释放。例如：

方法：也可以用jmap命令dump出堆里的对象文件，使用eclipse mat分析内存对象情况，可以点击打开链接

工具：

查看进程创建的线程数，以及网络连接数，如果资源耗尽，也可能出现OOM。

这里介绍另一种方法，通过

可以分别查看句柄详情和线程数。

例如，某一台线上服务器的sshd进程PID是9339，查看

如上图，sshd共占用了四个句柄

sshd只有一个主线程PID为9339，并没有多线程。

所以，只要

就能知道进程打开的句柄数和线程数。

作业

对线上服务器的一台tomcat，查看proc下的fd目录和task目录，特别是对于句柄fd目录的查询，有意想不到的惊喜哟，一定要动手试试哈。