细说jvm(一)、jvm运行时的数据区域

 2023-01-13
原文作者:李少博 原文地址:https://juejin.cn/post/6896812082785288200

开篇

从今天开始写jvm,从这个系列文章,你将能学会jvm内存分布、垃圾回收算法以及垃圾回收的细节、故障诊断的手段、jvm类加载细节以及字节码和apm系统原理,以及涉及到一些零散的点例如反射原理等。这个系列主要是偏重于讲问题排查,以及GC和后边的字节码的东西,所以虽然基础的东西也会讲,但是不会讲的那么细致,我写文章从来不是针对小白的,只是想学基础或者嫌学东西累的人可以直接右上角点关闭。

这个系列的文章会比较多,我不会再把每一篇都写得特别长,这样我累你也累。但是为了让你系统的学习,每个体系还是会尽可能的集中到一块去讲。

一如我以前的风格,废话不多说,我们直接开始~

jvm在运行期间数据区域大体上有堆、栈、方法区以及程序计数器等,当然这是非常抽象的概括,每一个地方的细节都是非常多的,我们一个一个来看

1、 程序计数器(也叫PC寄存器)

这玩意是一个记录着当前线程所执行的字节码的行号指示器,换句话说,就是记录着当前线程执行到了第几行字节码。这玩意有这么几个特点:

  1. 线程私有
  2. 占用内存非常小,不会发生OutOfMemoryError
  3. 如果执行native方法,这里这个数值就是空,即undifined 上面三点都很容易理解,我们一点一点来说下。第一点,jvm的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现,也就是说,在同一时刻一个处理器内核只会执行一条线程,处理器切换线程时并不会记录上一个线程执行到哪个位置,所以为了线程切换后依然能恢复到原位,每条线程都需要有各自独立的程序计数器。第二点,由于这里只是存个数字或者是undifined,所以当然不会占多少空间,更不会因为数字太长而发生存不下的现象,所以也没有内存溢出的可能性。第三点,我们知道,java的native方法的大多是通过C实现并未编译成需要执行的字节码指令,所以执行的方法是native方法的话,这里也就不需要存值了

2、栈

jvm栈是描述java方法执行时的线程内存模型,它是线程私有的,生命周期和线程相同。栈是由一个一个的栈帧组成,而栈帧主要又由四个部分组成,分别是局部变量表,操作数栈,动态链接,返回地址。栈的结构图如图:

202301011658428251.png

我们还是来一个一个分别说下:

  1. 局部变量表 用于保存方法的参数和方法内部定义的局部变量,最小单位是变量槽(variable slot),每个变量槽可以存放一个基础数据类型(除long和double),对象的引用和返回地址的数据。
  2. 操作数栈 方法执行的过程中,会有各种字节码指令往操作数栈中写入和提取内容,也就是出栈和入栈操作(与 Java 栈中栈帧操作类似)。
  3. 动态链接 保存指向运行时常量池中该栈帧所属方法的引用,以便支持方法调用过程中的动态链接。
  4. 返回地址 指的是当前方法被调用的地方,因为方法执行完了总得知道从哪里继续执行的嘛
    上面的概念可能比较生涩,但是别担心,我后边还会回头来说这些东西的,这节我们先混个脸熟

3、堆

堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。这个区域是用来存放对象实例的,几乎所有对象实例都会在这里分配内存。堆是Java垃圾收集器管理的主要区域(GC堆),垃圾收集器实现了对象的自动销毁。Java堆可以细分为:新生代和老年代;再细致一点的有Eden空间,From Survivor空间,To Survivor空间等。Java堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像我们的磁盘空间一样。可以通过-Xmx和-Xms控制。

4、方法区

这块区域是用来存放被加载的类的信息,常量,静态变量以及即时编译后的代码缓存等。这里值得说的一个东西是方法区这个名词其实是jvm的规范中出现的地方,1.8之前,方法区对应的实现是永久代,在1.8之后,hotspot已经用元空间取代了永久代,因为这样做可以减少发生OOM的几率。

5、运行时常量池和字符串常量池

运行时常量池在1.7之前是被放在永久代中,1.8之后被放在堆内存中。这里是用来存放基本类型的包装类的缓存(Integer的-128到127),以及字符串的值。有的人可能还知道个class常量池,这里需要强调的是这两个不是一个东西,我们后边也会说class常量池,所以这里如果不明白也没关系。

字符串常量池是用来存放已经创建过的字符串的。

由于后边不会再专门详解字符串常量池,所以本着负责任的态度,这里把这玩意多说说。我们肯定是见过下面这段代码的:

    public static void main(String[] args){
            String str = "ABC";
            String str1 = "ABC";
            String str2 = new String("ABC");
            String str3 = null;
    
            System.out.println(str==str1);
            System.out.println(str==str2);
            str3 = str2.intern();
            System.out.println(str==str3);
       }

我也就不卖关子了,这里的输出结果见下图:

202301011658434962.png

我们来一点一点的解释,第一句的str,在编译的时候就在类的常量池中,代码执行完这一句之后,“ABC”会被扔进字符串常量池,然后str指向常量池的“ABC”(你这里关心执行完后会被扔进常量池就好了,类常量池后边讲),第二句这块发现“ABC”在字符串常量池中已经有了,所以直接让str1直接指向常量池中的“ABC”就行了,第三句由于用了new 指令,因此不会再去常量池中寻找,而是在堆内存上开辟一块新的空间,去再次创建个“ABC”,第四句跳过。五六句就非常简单了,第五句输出true,第六句输出false,第七句这里你需要知道intern这个方法会把调用的字符串复制进常量池,并返回常量池的引用,但是如果常量池中已经有了同一个字符串,那么就是直接返回字符串引用,因此第八句输出了true。注意是复制,为了证明是复制进去而不是直接扔进去,我们这里再看一段代码:

    public static void main(String[] args){
            String str2 = new String("ABC");
            String str3 = null;
    
            str3 = str2.intern();
            System.out.println(str2==str3);
    }

输出结果如下,符合预期,不明白的可以再理解理解上面的话。

202301011658438653.png

6、直接内存

这个区域并非是jvm的一部分,但是其实也是很重要的一部分。在java有了NIO之后,可以直接操作堆外内存,这样做的好处是避免了在java堆中和计算机native内存中来回复制数据,显著提高了性能,但是副作用是使用不当的话也会导致OOM(因为它也是受物理内存的限制的)。