JavaVM

JVM

2018-02-08

字节码指令

Java虚拟机指令是由一个字节长度、代表某种特定操作含义的数字操作码Opcode以及跟随其后的零至多个代表此操作所需参数操作数Operands而构成。但由于Java虚拟机采用面向操作数栈而不是寄存器的架构，所以大多数指令只有一个操作码。

字节码指令集是一种具有鲜明特点、优劣势突出的指令集架构，由于操作码长度为一个字节即0~255，故指令的操作码总数不超过256条；

Class文件格式放弃了编译后代码的操作数长度对齐，虚拟机处理超过一个字节的数据时，需在运行时从字节中重建具体数据的结构，如果将16位长度的无符号整数使用两个无符号字节byte1、byte1存储，其值为(byte1 << 8) | byte2。放弃操作数长度对齐，可以省略很多填充和间隔符号，但在某种程度上会导致解释执行字节码时损失一些性能。

不考虑异常处理的情况下，Java虚拟机的解释器可使用一下伪代码为最基本的执行模型来理解：

do {
    自动计算PC寄存器的值加1;
    根据PC寄存器指示位置，从字节码流中取出操作码;
    if ( 字节码存在操作数 ) 从字节码流中取出操作数;
    执行操作码所定义的操作;
} where ( 字节码流长度 > 0 );

字节码与数据类型

Java虚拟机指令集中，大多数指令都包含其基本操作所对应的数据类型信息。大部分与数据类型相关的字节码指令，它们的操作码助记符中有特殊字符表示服务的数据类型：i代表int、l代表long、s代表short、b代表byte、c代表char、f代表float、d代表double、a代表reference；但也有指令助记符种没有指名操作类型字母，如arraylength操作数为数组类型的对象、goto无条件跳转指令。

虚拟机指令集对于特定操作只提供了有限的类型相关指令去支持，指令集将会被设计成非完全独立的，即并非每种数据类型和每一种操作都有对应的指令。有一些单独的指令可以在必要的时候用来将一些不支撑的数据类型转换为可被支撑的类型。

大部分指令都没有支撑整数类型byte、char、short甚至没有任何指令支撑boolean类型。编译器会在编译期或运行期将byte和short类型的数据带符号扩展为相应的int类型数据，在c处理boolean、byte、short、char类型的数组时，也会转换为使用对应的int类型字节码指令来处理。

加载和存储指令

加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输，存储数据的操作数栈和局部变量表主要由加载和存储指令进行操作，少数访问对象字段或数组元素指令也会向操作数栈传输数据。

将局部变量加载到操作栈：iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
将数据从操作数栈存储到局部变量表：istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
将常量加载到操作数栈：bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>
扩充局部变量表访问索引：wide。

带有尖括号结尾的指令，指令助记符代表一组指令。

运算指令

运算指令用于对两个操作数栈上的值进行某种特定运算，并把结果重新存入操作数栈顶。大体上算数指令分整型数据运算指令和浮点数据运算指令，整数与浮点数的算术指令在溢出和被零除时有各自不同的行为表现。

加法指令：iadd、ladd、fadd、dadd
减法指令：isub、lsub、fsub、dsub
乘法指令：imul、lmul、fmul、dmul
除法指令：idiv、ldiv、fdiv、ddiv
求余指令：irem、lrem、frem、drem
取反指令：ineg、lneg、fneg、dneg
位移指令：ishl、ishr、iushr、lshl、lshr、lushr
按位或指令：ior、lor
按位与指令：iand、land
按位异或指令：ixor、lxor
局部变量自增指令：iinc
比较指令：dcmpg、dcmpl、fcmpg、fcmpl、lcmp

数据运算可能会导致溢出，虚拟机规范没有明确定义整数数据溢出的具体运算结果，仅规定了在处理整数数据时，只有除法指令和求余指令中出现除数为零时会抛出ArithmeticException异常，其余任何整型数运算场景都不应该抛出运行时异常。

Java虚拟机处理浮点数时必须完全支持IEEE 754中定义的非正规浮点数值和逐级下溢的运算规则，所有运算结果都必须舍入到适当精度，非精确的结果必须舍入为可被表示的最接近的精确值，若两种可表示形式与该值一样接近，将优先选择最低有效位为零的。将浮点数转换成整数时，使用的向零舍入模式，舍入结果会导致数字被截断，小数部分有效字节都会被丢弃掉。Java虚拟机在处理浮点数运算时不会抛出任何运行时异常。

对long类型的数值进行比较时，虚拟机采用带符号的比较方式，而浮点数值比较采用无符号比较方法。

类型转换指令

类型转换指令能将两种不同数值类型进行相互转换，一般用于实现用户代码中显示类型转换操作，或用来处理字节码指令集中数据类型相关指令无法与数据类型一一对应的问题。

虚拟机直接支持以下数值类型的宽化类型转换，即小范围类型向大范围类型的安全转换，转换时无需显示的转换指令。

int类型到long、float、double类型
long类型到float、double类型
float类型到double类型

处理窄化类型转换时，必须显示使用转换指令来完成，转换指令包括i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l、d2f。窄化类型转换可能导致类型转换结果产生不同正负号、不同数量级、精度丢失等情况。

int或long类型窄化转换为整数类型T时，仅仅简单地丢弃除最低位N个字节以外的内容，但这也将导致转换结果与输入值有不同正负号。

将浮点值窄化转换为整数类型T时，将遵循以下转换规则：

若浮点值为NaN，转换结果为int或long类型的0
若浮点值非无穷大，浮点值使用向零舍入模式取整，若获得整数值在目标类型int或long的表示范围内，转换结果就是该值
否则，将根据该值的符号，转换为int或long所能表示的最大或最小正数

double类型到float类型的窄化转换，向最接近数舍入模式舍入得到一个可使用float类型表示的数字，若转换结果绝对值太小，返回float类型的正负零；若绝对值太大，将返回float类型的正负无穷大；double类型NoN将按规定转换为float类型的NaN值。

尽管数据类型窄化转换可能发生上限溢出、下限溢出、精度丢失等情况，但虚拟机规范中规定数值类型窄化转换指令永远不可能导致虚拟机抛出运行时异常。

操作数栈管理指令

虚拟机提供了以下用于直接操作操作数栈的指令：

将操作数栈栈顶一个或两个元素出栈：pop、pop2
复制栈顶一个或两个数值并将复制值或双份复制值重新压入栈顶：dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2
将栈顶两个数值互换：swap

控制转移指令

控制转移指令可以让Java虚拟机有条件或无条件从指定位置指令继续执行程序，而不是控制转移指令的下一条指令，可以认为控制转移指令就是在有条件或无条件地修改PC寄存器的值。

条件分支：ifeq、iflt、ifle、ifgt、ifge、ifnull、ifnonull、if_icmpeg、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_acmpeg、if_acmpne
复合条件分支：tableswitch、lookupswitch
无条件分支：goto、goto_w、jsr、jsr_w、ret

虚拟机有专门的指令集用来处理int和reference类型的条件分支比较操作，也有专门的指令用来检测null值。

对于boolean、byte、char、short等类型的条件分支比较操作，都使用int类型的比较指令来完成，而long、float、double类型的条件分支比较操作，则执行相应类型的比较运算指令，运算指令会返回一个整型值到操作数栈中，随后再执行int类型的条件分支比较操作来完成整个分支跳转。各种类型的比较最终都会转化为int类型的比较操作，所以虚拟机提供的int类型的条件分支指令最丰富最强大。

方法调用和返回指令

invokevirtual指令用于调用对象的实例方法，根据对象实际类型进行分派（虚方法分派）
invokeinterface指令用于调用接口方法，运行时搜索一个实现了这个接口方法的对象，找出最合适的方法进行调用
invokespecial指令用于调用一些特殊处理的实例方法，包括实例初始化方法、私有方法、父类方法
invokestatic指令用于调用类方法，即static方法
invokedynamic指令用于在运行时动态解析出调用点限定符所引用的方法，并执行该方法

前4条调用指令分派逻辑都固化在虚拟机内部，而invokedynamic指令分派逻辑是由用户所设定的引导方法决定的。

方法调用指令与数据类型无关，而方法返回指令是根据返回值的类型区分的，包括ireturn（返回值是boolean、byte、char、short、int类型时使用）、lreturn、freturn、dreturn、areturn，以及return指令供void方法、实例初始化方法、类和接口的类初始化方法使用。

异常处理指令

程序中通过throw语句显示抛出异常的操作都由athrow指令来实现，除throw显示抛出异常外，虚拟机规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异状况时自动抛出。虚拟机中catch语句处理异常不是由字节码指令来实现的，而是采用异常表来完成的。

同步指令

虚拟机支持方法级的同步和方法内部一段指令序列的同步，两种同步都使用管程Monitor来支持的。

方法级的同步是隐式的，无须通过字节码指令来控制，它实现在方法调用和返回操作之中。虚拟机可以从方法常量池的方法结构中的ACC_SYNCHRONIZED访问标志得知方法是否声明未同步方法。当方法调用时，调用的指令将会检查方法的ACC_SYNCHRONIZED访问标志是否被设置，若被设置，执行线程就要求先成功持有管程Monitor，然后才能执行方法，最后当方法执行完成，无论是否正常完成都释放管程Monitor，方法执行期间，执行线程持有了管程Monitor，其他任何线程都无法再获得同一个管程Monitor。若同步方法执行期间抛出异常，且方法内部无法处理异常，同步方法所持有的管程Monitor将在异常抛到同步方法外时自动释放。

同步一段指令集序列通常是通过synchronized语句块来完成，虚拟机的指令集使用monitorenter和monitorexit两条指令来支持synchronized关键字的语义，正确实现synchronized关键字需要Javac编译器和Java虚拟机共同协作支持，编译器必须保证方法通过任何方式完成，方法中调用过的每条monitorenter指令都必须执行其对应的monitorexit指令，无论该方法是否正常结束。

为了保证方法异常完成时monitorenter和monitorexit指令能正确配对执行，编译器会自动产生一个异常处理器，且声明可处理的所有异常，来执行monitorexit指令。

虚拟机两种主要的实现方式：

将输入的Java虚拟机代码在加载或执行时翻译成另一种虚拟机指令集

将输入的Java虚拟机代码在加载或执行时翻译成宿主机CPU的本地指令集，即JIT代码生成技术