“Ruby Under a Microscope”的版本间的差异

2016年12月18日 (日) 05:40的版本

分词与语法解析

使用 Ripper 输出 lex 结果。

require 'ripper'
require 'pp'
#ripper is not parser, it can't find error.
code = <<STR
10.times do |n|
  puts n
end
STR

puts code
pp Ripper.lex(code)

Ripper.sexp 输出 parse 结果，也可以使用命令行 ruby --dump parsetree xxxx.rb 得到。前者是 Ripper 的 AST 展示格式，后者是实际内部的 c 语言 node 节点信息。
Ruby 使用手写的 tokenizer ，以及 bison 写的 parser —— parse.y ,bison生成的解释器是 LALR Parser。

编译

Ruby 1.8 没有编译器， Ruby 1.9 之后引入了 YARV( yet another ruby vm) 中间指令。但是 Ruby 并没有独立的编译器，而是在运行时动态编译成字节码，并交给 VM 解释执行。很可惜， Ruby 还是没有 JIT，将字节码编译成本地机器码。但是从测试来看， 1.9 之后的性能，已经远比 1.8 高（简单测试是 4.25 倍左右）， 1.8 还是原始的解释执行 AST 的方式。
编译的过程本质是遍历 AST ，然后生成 YARV 字节码的过程，具体参考 https://github.com/ruby/ruby/blob/trunk/compile.c 中的 iseq_compile_each 函数，一个大的 switch 派发。
NODE_SCOPE 表示开始一个新的作用域，作用域绑定着一个本地表 local table，类似 JVM 里的局部变量区，参数和局部变量的信息会放在这里。
查看 YARV 字节码：

code = <<END
10.times do |n|
  puts n
end
END

puts RubyVM::InstructionSequence.compile(code).disasm

输出

== disasm: #<ISeq:<compiled>@<compiled>>================================
== catch table
| catch type: break  st: 0002 ed: 0008 sp: 0000 cont: 0008
|------------------------------------------------------------------------
0000 trace            1                                               (   1)
0002 putobject        10
0004 send             <callinfo!mid:times, argc:0>, <callcache>, block in <compiled>
0008 leave
== disasm: #<ISeq:block in <compiled>@<compiled>>=======================
== catch table
| catch type: redo   st: 0002 ed: 0010 sp: 0000 cont: 0002
| catch type: next   st: 0002 ed: 0010 sp: 0000 cont: 0010
|------------------------------------------------------------------------
local table (size: 2, argc: 1 [opts: 0, rest: -1, post: 0, block: -1, kw: -1@-1, kwrest: -1])
[ 2] n<Arg>
0000 trace            256                                             (   1)
0002 trace            1                                               (   2)
0004 putself
0005 getlocal_OP__WC__0 2
0007 opt_send_without_block <callinfo!mid:puts, argc:1, FCALL|ARGS_SIMPLE>, <callcache>
0010 trace            512                                             (   3)
0012 leave                                                            (   2)

其中的 local table 就是本地表，<callinfo!mid:times, argc:0>, <callcache>, block in <compiled> 这里表示为 10.times 传递了一个 Block，它的指令在下面。

此外，想函数的默认参数、命名参数都是通过生成额外的指令来支持，前者就是加入判断，后者是引入匿名的 hash 表。

YARV 执行代码

整体上， YARV 跟 JVM 的构造机器类似。 YARV 也是有一个调用栈，每个栈帧 rb_control_frame_t 包含 sp( stack pointer，指向栈顶）， pc（程序计数器，当前指令地址），self（接收者）和 type （节点类型）等信息。CFP (current frame pointer) 指向当前的 rb_control_frame_t。调用就是压入和弹出栈帧，栈帧内部维护操作数栈，pc 指向指令地址，对操作数和接收者进行入栈出栈操作，根据指令求值。YARV 也被称为是双堆栈虚拟机。
所有 YARV 指令定义在 https://github.com/ruby/ruby/blob/bd2fd73196bbff7dc5349c624342e212c09d174e/insns.def，最终经过 Miniruby 转成 vm.inc 的 c 语言代码。
指令基本格式

  instruction comment
  @c: category
  @e: english description
  @j: japanese description
  instruction form:
    DEFINE_INSN
    instruction_name
    (instruction_operands, ..)
    (pop_values, ..)
    (return value)
    {
       .. // insn body
    }

DEFINE_INSN
getlocal
(lindex_t idx, rb_num_t level)
()
(VALUE val)
{
    int i, lev = (int)level;
    const VALUE *ep = GET_EP();

    /* optimized insns generated for level == (0|1) in defs/opt_operand.def */
    for (i = 0; i < lev; i++) {
	ep = GET_PREV_EP(ep);
    }
    val = *(ep - idx);
}

本地变量的访问，通过 getlocal 和 setlocal 指令，当 CFP 变化的时候，为了访问本栈帧之外的 local 变量， YARV 还引入了一个叫 EP（ environment pointer) 的指针，它被设置为 SP-1。栈帧之间的 EP 形成了一种层次结构（其实就是嵌套作用域），通过 EP 的移动来访问外部环境的本地变量。
内部栈还有两个特殊栈帧 special 和 svar/cref， special 用于保存传递了 Block 代码块的指针，指向代码块所在的栈帧，让 EP 可以找到正确的栈帧。后者 svar 用于保存特殊变量，$ 开头的一些特殊变量，特别是跟正则相关的，比如 $&, $~ 等。而 cref 用于标示是否要在一个新的词法作用域内(lexical scope)执行。 Ruby 中开启新的词法作用域的只有：使用class关键字定义一个类；使用module 定义一个模块；使用def关键字定义一个方法。而 Block 是没有的。这一块在 ruby 元编程里有详细描述。

控制结构和方法调度

if 语句本质上是使用 branchunless 或者 branchif 根据 test 的计算结果为 true/false 来决定跳转到哪个代码分支继续执行。
跨作用域的跳转（比如 break 跳转到父作用域），则是使用 throw 指令 + 捕获表实现，向下找到最近的捕获表的 break 指针，然后充值 pc 和 ep 指针，从指针后的代码开始执行。rescue、ensure、retry、redo 和 next 的实现与此类似。

for 只是 each 的封装，查看

code = <<END
for i in 0..5
  puts i
end
END

puts RubyVM::InstructionSequence.compile(code).disasm

输出：

== disasm: #<ISeq:<compiled>@<compiled>>================================
== catch table
| catch type: break  st: 0002 ed: 0008 sp: 0000 cont: 0008
|------------------------------------------------------------------------
local table (size: 2, argc: 0 [opts: 0, rest: -1, post: 0, block: -1, kw: -1@-1, kwrest: -1])
[ 2] i
0000 trace            1                                               (   1)
0002 putobject        0..5
0004 send             <callinfo!mid:each, argc:0>, <callcache>, block in <compiled>
0008 leave
== disasm: #<ISeq:block in <compiled>@<compiled>>=======================
== catch table
| catch type: redo   st: 0006 ed: 0014 sp: 0000 cont: 0006
| catch type: next   st: 0006 ed: 0014 sp: 0000 cont: 0014
|------------------------------------------------------------------------
local table (size: 2, argc: 1 [opts: 0, rest: -1, post: 0, block: -1, kw: -1@-1, kwrest: -1])
[ 2] ?<Arg>
0000 getlocal_OP__WC__0 2                                             (   3)
0002 setlocal_OP__WC__1 2                                             (   1)
0004 trace            256
0006 trace            1                                               (   2)
0008 putself
0009 getlocal_OP__WC__1 2
0011 opt_send_without_block <callinfo!mid:puts, argc:1, FCALL|ARGS_SIMPLE>, <callcache>
0014 trace            512                                             (   3)
0016 leave

可以看到是调用了 0..5 的 each 方法，然后将 block 参数拷贝给了局部变量 i。

send 是最核心和最复杂的控制结构， ruby 有 11 种方法类型
ISEQ 是普通方法， CFUNC 是 c 语言编写的代码，都是 ruby 的内部实现。ATTRSET 是 attr_writer， IVAR 是 attr_reader， BMETHOD 表示 define_method 传入的 proc 对象定义的方法，UNDEF 用于移除方法， MISSING 是方法不存在的时候调用，其他等等。
对于 attr_reader 和 attr_writer， ruby 内部做了优化，不会创建新的栈帧，因为方法非常简短并且不会出错，也就需要错误的堆栈信息。内部使用 c 语言实现的 vm_setivar 和 vm_getivar 快速调用。
命名参数本质是创建了一个 hash 来包装，如果 hash.key? 返回 false，也就是不存在，就使用默认值。具体可以看下面这段代码的输出：

code = <<END
  def add_two(a: 2, b: 3)
    a + b
  end

  puts add_two(1, 1)
END

puts RubyVM::InstructionSequence.compile(code).disasm

对象与类

Ruby 对象 RObject

在 include/ruby/ruby.h 中定义：

struct RBasic {
    VALUE flags;
    const VALUE klass;
}
#ifdef __GNUC__
    __attribute__((aligned(sizeof(VALUE))))
#endif
;

struct RObject {
    struct RBasic basic;
    union {
	struct {
	    uint32_t numiv;
	    VALUE *ivptr;
            void *iv_index_tbl; /* shortcut for RCLASS_IV_INDEX_TBL(rb_obj_class(obj)) */
	} heap;
	VALUE ary[ROBJECT_EMBED_LEN_MAX];
    } as;
};

其中：

* RBasic 里的 class 指针指向了 RClass，也就是对象所属的 class。
* flags 用于存储内部专用的各种标志位。
* numiv 表示实例变量数目
* ivptr 实例变量数组

@@ 第211行： / 第211行： @@
 其中：
-** RBasic 里的 class 指针指向了 RClass，也就是对象所属的 class。
+ * RBasic 里的 class 指针指向了 RClass，也就是对象所属的 class。
-** flags 用于存储内部专用的各种标志位。
+ * flags 用于存储内部专用的各种标志位。
-** numiv 表示实例变量数目
+ * numiv 表示实例变量数目
-** ivptr 实例变量数组
+ * ivptr 实例变量数组
 == 方法查找和常量查找 ==

“Ruby Under a Microscope”的版本间的差异

2016年12月18日 (日) 05:40的版本

目录

分词与语法解析

编译

YARV 执行代码

控制结构和方法调度

对象与类

Ruby 对象 RObject

方法查找和常量查找

散列表

垃圾回收

个人工具

名字空间

变换

查看

操作

搜索

导航

工具箱