Ruby Under a Microscope

分词与语法解析

使用 Ripper 输出 lex 结果。

require 'ripper'
require 'pp'
#ripper is not parser, it can't find error.
code = <<STR
10.times do |n|
  puts n
end
STR

puts code
pp Ripper.lex(code)

Ripper.sexp 输出 parse 结果，也可以使用命令行 ruby --dump parsetree xxxx.rb 得到。前者是 Ripper 的 AST 展示格式，后者是实际内部的 c 语言 node 节点信息。
Ruby 使用手写的 tokenizer ，以及 bison 写的 parser —— parse.y ,bison生成的解释器是 LALR Parser。

编译

Ruby 1.8 没有编译器， Ruby 1.9 之后引入了 YARV( yet another ruby vm) 中间指令。但是 Ruby 并没有独立的编译器，而是在运行时动态编译成字节码，并交给 VM 解释执行。很可惜， Ruby 还是没有 JIT，将字节码编译成本地机器码。但是从测试来看， 1.9 之后的性能，已经远比 1.8 高（简单测试是 4.25 倍左右）， 1.8 还是原始的解释执行 AST 的方式。
编译的过程本质是遍历 AST ，然后生成 YARV 字节码的过程，具体参考 https://github.com/ruby/ruby/blob/trunk/compile.c 中的 iseq_compile_each 函数，一个大的 switch 派发。
NODE_SCOPE 表示开始一个新的作用域，作用域绑定着一个本地表 local table，类似 JVM 里的局部变量区，参数和局部变量的信息会放在这里。
查看 YARV 字节码：

code = <<END
10.times do |n|
  puts n
end
END

puts RubyVM::InstructionSequence.compile(code).disasm

输出

== disasm: #<ISeq:<compiled>@<compiled>>================================
== catch table
| catch type: break  st: 0002 ed: 0008 sp: 0000 cont: 0008
|------------------------------------------------------------------------
0000 trace            1                                               (   1)
0002 putobject        10
0004 send             <callinfo!mid:times, argc:0>, <callcache>, block in <compiled>
0008 leave
== disasm: #<ISeq:block in <compiled>@<compiled>>=======================
== catch table
| catch type: redo   st: 0002 ed: 0010 sp: 0000 cont: 0002
| catch type: next   st: 0002 ed: 0010 sp: 0000 cont: 0010
|------------------------------------------------------------------------
local table (size: 2, argc: 1 [opts: 0, rest: -1, post: 0, block: -1, kw: -1@-1, kwrest: -1])
[ 2] n<Arg>
0000 trace            256                                             (   1)
0002 trace            1                                               (   2)
0004 putself
0005 getlocal_OP__WC__0 2
0007 opt_send_without_block <callinfo!mid:puts, argc:1, FCALL|ARGS_SIMPLE>, <callcache>
0010 trace            512                                             (   3)
0012 leave                                                            (   2)

其中的 local table 就是本地表，<callinfo!mid:times, argc:0>, <callcache>, block in <compiled> 这里表示为 10.times 传递了一个 Block，它的指令在下面。

此外，想函数的默认参数、命名参数都是通过生成额外的指令来支持，前者就是加入判断，后者是引入匿名的 hash 表。

YARV 执行代码

整体上， YARV 跟 JVM 的构造机器类似。 YARV 也是有一个调用栈，每个栈帧 rb_control_frame_t 包含 sp( stack pointer，指向栈顶）， pc（程序计数器，当前指令地址），self（接收者）和 type （节点类型）等信息。CFP (current frame pointer) 指向当前的 rb_control_frame_t。调用就是压入和弹出栈帧，栈帧内部维护操作数栈，pc 指向指令地址，对操作数和接收者进行入栈出栈操作，根据指令求值。YARV 也被称为是双堆栈虚拟机。
所有 YARV 指令定义在 https://github.com/ruby/ruby/blob/bd2fd73196bbff7dc5349c624342e212c09d174e/insns.def，最终经过 Miniruby 转成 vm.inc 的 c 语言代码。
指令基本格式

<code>
  instruction comment
  @c: category
  @e: english description
  @j: japanese description
  instruction form:
    DEFINE_INSN
    instruction_name
    (instruction_operands, ..)
    (pop_values, ..)
    (return value)
    {
       .. // insn body
    }

DEFINE_INSN
getlocal
(lindex_t idx, rb_num_t level)
()
(VALUE val)
{
    int i, lev = (int)level;
    const VALUE *ep = GET_EP();

    /* optimized insns generated for level == (0|1) in defs/opt_operand.def */
    for (i = 0; i < lev; i++) {
	ep = GET_PREV_EP(ep);
    }
    val = *(ep - idx);
}
</code>

本地变量的访问，通过 getlocal 和 setlocal 指令，当 CFP 变化的时候，为了访问本栈帧之外的 local 变量， YARV 还引入了一个叫 EP（ environment pointer) 的指针，它被设置为 SP-1。栈帧之间的 EP 形成了一种层次结构（其实就是嵌套作用域），通过 EP 的移动来访问外部的本地变量（闭包）。
内部栈还有两个特殊栈帧 special 和 svar/cref， special 用于保存传递了 Block 代码块的指针，指向代码块所在的栈帧，让 EP 可以找到正确的栈帧。后者 svar 用于保存特殊变量，$ 开头的一些特殊变量，特别是跟正则相关的，比如 $&, $~ 等。而 cref 用于标示是否要在一个新的词法作用域内(lexical scope)执行。 Ruby 中开启新的词法作用域的只有：使用class关键字定义一个类；使用module 定义一个模块；使用def关键字定义一个方法。而 Block 是没有的。这一块在 ruby 元编程里有详细描述。

Ruby Under a Microscope

分词与语法解析

编译

YARV 执行代码

个人工具

名字空间

变换

查看

操作

搜索

导航

工具箱