查看Ruby Under a Microscope的源代码



== 分词与语法解析 ==

* 使用 Ripper 输出 lex 结果。

<pre>
<code>
require 'ripper'
require 'pp'
#ripper is not parser, it can't find error.
code = <<STR
10.times do |n|
  puts n
end
STR

puts code
pp Ripper.lex(code)
</code>
</pre>

* Ripper.sexp 输出 parse 结果，也可以使用命令行 ruby --dump parsetree xxxx.rb 得到。前者是 Ripper 的 AST 展示格式，后者是实际内部的 c 语言 node 节点信息。
* Ruby 使用手写的 tokenizer ，以及 bison 写的 parser —— [https://github.com/ruby/ruby/blob/510f0ec86912e31babaadf1f66bf2a82351c1359/parse.y parse.y] ,bison生成的解释器是 [https://en.wikipedia.org/wiki/LALR_parser LALR Parser]。

== 编译 ==

* Ruby 1.8 没有编译器， Ruby 1.9 之后引入了 YARV( yet another ruby vm) 中间指令。但是 Ruby 并没有独立的编译器，而是在运行时动态编译成字节码，并交给 VM 解释执行。很可惜， Ruby 还是没有 JIT，将字节码编译成本地机器码。但是从测试来看， 1.9 之后的性能，已经远比 1.8 高（简单测试是 4.25 倍左右）， 1.8 还是原始的解释执行 AST 的方式。
* 编译的过程本质是遍历 AST ，然后生成 YARV 字节码的过程，具体参考  https://github.com/ruby/ruby/blob/trunk/compile.c 中的 iseq_compile_each 函数，一个大的 switch 派发。
* NODE_SCOPE 表示开始一个新的作用域，作用域绑定着一个本地表 local table，类似 JVM 里的局部变量区，参数和局部变量的信息会放在这里。
* 查看 YARV 字节码：

<pre>
<code>
code = <<END
10.times do |n|
  puts n
end
END

puts RubyVM::InstructionSequence.compile(code).disasm
</code>
</pre>

输出
<pre>
== disasm: #<ISeq:<compiled>@<compiled>>================================
== catch table
| catch type: break  st: 0002 ed: 0008 sp: 0000 cont: 0008
|------------------------------------------------------------------------
0000 trace            1                                               (   1)
0002 putobject        10
0004 send             <callinfo!mid:times, argc:0>, <callcache>, block in <compiled>
0008 leave
== disasm: #<ISeq:block in <compiled>@<compiled>>=======================
== catch table
| catch type: redo   st: 0002 ed: 0010 sp: 0000 cont: 0002
| catch type: next   st: 0002 ed: 0010 sp: 0000 cont: 0010
|------------------------------------------------------------------------
local table (size: 2, argc: 1 [opts: 0, rest: -1, post: 0, block: -1, kw: -1@-1, kwrest: -1])
[ 2] n<Arg>
0000 trace            256                                             (   1)
0002 trace            1                                               (   2)
0004 putself
0005 getlocal_OP__WC__0 2
0007 opt_send_without_block <callinfo!mid:puts, argc:1, FCALL|ARGS_SIMPLE>, <callcache>
0010 trace            512                                             (   3)
0012 leave                                                            (   2)
</pre>

其中的 local table 就是本地表，<code><callinfo!mid:times, argc:0>, <callcache>, block in <compiled></code> 这里表示为 10.times 传递了一个 Block，它的指令在下面。

* 此外，想函数的默认参数、命名参数都是通过生成额外的指令来支持，前者就是加入判断，后者是引入匿名的 hash 表。

== YARV 执行代码 ==

* 整体上， YARV 跟 JVM 的构造机器类似。 YARV 也是有一个调用栈，每个栈帧 rb_control_frame_t 包含 sp( stack pointer，指向栈顶）， pc（程序计数器，当前指令地址），self（接收者） 和 type （节点类型）等信息。CFP (current frame pointer) 指向当前的 rb_control_frame_t。调用就是压入和弹出栈帧，栈帧内部维护操作数栈，pc 指向指令地址，对操作数和接收者进行入栈出栈操作，根据指令求值。YARV 也被称为是双堆栈虚拟机。
* 所有 YARV 指令定义在 https://github.com/ruby/ruby/blob/bd2fd73196bbff7dc5349c624342e212c09d174e/insns.def，最终经过 Miniruby 转成 vm.inc 的 c 语言代码。
* 指令基本格式

<pre>
<code>
  instruction comment
  @c: category
  @e: english description
  @j: japanese description
  instruction form:
    DEFINE_INSN
    instruction_name
    (instruction_operands, ..)
    (pop_values, ..)
    (return value)
    {
       .. // insn body
    }

DEFINE_INSN
getlocal
(lindex_t idx, rb_num_t level)
()
(VALUE val)
{
    int i, lev = (int)level;
    const VALUE *ep = GET_EP();

    /* optimized insns generated for level == (0|1) in defs/opt_operand.def */
    for (i = 0; i < lev; i++) {
	ep = GET_PREV_EP(ep);
    }
    val = *(ep - idx);
}
</code>
</pre>

* 本地变量的访问，通过 getlocal 和 setlocal 指令，当 CFP 变化的时候，为了访问本栈帧之外的 local 变量， YARV 还引入了一个叫 EP（ environment pointer) 的指针，它被设置为 SP-1。 栈帧之间的 EP 形成了一种层次结构（其实就是嵌套作用域），通过 EP 的移动来访问外部的本地变量（闭包）。
* 内部栈还有两个特殊栈帧 special 和 svar/cref， special 用于保存传递了 Block 代码块的指针，指向代码块所在的栈帧，让 EP 可以找到正确的栈帧。后者 svar 用于保存特殊变量，$ 开头的一些特殊变量，特别是跟正则相关的，比如 $&, $~ 等。而 cref 用于标示是否要在一个新的词法作用域内(lexical scope)执行。 Ruby 中开启新的词法作用域的只有：使用class关键字定义一个类；使用module 定义一个模块；使用def关键字定义一个方法。而 Block 是没有的。这一块在 ruby 元编程里有详细描述。