近十年内,我们可以在大规模的电子文本之上使用计算机算法。在美国,许多高校的图书馆合作扫描了一千四百万本书籍。在中国,我们设法访问了包含一万八千四百份文本的经典文本语料库“汉典”,以及若干中国经典文本。而在此之前,所有这些存在于书籍当中的有趣哲学文本只能由人眼来阅读。
一千四百万本书籍,没人会去读这一千四百万本书籍,这实在是太多了。但是借助计算机,我们现在能够从所有文本中系统地提取信息。所以,我们选择用一些计算方法来寻找其中的哲学意义和两千年来的哲学思想变化,这就是我们将计算与哲学相联系的一种方式。
查尔斯·达尔文是个非常好的研究对象,因为他完整记录了自己阅读的每一本书。现在,归功于HathiTrust这样的数据库,我们有了这些书籍的电子扫描件,便可以找到他所读的几乎所有书籍的电子版,做成了语料库,并使用算法来寻找他阅读经历所展现的模式。我们发现达尔文读的有些书较相似,利用计算机对这种相似性进行衡量,便可探讨他的阅读习惯。比如,看他是否有意选择更相近的书来读,还是喜欢挑些不一样的。结果证明,在达尔文生命的某些阶段,他坚持阅读相似的书籍。但有时会做不同方面的研究。
除此之外,还可以知道他的写作内容是如何与他的阅读相关联的。使用相同的技术,我们分析发现,随着达尔文阅读年限的增长,他的书稿中出现了越来越多的、自己构建的新内容。也就是说,他一直在独立构思新的材料。
我们站在新的开端,使用全新工具做全新的研究,而计算机正是我们的新工具。
(网 络)