2022年10月24日,中央民族大学历史文化学院2021级强基班“大数据史学”课程专题讲座暨史学名家系列讲座《历史大数据的挑战与量化历史的价值》以线上腾讯会议和线下教室收听相结合的方式举行。本次讲座由中国人民大学清史研究所副教授、杰出青年学者林展老师主讲,本院陈鹏老师主持。
随着大数据时代的到来,大量历史数据库建成并向学界开放,历史研究也面临新的挑战,即如何有效利用大规模的史料。量化历史作为新史学的重要组成部分,是应对历史大数据挑战的重要方法之一。近年来,量化历史研究在国际和国内学界发展较快,形成了较为完善的分析方法。本次讲座林展老师详细讲解了有关量化历史的相关研究成果和步骤,透彻分析了历史大数据发展的相关价值与挑战,内容详实有趣,让同学们受益匪浅。
本次讲座的内容主要有以下五个方面:一是历史大数据的挑战从何而来,二是什么是量化历史研究,三是量化历史研究发展简史,四是量化历史研究的步骤,五是量化历史研究的价值。
历史大数据的挑战从何而来
历史大数据的挑战主要来源于四个方面,即新理念、新方法、新技术和新问题。随着新史学革命的不断发展,很多新理念也相继出现,为史学研究提供了更多可能。例如,新史学强调眼光向下,关注底层人民,这一研究理念促进了大量民间文书的发掘,丰富了史学研究资料。同时,新理念的出现也促进了史料类型的多元化,为历史大数据提供了更多机遇和挑战。其次,新的研究方法和技术的进步也是历史大数据发展的挑战之一。林展老师在这一部分列举了社会网络分析方法和古人类DNA提取技术,来展示处理数据的复杂性和难度。最后一点在于新问题,不同学科领域的研究者不断提出新问题,进而推动了大规模史料的发掘和整理。总的说来,历史大数据的核心挑战在于“如何高效地处理大规模的信息”。量化历史方法是有效的应对手段之一。
什么是量化历史研究
量化历史研究是交叉学科,是用社会科学理论和量化分析方法来研究历史。它和数字人文的区别在于,数字人文比较强调的是计算机和信息档案与历史学科的交叉,而量化历史则更重视社会科学的理论。量化历史引入社会科学中“定量”的方法进行历史研究,对人类社会某些特征进行系统化的论断和解释。量化历史研究有两个重要的特征:一是引申出可检验的假说或推测,二是随着支持的经验证据越来越多,可靠性程度也越高。
起初,历史研究中的“量化方法”很简单,差不多就是“用数据说话”,加上图表和一些普通的统计指标,比如均值、方差和相关系数。目前在社会科学中,占主流的量化方法还是通过回归分析寻找因果关系。目前量化方法主要有度量、相关性分析和因果关系检验等三种方法。量化历史研究的目的是发现历史规律,即因果关系;其本质是高效率的处理大规模信息,从中获得规律认识。
量化历史研究发展简史
在这一部分林展老师推荐了斯蒂文·拉格斯的《量化的复兴:对“旧新史学”的反思》这篇文章。在国内,量化历史研究与经济史和历史地理的关系较为密切,例如早期吴承明对资本主义萌芽的研究、李伯重对生产力的研究、曹树基对人口的研究等都运用到了量化的研究方法,但受到当时的技术和数据量的限制,其使用的量化方法还较为简单。近期量化历史研究大致开始于2013年,推动者有陈志武、龙登高、马德斌等学者。陈志武在《清史研究》2016年第1期发表了论文《量化历史研究的过去与未来》,不同高校和学者也陆续创办了公众号、辑刊,举办了讲习班、年会和网上讲座,有兴趣的同学可以多多加以关注。
量化历史研究的步骤
步骤一,提出问题与假说。要提出重要、有趣、可行的问题。重要的问题更值得投入资源去研究,有趣能够保证你有持久的热情。“大爱才有大智慧”,重要而有趣的问题也会得到学界和公众更多的关注。这些问题最终要与人的行为规律相关,符合人类历史发展规律。各位同学可以积极阅读相关杂志,加入更好的研究团队,积极参加学术会议,不断提高自己的研究品味和修养。那什么是假说呢?林展老师提出,假说是对人类行为和人类社会规律的一个猜测(猜想)。这个猜测是对所关心的变量之间关系的一个明确表述。量化历史虽然在开始就提出了问题和假说,但不是在预设结论,而是猜测,这个猜测的表述必须是明确的,这样才有可能被数据所证伪。
步骤二,理解史料与建立数据库。首先要寻找变量和对变量进行度量。变量是指可能变化的对象。给变量赋予一个数字,就是变量的度量。对一个数值变量进行度量之后,可以很快计算统计特征,比如平均值,方差,最小值,最大值等等。对定性变量进行度量之后,可以很方便的比较同一个变量在不同时期、不同地区的差别,进而也能够考察变量之间的关系。对变量进行度量是量化分析的起点。就对历史的理解而言,很多时候度量本身就是一个重要的学术成果。第二,要注重考察史料的代表性。在历史研究中,找到的史料往往是关心的研究对象的一部分,只能够基于拿到的史料去开展研究。尽管随着历史大数据时代的到来,有时候可以拿到关于研究对象的全部史料,但这样的情况还是比较少见。在这里,林展老师强调,样本的抽取要注意随机性,尽量避免选择性偏差。第三,建立数据库。数据库的建立和表格、统计图的生成,有利于历史研究发现更多的问题,直观地了解历史现象,通过“量化”促进史学研究。
步骤三,相关分析和因果分析。量化历史分析要从单变量分析(描述)向多变量分析(推断)转变,并且常常通过散点图、相关系数和地图等方式来展现相关关系。由于两个变量都有变动关系,人们常常将相关关系误读为因果关系。但相关关系不等于因果关系;相关关系中有可能隐含因果关系,也可能没有,一般需要进一步证明。在相关关系中,改变其中一个变量的数值不一定会引起另一个变量数值的改变;而因果关系是指若一个事情发生,另外一个事情必然发生。
步骤四,作用机制分析。机制研究是量化分析的核心组成部分,其价值在于揭示我们发现的因果关系是如何起作用的,其原理在哪里,也是对因果关系的进一步支撑,而不是虚假关系。
步骤五,论文写作。
量化历史研究的价值
量化历史的价值主要有以下六点(一)应对历史大数据的挑战,帮助分析复杂的历史,(二)识别历史的长期影响,形成贯通性研究,(三)推动历史学成为社会科学之源,(四)连接碎片与整体,(五)进行有效的跨国比较,(六)更有效地体现人文关怀。
最后,林展老师鼓励同学们努力学习新方法,在历史大数据时代做出好的研究。主持人陈鹏老师也对此次讲座做出了简要总结,强调了在人文学科研究中“定性”与“定量”的重要性。随后,强基班的两位同学结合自身的学习生活,提出了一些有关大数据史学学习的疑问,林展老师做出了细致的答疑。最后,在同学们热烈的掌声中,本次讲座圆满结束。