以数字映射古代文学经典
大数据及其相应技术对社会知识体系和思维方式产生了重大影响。基于该技术,对古代文学经典文本进行深入高效的分析,可以使文学研究进入更广阔的视野,提高研究结论的准确性、稳定性和可验证性,促进新的研究理念、方法和范式。信息革命以来,古籍数字化积累和知识库建设取得了丰硕的成果。众多的古籍可以形成任意大小的文本集合,具有不同维度的数据特征。基于单词、句子、短文等的统计。可以用来获得不同于纸质阅读的认知。
古籍散点透视
利用谷歌和哈佛大学联合开发的数据库,统计了公元1800年至2000年出版的近520万本书籍中单词和短语的使用频率,清晰地呈现了任何单词或短语在过去数百年中的出现频率和变化趋势。这种词频统计器广泛应用于探索著名事物的兴衰、话题的热点变化、人物或群体的影响等研究中。
同样,在大数据时代,新技术和研究思路为弥补纸质古籍在结构化编排、大量数据采集整理、关系立体联动呈现等方面的不足提供了可能。我们利用“国学文库”数据库中收集的超过10000种、超过22亿字的古籍优秀数据,筛选出近百部最核心的经典著作。我们从用词量、用词比(TTR_H)和用词频率等不同角度进行统计,以一种前无古人想象的广泛文体来源进行时代与文学的关联和比较,从而获得一系列涉及中国历史、文体学、知识考古、蒙古学的研究。
纵向纵览先秦至清代的古籍资料,首先可以注意到单部经典的总字数和字数的增加趋势。显然,前者与文献的物质形态的变化和发展有直接关系,而后者不仅受自身发展因素的影响,如中古时期的汉语双音化,还与汉代至中古以来的图书总量和社会知识的增加有关。首先,承担识字教材功能的知识工具书和小学读本排在第一位,如《尔雅》(3360字)、《水镜朱》(4490字)、《温孤观致》(3863字)。自汉代以来,文人逐渐注重学术和社会观点的积累以及人生本质的总结,所以他们的著述往往具有丰富而深刻的知识特征。史记,“究天人,明古今之变”,“若说其大,乃天地之事;详细来说,无边无际的《淮南子》的字数分别为4730字和3900字,在涉及统计的古代和中世纪文献中非常突出,已经可以和明清小说相媲美(《四大名著》、《聊斋志异》的字数在3931到4936字之间)。
“智能化”的转变不能只靠数据本身来完成,但解读数据的方式比数据更重要。除了将统计分析与经典话题联系起来,数据分割和聚类也是至关重要的基础环节。一个经典的研究案例是,《红楼梦》正文共分四十章,最后一部分用词量的显著差异恰恰证明了关于作者的问题。但直接用字数来衡量一部作品的好坏或阅读难度,会陷入机械的统计分析思维。比如《统计学》的前几篇小说文献,其体量大、内容广、文风雅俗等。,共同增加了用词量。同样,由于常用汉字总数的限制,文档长度的增加会导致字比的降低。因此,将计算语言学中常用的TTR_H模型引入统计中,对词比进行修正。最终结果显示,字比最高的读者均为蒙文读者:千字文(1)、百家姓(0.986)、三字经(0.894)、音律启蒙(0.857)。可以看出,编者在有限的篇幅和内容难度下,有意识地增加汉字量,让学生尽可能多的集中习得汉字。蒙文读物编者选词的标准是什么,是当时常见的古典文献中的高频词,还是日常生活中的常用词,还是其他标准?这种选择是通过什么方式做出的?这些都是值得进一步探讨的课题。
从字符特征中发现经典命题
在词频统计中,考虑到虚词和实词的不同属性和解释功能,通常是分开计算的。虚词是汉语史等领域研究中常用的特征数据,也是作品风格比较的标志性参数。虚词的比例本身就构成了不同作者之间的风格标记。在“五经”中,参考后世的“文风之辨”,诗歌是一种押韵的文章,所以与其他书籍相比,高频词中的实词所占的比重更大,“实词多则健康,虚词多则衰弱”的古代诗学观就源于此。用高频词的真假来映射“文笔之辨”的方法,可以延续到后世。一般来说,在诗歌、歌词等文体中,实词作为高频词的概率高于散文文体。
作为五经中最早的书《尚书》,其虚词特征也保存了古代汉语演变的痕迹。排在《尚书》中高频第一位的虚词“为”有一种上古的色彩,这不仅与其许多内容的叙事性有关,也反映了早期汉语与后期“什么都差不多”时代的区分。从同样的角度看近期的古代著作,我们可以看到中国历史上的另一个巨大变化。对话是小说的重要元素。表示言语行为的动词自然享有高频地位,在《三国演义》和《聊斋》中体现为“曰”,在《西游记》和《水浒传》中体现为“道”,这是后一组作品文言文弱化的重要标志。真正的白话转型发生在《红楼梦》中,“的”第一次取代了语法功能相同的“之”,成为第二高频词。《红楼梦》中的第一个高频词是另一个具有白话特色的虚词“了”,也是《水浒传》中的第一个高频词。
与虚词相反相成的实词是文献内容与主题的映射,其背后有反映概念史演变的重要命题。同样,以五经为例,诗、书、礼、变、春秋中的第一高频实词分别是我、王、满、项、子。《诗经》具有最强烈的主观抒情色彩,正如《毛诗序》所说,“一国之事,一人之本”。《尚书》是古代三位皇帝的法典、伦理、训令、诏书、誓约、命令等的文献记录。,以记录“王”的核心言行。孔子以“克己复礼”来约束人,“礼”是人的内在品质的外化,脱离人谈“礼”也就失去了基础。“象”作为《周易》的解释对象是不言而喻的。“古代人把他们的生命献给了国王的家族。当他们起来时,他们看着天空中的影像;当他们倒下时,他们看着地上的法律;当他们看鸟兽之言,地适之时,便亲近了,远离了一切,于是便起了易经八卦来挂宪象。”《说文解字序》中的这段话说明,“象”不仅是《周易》的关键,也是汉字观念和中国文化思维的体现。《春秋左传》第一个高频词是“子”,包含第二人称单数和王侯爵位的双重含义。后者是《春秋》叙事的核心。孔子写《春秋》,就是为了用些微的正义感,记录“诸侯征伐礼乐”的非凡时代。作为一部编年体史书,各诸侯国王公大臣的秩序和道德选择构成了它的潜在纬度。
用数据定性“诗分唐宋”
钱树的《覃逸陆》以“诗分唐宋”为开篇,影响广泛。这是对前人的延续,宋代严羽的诗中就有“本朝之人讲道理,唐人之意在快乐”的说法。唐诗宋词的区别在于体质,体质比较神秘。通过定量分析,我们可以详细掌握其语言特点。根据全唐诗57000余首,全宋诗254000余首的频率统计,前十大高频词分别是:不知,何处,千里,千里,思念,不能,白云,今日,春风,不能(全唐诗);我不知道,春风,生活,不,千里,万里,地球,失踪,十年,在哪里(整个宋朝)。以下段落的词频顺序会在括号中注明,不一一说明)。
将统计数据展开到前100名,关于唐宋诗风之争的诸多命题就可以在字的褶皱中展开。以严羽的论断为例,在百家诗中,唐诗比通俗隽永的景物描写更居前列。比如7号的“白云”和11号的“岳明”只是词汇片段,唐朝的气象很明显。作为参考,这两个意象在全松诗歌的词频统计中已分别降至第19位和第23位。严羽“本朝尊理”的观点也可以从统计数据得到佐证:在宋代,“命”(第3位)、“仁”(第8位)等哲学词汇的排名高于唐代(分别为第30位和第13位)。还有一个有意思的地方是,宋人虽然提倡律己、自守、自求的理学,但“功名”(36首)、“富贵”(78首)的诗很多,唐人很少写,而唐代常见的“忧郁”(15首)、“相思”(22首)等诗则与“理语”相对。
唐诗强调空,宋诗强调时间。宇宙的压倒感和无边空的空间,从整首唐诗的前五个词频(不知何处,千里,千里,思念)就可以看出来。日本汉学家吉川小次郎曾指出,唐诗是凝视生命中燃烧的珍贵瞬间,而只是顶点的对象。宋诗本质上是时间性的,诗人视生命为漫长的持续。从词的统计来看,唐诗中排名最高的时间词是“今天”(8),when 空和情感都集中在这一点上,而宋诗中排名第一的是“十年”(9),其次是“今天”(12)和“百年”(20)。纪传体的“燃烧与坚持”理论被推进到意象选择的对比上。日落是燃烧的景象,雨是坚持的景象。所以才有了“唐人写夕阳,宋人写雨”的经典结论。词频的统计正好验证了这一点。《晚霞》(55)、《晚霞》(59)、《晚霞》(69)的词频在全唐诗中排在前列,在宋诗中排在九十年代之后。
与信息爆炸的现代不同,传世文献中经典文本的边界相对清晰,但其体量对于专注于某一主题或领域的研究者来说,仍难以完全把握。基于大数据技术的古代文学经典文本分析,不仅关注经典文献,也关注海量基础文献。希望能够在短时间内使用高效全面的数据挖掘进行准确有效的文本分析。传统经典研究中的结论,大多是在个人有限的阅读过程中,通过观察、思考、领悟得出的,往往带有主观性,甚至是先验性。大数据的汇聚和计算分析方法的应用,可以让既出乎意料又可以接受的结论“自动浮现”。
用大数据把过去割裂孤立的东西重新连接起来,改变了我们对文献、文本、知识的理解路径和把握尺度。从词/词频统计这个大数据工具这个微小的方面入手,初步获得了以新的方式探索经典、语言学、文学等领域文献的经验。相对于用不同的技术手段、不同的构造方法、不同的粒度重构的集成文献知识库,上述工作可能只是一个小小的尝试。我相信,有了统计数据的积累、叠加和映射,古籍和传统文化的研究一定能焕发出更大的生机和活力。(作者:刘石,国家社科基金重大项目“基于大数据技术的古典文学文本分析与研究”首席专家,清华大学教授,首都师范大学中国诗歌研究中心专职研究员尹晓林)
【纠错】本文地址:http://4879931.55jiaoyu.com/show-278792.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.邦博尔湖州招生网_湖州招生信息_湖州招生考试平台
- 12.邦博尔哈尔滨招生网_哈尔滨招生信息_哈尔滨招生考试平台
- 13.东北农业大学是什么样的大学985还是211高校(附王牌
- 14.杭州所有的本科专科大学名单(2025)
- 15.六盘水第二中学网站网址
- 16.2025四平各区重点高中学校名单及排名表
- 17.招生信息_永丰职业中等专业学校
- 18.成都纺织高等专科学校地址在哪里
- 19.往年高考多少分可以上西北政法大学?(2025年参考)
- 20.西安科技大学有哪些专业
- 21.广东开设会计电算化专业的职业学校名单一览表
- 22.中南大学_长沙招生网
- 23.淄博职业学院评价怎么样,学校好不好
- 24.中南大学招生录取分数线
- 25.汶上一中2022录取分数线(2023参考)
- 26.柳州第二职业技术学校怎么样、好不好
- 27.郫县第四中学怎么样、好不好
- 28.德阳外国语学校2021年学费、收费多少
- 29.太原六十三中、太原六十四中2022录取分数线(2023
- 30.河南省实验中学2022录取分数线(2023参考)
- 31.吉首大学医学院_湘西招生网
- 32.往年高考多少分可以上防灾科技学院?(2025年参考)
- 33.2025南充计算机学校有哪些南充计算机学校名单一览表
- 34.北京市二十一世纪学校地址,乘车路线
- 35.2025文山排名前五的公办中专学校名单
- 36.2025广西华侨学校开设的专业一览表
- 37.安徽艺术职业学院艺术类学费2025年多少钱
- 38.张家口职业技术学院地球物理勘查技术专业介绍_河北
- 39.2023东华大学高考录取分数线是多少(2025年参考)
- 40.烟台城乡建设学校2025年报名条件、招生要求、招生对象
- 41.湖南工学院是什么样的大学(附王牌特色专业)
- 42.湖北高考专科分数线汇总(2012-2022年)
- 43.校友会2025北方工业大学专业排名
- 44.2023河北工程大学高考录取分数线是多少(2025参考)
- 45.济南三中(领秀校区、市南校区)2022录取分数线(2023参考)
- 46.2023年青海高考分数线(2025参考)
- 47.西安欧亚学院学校代码是12712(学校代码)
- 48.2023中国海洋大学高考录取分数线是多少(2025年参考)
- 49.柳州职业技术学院网站网址
- 50.山东商务职业学院应用英语专业介绍_山东应用英语的
- 51.定西师范高等专科学校开设哪些专业,定西师范高等专科
- 52.2025盐城护理学校有哪些盐城护理学校名单一览表
- 53.飒爽英姿,2021年四川城市技师学院学生军训风采
- 54.宣城市信息工程学校_宣城招生网
- 55.邦博尔渭南招生网_渭南招生信息_渭南招生考试平台
- 56.安徽马鞍山中考分数线(2022)-2023年参考
- 57.河北游戏艺术设计专业专科学校
- 58.2022山东所有专科学校名单一览表山东专科学校最新
- 59.成都棠湖外国语学校_成都招生网
- 60.2025益阳民办中专学校有哪些益阳民办中专学校名单
- 51.四川大学医药学(大学本科)专业课程
- 52.四川联合经济学校报名条件、招生对象
- 53.公共安全教学工作总结
- 54.个人简历空白模版
- 55.《岁月的颗粒》:颗粒饱满的文学收获
- 56.仙桃实力排名前几的cpa培训机构一览
- 57.诚实写作,蹚出一条路来
- 58.《时代之问,中国之答:构建人类命运共同体》新书发布会在京举行
- 59.园艺个人简历封面免费
- 60.四川成都卫生学校的口腔专业怎么样?
- 61.四川工程汽车职业技术学院历年录取分数线预测
- 62.四川往年护理学校里面都有哪些专业
- 63.四川省绵阳职业技术学校办学怎么样?好不好?
- 64.四川省商贸学校+会计专业
- 65.四川绵阳高级技工学校电子商务专业收费标准是多少
- 66.四川省广元师范学校怎么样,环境如何
- 67.四川联合经济学校2020招生简章
- 68.四川省石棉县职业高级中学的招生计划
- 69.四川省实用中等专业学校招生办地址在哪儿
- 70.四川省达州经济贸易学校招生办联系电话,地址

