第A15版:理论探索

民族语言语料库视域下核心词语义场的聚合与扩散研究

  

王卓妍

  在铸牢中华民族共同体意识、推进社会主义文化强国建设的宏大叙事背景下,民族语言作为凝结民族历史记忆、承载独特思维方式的“人文活化石”,其系统性保护与创造性传承已然成为一项兼具战略意义与现实紧迫性的时代课题。核心词是民族语言词汇系统的骨架,承载着基本的语义功能,凝聚着民族认知共性。语义场理论表明,核心词通过语义关联所形成的聚合网络及其扩散路径,正是语言动态发展的核心规律所在。传统研究多依赖零散语料,往往难以捕捉语义演变的细节之处。而现代民族语言语料库凭借其海量存储与量化分析能力,能将语义演变中隐性的规律转化为显性的数据,其不仅为核心词语义场研究提供了全新的方法论路径,也为民族语言的传承与发展注入了科技活力。
  民族语言语料库的系统性构建,是开展深入研究的基础所在。其核心价值不仅在于实现语料在全场景中的广泛覆盖,更在于通过标准化的处理流程为后续的量化分析与比较研究提供可靠的数据基础。就拿西南民族大学彝语综合语料库来说,这个语料库收纳了明清时期的彝文典籍、大凉山地区以及楚雄地区的口语实录、现代的双语文本等内容,总体规模达到了5000万字,可为追溯像火、山这类核心词的演变提供完整的语料链条。语料在经过词性、语义、文化背景等多个维度的标注之后,借助Python可快速实现量化分析。比如,彝语中“火”这个词在典籍里大多与祭祀相关联,在现代语料中却延伸到了能源利用方面,这种差异借助数据可直观地呈现出来。语料库的标准化处理,打破了传统研究存在的主观局限,使得核心词分析更具科学性。
  核心词语义场的聚合机制呈现出层级清晰且有文化嵌入的特性,这是民族认知逻辑在语言方面的具体体现。以内蒙古大学蒙古语游牧文化语料库作为例子,经过对100万字语料的分析可以发现,在食物语义场中,“肉”“奶”处于核心层,其数量是次级词“谷物”的3倍,“肉”与“羊肉”、“奶”与“马奶”之间存在着很强的关联性,这突出了游牧饮食的特点。需要注意的是,“肉”“奶”与“富足”的共现率达到了68%[1]。这种语义倾向承载着文化价值判断。藏语宗教语义场也是这样,“佛”“经”“寺”一直稳居词频前列,次级词“祈祷”“修行”与它们联系紧密,边缘词“法器”借助共现网络被纳入体系,呈现了语言逻辑,又反映了藏传佛教文化的核心。语料库的共现分析功能,可让这种层级聚合特征清晰地显现出来。
  社会文化方面出现的变迁是语义场扩散最为关键的动力。对语料库展开历时分析可较为精确地追踪这一情况。语义扩散主要表现为本义延伸以及领域拓展,这两者都与社会发展有着紧密关联。新疆大学的维吾尔语语料库说明,“网络”这个词汇在2010年之前仅应用于计算机领域,其搭配多为“服务器”等相关术语;到2015年,随着互联网逐渐普及,“网络”这个词汇延伸至生活领域;2020年之后,它又拓展到网络扶贫、直播带货等场景,还衍生出了“网聊”“网课”等复合词。这一情况与新疆互联网普及率持续提升的发展进程高度契合。壮语电商语义场更具典型性。2018年之后,随着乡村振兴战略不断推进,电商与“芒果”“八角”共同出现的频次大幅增加,其语义从电子商务延伸到致富手段方面。凭借对语料库进行历时对比,可精准捕捉到这种突变以及渐进的扩散特征。
  这类研究为民族语言的保护与应用提供了实践途径。在保护层面,可借助识别濒危核心词来确定传承的薄弱之处。借助西北民族大学裕固语语料库对比可知,在游牧工具语义场里,像“套马杆”“毡房”等词汇,高龄群体的使用频率比青少年的使用频率高,并且青少年群体的词频每年都会下降。依据此研发的《裕固语核心词汇教程》以及语义联想游戏,已在肃南的学校推广,切实提升了传承效果。在应用方面,语义规律为民族语言信息化提供了支持。西藏大学基于藏语语义场构建的机器翻译系统,使汉藏互译的准确率提高了,在政务领域达到了较高水平,已应用于西藏的政务公开以及线上教育;蒙古语智能输入法借助语义聚合优化了预测功能,极大方便了民族语言的数字化传播。这些实践充分说明,语料库研究使民族语言保护从被动记录转变为主动干预,应用从传统模式走向现代赋能。
  当前研究依旧面临诸多挑战。第一,语料库建设呈现出不均衡态势。例如,赫哲语这类小语种的语料库规模还不足100万字,活态语料的收录也较为欠缺。第二,小语种语义自动标注技术尚不成熟,现有模型的准确率普遍较低,因为依赖人工操作导致效率比较低。第三,跨学科融合方面仍有欠缺,难以揭示语义演变背后深层的认知机制。
  未来,可采取以下措施提升民族语言语料库建设水平:其一,依靠“东数西算”来构建全国民族语言语料库共享平台,着重推进小语种语料的采集工作;其二,研发基于BERT模型的小语种语义识别系统,以提升标注效率;其三,构建语言、文化及认知的跨学科框架,挖掘语义背后所蕴含的文化内涵。
  民族语言的传承之路漫长且艰巨。语料库视域下的语义场研究可为民族语言的活态传承提供坚实的学术支持,从而让各民族语言在时代变迁中持续焕发活力,生生不息。

参考文献:

  [1]都蓝.现代蒙古语多义动词的认知研究[D].内蒙古大学,2023.

作者单位:中央民族大学文学院

分享到:

过往期刊

  • 第2026-01-29期

  • 第2026-01-27期

  • 第2026-01-22期

  • 第2026-01-20期

  • 第2026-01-15期

  • 第2026-01-13期

  • 第2026-01-08期

  • 第2026-01-06期

  • 第2026-01-01期

  • 第2025-12-30期

分享到微信朋友圈