与字母文字中透明的形—音映射相比,汉字字形与发音之间存在复杂的对应关系。比如含声符“乔”的汉字可能有不同发音,而读音为“qiao”的汉字也可能对应多个声符。这种多变性和复杂性让汉字“形”与“音”的映射规律长期以来难以系统量化。传统方法依赖“规则性”和“一致性”指标,虽能揭示部分规律,却难以全面反映汉字读音系统中隐藏的不确定性。这不仅限制了对汉字阅读加工机制的理解,也制约了二语习得、阅读障碍研究及语言处理工具的发展。
针对这一难题,我院在读博士生肖哲在心理学权威期刊 Behavior Research Methods 发表论文 Information-theoretic measures for mapping regularities between orthography and phonology: A comprehensive quantification and validation in the Chinese writing system,系统引入信息论指标,从信息量角度对汉字系统中的形音映射规律进行了全面量化与验证。

文章内容
长期以来,规则性(regularity)与一致性(consistency)是认知心理学中捕捉描写汉字“形—音”映射关系的主要指标。然而从信息论角度看,这些经典指标难以捕捉汉字系统形—音映射关系的复杂性与不确定性。信息论的引入为这一问题的解决提供了新视角。在拼音语言中,研究发现熵(entropy)、信息增益(information gain)和惊异(surprisal)等指标能较好地捕捉文字中形音映射的规律。然而,汉字作为一种语素-音节文字,在正字法结构和形音映射模式上与拼音文字存在重大差异,汉语和汉字中这些指标会有什么表现,有效性又如何?
针对这一问题,本研究团队构建了覆盖上万个汉字的大规模现代汉字形—音映射数据库,系统分析了不同映射方向(字形→语音 vs. 语音→字形)、音节粒度、声符类型、频率类型等多维度的属性,对汉字系统的结构复杂性与不确定性进行了全面度量。然后,为进一步验证这些指标对汉字阅读的作用,团队利用大规模汉字命名实验数据,发现信息论指标能显著预测反应时和准确率;而且与传统规则性、一致性指标对比,信息论指标对汉字阅读有独立贡献:即使控制了词频、语义等因素,这些指标仍表现出独立的解释力,能有效捕捉传统映射指标无法解释的加工变异。上述研究结果不仅在自建数据库中成立,也在外部大规模语料库中得到稳健复现,显示出信息论方法和相关指标的强大可靠性。
研究意义:
方法上:验证信息论指标对汉字阅读的作用,揭示汉字映射信息量指标的心理现实性。
理论上: 将信息理论灵活适配于非字母文字系统,为汉字认知研究提供动态量化工具。
应用前景:可广泛用于母语儿童阅读、阅读障碍筛查、二语习得研究、自然语言处理建模等多个领域。
该工作揭示了信息论视域下汉字系统中“复杂性中的规律性”,为非拼音文字的认知建模探索出新路径。
论文信息
Xiao, Z., Xiao, H., & Xu, C. (2025). Information‑theoretic measures for mapping regularities between orthography and phonology: A comprehensive quantification and validation in the Chinese writing system. Behavior Research Methods, 57(9), 232. https://doi.org/10.3758/s13428-025-02721-3
作者简介
该项成果第一作者为我院2022级在读博士生肖哲,第二作者为我院培养的肖慧敏博士,论文指导教师及通讯作者为我院徐彩华教授。
期刊简介
Behavior Research Methods 是心理学领域国际权威期刊,5年影响因子 6.8,为 SSCI Q1 期刊。该刊长期刊载心理学、语言学、认知科学的重要方法论研究成果,在JCR实验心理类期刊中排名第五、数学心理学类期刊中排名第一。
撰稿:马琳杰