研究背景
在纳米科学等快速发展的领域,随着文献数量的指数级增长,传统的以人工路径进行文献搜集、阅读、总结等方法,愈发难以应对海量数据的挑战。如何从浩如烟海的文献中提取知识结构、揭示研究趋势,成为了科研工作者和基金管理者的重要课题。近些年来,文献挖掘作为一种能直接从半结构化文本中自动提取对用户关键且具有价值的知识的方法,引起了研究人员的密切关注。然而,尽管前景广阔,文献挖掘方法在实际落地应用过程中,依然面临诸多挑战,其中一个亟待解决的难题是如何将参考文献信息融入文献挖掘模型之中,从而能够多维度地呈现研究领域的演化过程。
An Efficient Deep Learning Framework for Revealing the Evolution of Characterization Methods in Nanoscience
Hui-Cong Duan, Long-Xing Lin, Ji-Chun Wang, Tong-Ruo Diao, Sheng-Jie Qiu, Bi-Jun Geng, Jia Shi, Shu Hu and Yang Yang*
Nano-Micro Letters (2025)17: 295
https://doi.org/10.1007/s40820-025-01807-z
本文亮点
1. 性能提升:与传统隐含狄利克雷分布(LDA)模型相比,本研究提出的主题提取模型在主题一致性上提升了100%-367%,在主题多样性上提升了0%-126%,提高了主题识别的准确性。
2. 技术革新:本研究结合主题提取模型与引文网络分析,实现了文本语义与文献引用关系的协同挖掘。设计了一种基于Punkt算法的分词器,解决了化学领域实体命名的分词难题,提升了主题识别的可解释性和鲁棒性。
3. 应用前景广阔:本研究以拉曼光谱为例,演示了如何通过追踪领域文献的动态演化过程去挖掘学科的发展规律。本研究成果有望为不同学科的知识挖掘与趋势分析提供全新思路,以及为科研政策制定者优化资源配置、把握前沿研究方向等,提供数据支撑和科学决策依据。
内容简介
随着数据驱动研究方法的快速发展,科学文献的爆炸式增长为传统文献综述带来了前所未有的挑战。尤其在纳米科学及其表征技术领域,海量文献中的研究趋势和知识结构难以通过传统人工方法系统梳理。针对这一问题,厦门大学杨扬教授团队提出了一种可行的方案,通过结合主题提取模型与引文网络分析,绘制了拉曼光谱技术的发展演变路径。
研究团队首先从Web of Science数据库中收集了1980至2020年间与拉曼光谱相关的研究性文献;紧接着,选择BERTopic主题提取模型并自主设计了一个化学领域分词器。实验结果表明,该模型相较于传统LDA模型,主题一致性指标提升超100%,主题多样性指标最高提升126%。这种方法提高了主题提取模型对复杂化学术语的识别精准度,表现出一定的性能优势。
此外,研究团队通过分析拉曼光谱技术领域不同发展阶段的主题演变和学术社区密度变化,探讨了该领域研究的深化和扩展过程。并且通过主路径分析方法对学术社区进行简化,从大量文献中识别出14篇推动了该领域技术跃迁的里程碑文献,构建了该领域的知识图谱。这一成果为纳米科学领域的文献挖掘提供了一个新方法,有助于科研政策制定者回溯学科发展历史、优化经费资源配置和把握前沿研究方向。
图文导读
I 模型架构
如图1所示,框架的工作流程主要包括三个步骤:数据收集(图1a)、主题模型构建(图1b-d)和引文分析(图1e-f)。首先,本研究确定拉曼光谱作为研究领域,并通过寻求该领域专家的建议确定了文献检索式。通过文献检索式从Web of Science数据库中检索和收集了大量文献,并将其作为语料库存储在数据库中(图1a)。
图1. 模型架构图示以及基本步骤和结果。(a)从Web of Science数据库中收集科学文献以作为模型的输入;(b)BERTopic主题模型的架构由五个独立的模块组成;(c)为了获得每个阶段的主题分布,使用主题模型从文本信息中提取主题;(d)用余弦相似性算法获取以桑基图形式展示的主题演变结果;(e)引文网络由收集到的科学文献构建而成,随后通过社区检测算法检测引文网络中隐藏的社区;(f)通过主路径分析找到里程碑文献;(a)和(c)分别为BERTopic主题模型的输入和输出。
其次,本研究基于BERTopic模型,从语料库中提取主题信息。如图1b所示,BERTopic模型由五个模块组成:嵌入、降维、聚类、分词和表示模块。在嵌入模块中,利用all-MiniLM-L6-v2模型将一篇文献转换为一个384维向量以捕获输入文本的词序和语义信息。在降维模块中,本文选择使用均匀流形近似和投影算法(UMAP)将384维向量降维至5维向量(支撑材料S1.1节)。根据已有的将聚类算法应用于海量数据处理的成功案例,本文将聚类算法集成到BERTopic模型中,以提高计算效率(支撑材料S1.2节)。在聚类模块中,经过降维后的向量作为层次密度聚类算法(HDBSCAN)的输入,用于发现这些文献向量的主题集群(表S5)。在分词模块中,主题集群中的所有文献都被合并为一个长文档,然后通过分词器将长文档分成短语序列,并进一步计算每个短语出现的频率。此处设计并实现了一个基于Punkt算法的分词器,以确保每一个短语符合领域命名规则(支撑材料S1.3节)。在表示模块中,c-TF-IDF算法被用于从短语序列中识别主题术语并且提取主题信息(图1c)。随后,余弦相似度算法被用于确定主题之间的演化关系(图1d)。
最后,本研究利用引文信息构建引文网络(图1e),应用社区检测算法去检测隐藏在引文网络中代表了特定的研究领域和学术观点的社区(支撑材料S1.4节),并且进一步应用主路径分析算法去简化引文网络(图1f),以识别连接不同研究社区的关键节点。
II 验证模型的主题提取能力
LDA模型在主题提取方面被许多研究者所广泛采用。在本工作中,它被选作基准模型去用以对比和展示研究团队所提出的模型的性能。主题一致性和主题多样性指标被用于衡量提取的主题质量。归一化逐点互信息(NPMI)是一个主题一致性指标,用于衡量单词之间的语义一致性程度。其取值范围为[-1,1],当值越接近1时,主题的可解释性越高。主题多样性(Diversity)指标被用于估计主题中非重复单词的比例,其取值范围为[0,1]。当值越接近1时,主题之间的差异越大。本文计算了不同数据库大小和主题数量下的NPMI和Diversity值,以验证模型的性能和稳定性。结果如表1所示。
表1. LDA和BERTopic模型在不同主题数量下的性能。
当主题数量(TN)为10且数据库大小为3,126和150,561时,结合分词器的BERTopic模型的NPMI值分别为0.08和0.12,比LDA模型高367%和100%。当TN为100且数据库大小为3,126时,改进后的模型的Diversity值为0.88,比LDA模型高126%。总而言之,改进后的模型相较于传统LDA模型,在NPMI和Diversity指标上均有所提升,能够提取出更高质量的主题。
为了验证设计的分词器的性能,本研究中还分析了不同TN和数据库大小的NPMI值。当数据库大小为22,321,且TN为10、50和100时,BERTopic模型的NPMI值分别为0.12、0.10和0.10,而使用分词器的BERTopic模型的NPMI值分别0.10、0.15和0.16。这些结果表明,设计开发的分词器能够处理特定的领域命名规则以提高主题的可解释性。
III 相邻阶段之间的主题演化
为了获得拉曼光谱不同阶段的核心主题,本研究利用桑基图展示每个阶段的主题分布及其演化关系。在此图中,如果上一阶段的主题a演变为主题b、c、d,则a被视为父主题,而b、c和d相应地被视为子主题。主题的出现频率是衡量主题重要性的关键指标。基于完整的主题演化图(图S7),本工作将核心主题定义为具有三个及以上子主题或父主题的主题,从而获得了拉曼光谱三个不同阶段的核心主题(图2a)。如图2a所示,Tn阶段(萌芽阶段,1980-1989年)的核心主题是主题1_010、1_018、1_029和1_036。通过分析它们的主题词(表S7),发现主题1_010、1_029和1_036聚焦于生物学领域。主题1_029和1_036与细菌密切相关,这表明细菌研究在早期拉曼光谱领域的中心地位。Tn+1阶段(发展阶段,1990-2000年)的核心主题是主题2_007、2_010、2_018和2_176。通过分析主题词发现,蛋白质这一主题词同时出现在主题2_007和2_018中,表明蛋白质是这一阶段的核心研究对象。Tn+2阶段(成熟阶段,2001-2020年)的核心主题为主题3_020、3_048和3_104,其中主题3_020和3_048与纳米结构阵列有关,揭示了该阶段的研究热点是通过设计纳米结构阵列去增强拉曼散射信号,而主题3_104则继续聚焦于研究蛋白质。
图2. 拉曼光谱领域不同阶段的主题分布以及主题之间的演化关系。(a)具有至少两个子主题的主题之间的演化关系以桑基图的形式显示,主题的标签由发展阶段编号和主题编号组成,以下划线分隔。下划线前的阶段编号1、2和3分别表示Tn、Tn+1和Tn+2阶段。主题编号表示该阶段中主题的序号。每个阶段的核心主题还标注最重要的主题词;(b)核心主题之间的相似性关系以关联热力图的形式展示,最小和最大相似度值分别为0.77和0.92;(c)b中以蓝色标记的主题3_020和3_048的完整演化路径,以及与每个主题对应的主题词,其中蓝色单词是节点的标签,绿色单词代表Tn阶段的主题词,橙色单词代表Tn+1阶段的主题词。
为了阐明不同研究阶段核心主题之间的相关性和演化趋势,文章以相关性热图的形式可视化了核心主题之间的相似度(图2a)。从图2可以发现,与Tn和Tn+1阶段的核心主题相比,Tn+1和Tn+2阶段的核心主题之间表现出更高的相似度。这一趋势适用于图1中的所有主题(图S17和S18)。这一现象表明,前一阶段获得的知识得到了整合和吸收,促进了研究重点的集中和研究方向的相对平稳发展。主题2_176和3_020之间具有最高相似度,表明知识被直接转移,研究方向得到了进一步发展,这一趋势也在主题词的演化中得到体现。主题2_176涉及表面增强拉曼光谱(SERS)的原理,主题3_020探讨了特定纳米结构的设计(表S7)。主题1_010和2_007之间具有最低的相似度。它们的主题词比较结果表明,尽管它们都关注拉曼光谱和蛋白质的研究,但研究方向却有较大区别。主题1_010更侧重于蛋白质的基础物理化学研究,而主题2_007更侧重于光学增强技术的开发和具体应用。
为了明确演化关系和主题词之间的联系,本研究中以Tn+2阶段主题3_020和3_048的完整演化路径为例展示了其中的关系。如图2c所示,Tn+1阶段的主题2_003和2_029是由Tn阶段的主题1_004、1_008和1_016合并而成的。它们都与分子吸附有关,其共同主题词是“surface enhanced Raman”和“SERS”(表S7)。不同之处在于,Tn阶段的主题侧重于银和金等传统金属材料的表面增强拉曼效应和特性,而Tn+1阶段的主题则关注纳米粒子和光催化材料等新材料的表面强化拉曼散射特性,涉及近红外光谱和共振拉曼散射等更先进的光谱技术。Tn+2阶段的主题3_020和3_048是由Tn+1阶段主题2_003、2_029和2_176合并而成的。主题3_020继承了其父主题的主题词,如“substrates”和“enhancement”。基于过往主题的研究基础,主题3_020和3_048进一步研究了大规模纳米结构阵列基底上的拉曼增强效应。这些结果表明,主题演化关系的出现通常都伴随着主题词的继承。
IV 由Louvain算法提取的学术社区演变过程
本研究中报道了拉曼光谱领域不同阶段学术社区的分布。在Tn阶段,引文网络中存在四个社区,分别为光谱学、化学、生物化学和分子生物学以及物理学(图3a)。其中光谱学社区显示出最高的密度值5.69,而生物化学和分子生物学社区的密度值最低,为0.67(图3c)。在Tn+1阶段,出现了几个新的学术社区,例如,材料科学和光学(图3a)。在Tn+1阶段新出现的学术社区中,光学社区的密度值最高,为2.29(图3c)。在Tn+2阶段,引文网络的节点数量迅速增加,而其中近99%的节点属于化学、材料科学、物理和光学四个社区(图3a)。这导致新出现的学术社区,如矿物学、毒理学、天文学和天体物理学被“淹没”。
图3. 拉曼光谱领域不同阶段的学术社区分布和密度演变。(a)由Louvain算法识别的拉曼光谱领域的学术社区,以不同的颜色标记。从上至下的学术社区分布为1980年至1989年(上)、1990年至2000年(中)和2001年至2020年(下);(b)拉曼光谱领域的化学社区分布从上至下分别为1980年到1989年(上图)、1990年到2000年(中图)和2001年到2020年(下图)。化学社区在引文网络中各阶段节点占比分别为16.40%、36.56%、57.61%;(c)不同阶段的社区密度分布以直方图的形式显示。直方图的颜色与引文网络中对应的学术社区颜色一致。
为了研究主题演变与社区密度之间的内在关系,本工作分析了不同阶段社区密度的演变,并选择以化学社区作为案例进行分析。图3b显示了化学社区从Tn阶段到Tn+2阶段的演变。可以发现,化学社区的节点占比在引文网络中逐渐增加,在Tn+2阶段达到最大值57.61%。这一趋势表明,化学社区已成为拉曼光谱的核心社区,并日益显示出其在应用中的重要性。通过进一步分析发现,节点占比变化和社区密度变化呈现一定的相关性。具体而言,化学社区的社区密度在Tn阶段最低为2.16,而在Tn+1跃升至峰值22.70(图3c)。社区密度的变化趋势表明,Tn+1阶段化学社区中与拉曼光谱相关的研究呈现出高度集聚特点,同时也表明这个时间段内社区内部的知识传播效率得到了显著提升。这一结果与图2所示的主题相似性及主题词变化趋势是一致的。例如,从图2c可以发现,术语“adsorption”是Tn阶段主题1_004、1_008和1_016的共同主题词,而“enhancement”是Tn+2阶段主题3_020和3_048的共同主题词。
V 主题和学术社区演变的原因
为了探究演变的原因,本工作中使用主路径分析方法去简化引文网络以发现拉曼光谱领域知识流动的核心路径(支撑材料S1.5节和S1.6节)。由于Web of Science数据库只收集了1980年以后发表的论文,而早在1928年科学家便发现了拉曼散射现象,因此为了全面展示拉曼光谱的技术发展,研究团队在图4中增加了五个节点并且按照发表年份对其进行排序,这些节点展示了1980年之前发表的里程碑式的文献。最终得到的结果如图4所示。
结合图4中的核心路径与图2的主题演变结果,本文展示了拉曼光谱的发展过程。1928年,C. V. Raman等人通过实验观察首次发现了拉曼散射现象(图4a),这一现象为拉曼光谱技术的后续发展奠定了基础。然而,在1928年至1960年间,研究人员使用光强度较差的汞弧光灯作为激发光源,导致检测到的拉曼信号较弱,影响了拉曼光谱的推广。直至1960年,T. H. Maiman等研究人员报道的红宝石激光器为拉曼光谱提供了一种具有优异相干性的激发源,显著增强了拉曼信号的强度,这才极大地推动了拉曼光谱的应用(图4b)。1974年,M. Fleischmann等人在粗糙金属上首次观察到增强拉曼散射的现象(图4c),为后续的SERS新技术奠定了基础。1977年,R P.Van Duyne等人和J. A. Creighton等人首次独立揭示了SERS机理(图4d)。1978年,M. Moskovits首次引入局部表面等离子体(LSP)去解释SERS效应(图4e),这在后来被称为电磁机制(EM)。14年后,A. Otto等人揭示,金属中电子介导的共振拉曼效应是由粗糙金属表面的电子-光子耦合增强和瞬态电荷转移到吸附物的轨道上引起的,这一过程现在被认为是化学机制(CM)。目前,人们普遍认为SERS的增强机制是EM和CM共同作用的结果。需要指出的是,在研究团队所设计的模型中,综述论文被排除在外,因为它们主要是综合现有知识,而非贡献最初的实验结果。
研究团队通过分析图4中的节点,发现这些模型筛选出的节点主要致力于解决拉曼光谱发展中的三个关键问题:一是如何拓展拉曼光谱基底和材料的通用性,使其能够广泛适用于多种场景;二是如何提升拉曼光谱的灵敏度,以便更精准地捕捉微弱信号;三是如何提高拉曼光谱的空间分辨率,从而实现对微观结构的精确识别。在20世纪80年代以前,拉曼光谱信号仅能在金、银、铜等少数金属表面检测到,这制约了拉曼光谱技术的发展。因此,探索在其他金属上进行拉曼光谱实验的可行性成为了当时亟待解决的问题。1987年,M. J. Weaver等人通过实验成功验证了“borrowing”策略(图4f)。这项研究成果在本工作构建的拉曼光谱引文网络中的权重值为1.41,表明其在相关领域具有较高的学术影响力。同一时期,田中群团队则将重心放在表面电化学粗糙化领域,并在该方向开展了一系列工作,最终成功地从Pt、Fe、Ni等几种金属中获得了原先无法通过常规方法获得的SERS信号。尽管这些研究成果已将SERS扩展至多种过渡金属,但仍有许多其他类型的非金属材料不适用于激发拉曼效应。针对这一问题,田中群团队在2010年发明了壳层隔绝纳米粒子增强拉曼光谱技术(SHINERS)(图4k)。这项工作从根本上解决了SERS基底材料和表面形貌通用性的瓶颈,促进了拉曼光谱在材料科学、食品安全和环境污染物检测领域的应用。模型分析表明,该成果的权重值高达41.80,这与该工作在发表后所引起的广泛学术关注相吻合。
图4. 通过引文网络和主路径分析确定的拉曼光谱领域的里程碑文献。图(a)-(n)中里程碑文献以节点的形式表示,包含出版年份、最后通讯作者和文献亮点。节点按发布年份排序。虚线上的节点在拉曼光谱的历史中也极为重要,但由于其出版年份在1980年之前,而本研究中的数据库未包含这些文献,因此不在引文网络中。图中缩写的对应关系:表面增强拉曼光谱(SERS)、局部表面等离子体(LSP)、核壳分离纳米粒子增强拉曼光谱(SHINERS)、针尖增强拉曼光谱(TERS)、电场(E-field)。
实现单分子检测是拉曼光谱在灵敏度方面的目标,模型从众多研究成果中确定了三篇重要论文。1997年,聂书明等人通过实验首次观察到单分子SERS现象(图4g),表明了SERS的灵敏度已经能够达到单分子水平。这项工作的权重值高达400.41,是网络中最核心的节点。至今为止,这项工作仍然是该领域的重要基石之一。1999年,M. Käll等人通过实验证明了二聚体是单分子SERS的最小单位(图4h),并解释了单分子SERS的主要机制。这项工作的权重值为36.32,其研究成果得到了广泛认可。2004年,G. C. Schatz等人探究了影响二聚体周围电场的因素(图4j),验证了银三角棱柱二聚体在单分子SERS研究中的巨大潜力。这项工作的权重值为6.56,其研究成果为后续相关研究提供了参考。单分子SERS这一有力的工具的出现对生物化学和分子生物学社区的密度产生了影响,使其从Tn阶段的0.67增加到Tn+1阶段的1.03(表S6)。
提升拉曼光谱的空间分辨率是这个领域的一个重大挑战。模型从许多相关研究成果中识别出四篇重要论文。在2000年,R. Zenobi等人通过实验首次展示了尖端增强拉曼光谱(TERS)技术(图4i),其权重值为11.16。TERS是SERS的最重要的两个变体之一,它将拉曼光谱的横向分辨率扩展至55 nm。2013年,侯建国团队实现了低温环境下空间分辨率小于1 nm的拉曼成像(图4l)。这项工作的权重值为7.05,为研究单分子尺度上的非线性光学过程提供了一种新方法。在2016年,J. J. Baumberg等人首次展示了用于SERS的微腔(图4m)。这项工作的权重值为0.96,在原子尺度的光学实验研究中具有重要意义。2020年,李剑峰等人发发现了具有~2 Å空间分辨率的分子尺(图4n)。这项工作的权重值为0.91,极大加深了研究人员对于等离激元技术中电场强度分布的理解。
VI 总结
本研究聚焦于当前文献挖掘研究中引文信息被忽视、知识图谱不完整这一问题,将引文信息融入文献挖掘模型,结合改进的主题提取模型以及引文网络分析方法,以拉曼光谱为例展示了一个研究领域的历史发展历程。实验结果表明,在BERTopic模型中融合自主设计的化学分词器后,模型在主题识别性能上优于传统LDA模型,主题一致性指标提升超100%,主题多样性指标最高提升了126%。此外,主题演化结果展示了拉曼光谱的主题分布和演化关系,突出了拉曼光谱研究的深化和扩展。不同阶段之间主题词的继承关系很好地证明了这一过程。引文分析结果不仅体现了拉曼光谱领域学术社区的分布特征,还表明学术社区的密度波动趋势与主题演变的结果相吻合。通过对主路径分析算法识别的得到的文献进行分析,发现其对应于被广泛认为是拉曼光谱领域的里程碑工作。这些工作揭示了研究趋势演变的原因,为主题演变提供了重要支持。
本工作为学科领域的文献挖掘和趋势预测提供了一个新工具,也为科研政策制定提供了数据支撑,有望推动“Science of science”研究的智能化发展,以应对更复杂的多模态科学数据分析和知识发现需求。
作者简介
关于我们
Nano-Micro Letters《纳微快报(英文)》是上海交通大学主办、在Springer Nature开放获取(open-access)出版的学术期刊,主要报道纳米/微米尺度相关的高水平文章(research article, review, communication, perspective, highlight, etc),包括微纳米材料与结构的合成表征与性能及其在能源、催化、环境、传感、电磁波吸收与屏蔽、生物医学等领域的应用研究。已被SCI、EI、PubMed、SCOPUS等数据库收录,2024 JCR IF=36.3,学科排名Q1区前2%,中国科学院期刊分区1区TOP期刊。多次荣获“中国最具国际影响力学术期刊”、“中国高校杰出科技期刊”、“上海市精品科技期刊”等荣誉,2021年荣获“中国出版政府奖期刊奖提名奖”。欢迎关注和投稿。
Web: https://springer.com/40820
E-mail: editor@nmlett.org
Tel: 021-34207624
如果文章对您有帮助,可以与别人分享!:Nano-Micro Letters » 厦大杨扬等:深度学习模型助力追踪纳米科学领域表征技术的演化过程-以拉曼光谱为例