九九文秘网 - www.nagforex.cn 2024年06月17日 19:23 星期一
  • 热门搜索:
  • 当前位置 首页 >专题范文 > 公文范文 >

    基于K-means算法的科技事件影响力评估研究

    来源:网友投稿 发布时间:2022-10-28 08:12:02


    打开文本图片集

    摘   要:科技事件作为科技发展的产物,对其影响力进行评估,可以对预测新兴科技事件的发展走向、相关部门配置科技资源、科教机构进行科普教育选取事件提供重要参考。当今市场上存在的对科技事件影响力评估的方法具有应用场景局限、评价结果受人为主观影响较大等不足。文章提出一种新的评估方法,利用各大搜索引擎产生的海量数据,结合机器学习中的K-means算法,对科技事件的影响力进行评估。弥补了当前已存在方法对科技事件影响力进行评估的局限,解决了如何基于当前时代产生的大量数据对科技事件做出一个较为客观准确的评估结果这一问题。

    关键词:科技事件;影响力评估;K-means;搜索引擎

    1    相关工作

    在漫长的科技发展史中,每一个科技发现与创新事件背后往往包含着大量的信息,包括时空属性、不同事件之间的互相联系、引起的社会讨论热度等。对科技事件在一段时间内的影响力进行评估,不仅可以对科技事件的发展走向进行预测、规划,还可以为相关部门制定科技政策、配置科技资源、和进行科普教育提供重要参考。研究表明,对于科技事件影响力评价方法,目前普遍从定性评价和定量评价两个角度进行。定性评价方法[1]主要包括同行评议法和案例与回溯评价法,定量评价方法主要包括文献计量法和经济计量评价法。沈利华等[2]认为,同行评议法已经被各国广泛应用,可以作为鉴定科研成果的重要评价手段。但是有很多弊端,如难以支持创新,难以对科技成果保密,评议专家的主观倾向性占比太大等。案例与回溯评价方法[3]是对关键事件或典型案例进行回顾和分析,分析导致该事件发生的内外部因素,而非事件本身的影响力。赵丹等[4]则认为,可以利用科技事件产出的文献计量指标的定量数据,采用数学和统计学方法,对科学活动规律及其影响进行研究与分析,即文献计量评价法。文献计量评价方法[5]具有统计学意义上的合理性和可信度,但存在指标单一、学科间不可比较、科学价值不可表征等局限性。而经济计量评价法局限于开发类科技活动的评价,不适于基础类、应用类的科技事件。可以看出,以上几种对科技事件的评价方法应用场景局限,无法通过一种方法较好的评价不同领域内科技事件的影响力,并且缺乏数据支撑,客观性不足。

    本文提出一种新的对科技事件影响力的评估方法,首先,选取分属不同学科的科技事件,搜集其在百度、谷歌、知网等搜索引擎中的数据,分析其数据特征。其次,通过咨询领域内专家及社会公识度调查的方式,确定科技事件影响力的级别数量。最后,利用机器学习算法中的K-means算法,根据事件不同的数据特征,将不同影响力的科技事件聚入不同的类别,完成对科技事件影响力的评估。该方法具有海量的搜索引擎数据支撑,因此,评估结果相比于前文提及的几种方式更为客观合理,应用场景更为宽阔。

    2    数据的获取与处理

    2.1  特征选择

    科技事件具有非常多的属性,例如:名称,被发明或被发现时间,发明人或是发现人,事件内容,事件在网络上的搜索指数,事件的相关论文数量等,不同的属性可以形成不同的特征数据。建立一个利用数据评估科技事件影响力的数学模型,首先需要选取合适的特征数据。在科技事件的属性中,能较为直观地反映一个科技事件影响力的是该事件在网络上的搜索指数。同一搜索引擎,产生较多搜索结果的科技事件在一定程度上比產生较少搜索结果的科技事件影响力大。但是使用单一的搜索指数来对科技事件影响力进行评价,会存在一定的局限,因为一个科技事件在网络上的搜索指数,反应的更多地是该事件在社会大众中的影响力,而现实中存在一个科技事件影响了很多科技事件的诞生,但是这一科技事件在大众间的传播及影响力不大的情况。因此,为了使评估结果更为客观合理,还应该考虑科技事件在科学领域的影响力。

    本文通过扩宽特征数据选择面和加深特征数据提取两个途径,来增加评估结果的客观性。扩宽特征数据选择面,通过增加知网相关论文数量和谷歌学术相关数据这两维特征数据实现。一个科技事件的影响力不仅包含在媒体大众间的影响,也包含在科技工作者间的影响,一个科技事件的影响力大,大概率能得到相关研究论文数量多的结果,因此,科技事件相关论文数量的多少,也将作为本模型的一个特征数据。加深特征数据提取是指,选用多种主流搜索引擎的数据,减少因为搜索引擎用户少而引起的误差和偶然性。主流搜索引擎的数据中,我们选用了百度搜索结果数、谷歌搜索结果数、百度搜索指数和媒体指数这4个数据。理由如下。(1)百度作为国内最主要的搜索引擎,搜索结果数据是建立在国内大量用户的搜索之上,具有误差小、总量大的特征。百度搜索结果数,能够反映科技与创新事件在国人中的影响力。(2)谷歌是全球除中国以外其他地区的主要搜索引擎,谷歌搜索结果数,具有能够反映科技事件在全球其他地区影响力的特征。(3)百度搜索和媒体指数,分为PC端和移动端,根据当前互联网在移动端的发展趋势,我们将移动端的数据也纳入了考虑。

    2.2  数据清洗及标准化处理

    本实验按照信息、交通、医药、农林、机械、化工6个学科分别挑选出了120个该学科领域内具有象征意义的科技事件,爬取了这些事件从2011~2018年每个月的百度搜索指数和媒体指数、百度搜索结果数、谷歌搜索结果数、谷歌学术和知网相关论文数。

    爬取的原始数据的数量级和量纲并不相同,如果直接使用原始数据进行科技事件影响力的评估,数量级和量纲对最终结果的影响会远远大于数据本身的影响,产生的误差较大。此外,部分科技事件的数据存在有缺失值的情况。因此,需要通过数据清洗和数据标准化处理,使不同的特征数据具有相同的尺度。

    在实际实验中,有28个科技事件的数据缺失了百度搜索结果数,有32个科技事件缺失了谷歌搜索结果数,有53个数据缺少百度搜索指数或媒体指数。对缺失数据的事件,首先通过人工核查它们的官方命名,并进行查找,对能获取的数据进行添加。人工查找之后依然缺失数据的事件,选择了新的科技事件进行代替。

    本文通过离差标准化和降维处理这两种方式使数据的量纲在同一维度上。首先,对百度的搜索指数与媒体指数进行降维处理,这两个数据都是以月为单位,具有数据量较大且数值较低的特征。因此,计算出百度搜索指数与百度媒体指数每年的平均值与方差来代替初始数值,可以实现将数据从84维降到7维。然后,将得到的平均值与方差与原数据集中的其他数据进行合并,形成新的数据集。随后,再对新数据集进行离差标准化处理[6],离差标准化是对原始数据进行线性变换,同时保持原始数据之间联系的一种方法,该方法能使其标准化的数值落到[0,1]区间。转换函数为公式(1):

    其中x为当前事件的观察值,max为当前事件数据样本的最大值,min为最小值,x"为离差标准化计算出的结果。

    3    评估模型的选择与参数的确定

    K-means算法[7]是机器学习中一种无监督聚类算法,处理数据对象没有任何先验知识,完全根据数据特征,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇,避免了人为主观因素的误差。

    在K-means的聚类过程中[8],确定初始类簇中心的个数对聚類的稳定性有着十分重要的影响。文章通过社会共识度调查和咨询领域类专家两条途径,确定了该实验中初始的类簇中心值为5。之后,将所有的科技事件放入一个空间G中,每一个事件看作一个基本点Vi,知网的相关论文数x、科技事件在各大搜索引擎中的数据y(i,m)这两个特征,构成了它的权值。即公式(2):

    其中,n表示空间中所有事件的总数。

    通过公式(3)计算各个数据对象到类簇中心的距离d,把数据对象划分至距离其最近的聚类中心所在类簇中:

    其中,n为科技事件特征的维度,Xi,Yi为事件X与事件Y的第i维特征。接着根据所得类簇,更新类簇中心,再次计算各个数据对象到聚类中心的距离,把数据对象划分至距离其最近的聚类中心所在类簇中……一直迭代,直到两次迭代的差值J小于某一阈值时,迭代终止,得到最终聚类结果。其中,J值的求解采用误差平方和准则函数,该函数的计算方法如下:

    其中,K表示类簇个数,xi表示事件在空间中的位置,Ck表示类簇中心的位置。

    4    实验结果及分析

    本文选取了信息领域内160个科技事件进行实验,实验在Lenovo-Air-13-Pro PC上运行,代码用Python3.7实现,运行于Windows10操作系统之上。实验分为两部分,第1部分分别评估科技事件在科技领域的影响力和在社会领域的影响力,第2部分将两个领域的影响力进行融合,对综合影响力进行了评估,部分实验结果如图1—2所示。

    从图1和图2可以得出以下结论。

    (1)通过本文的评估方式,得出科技事件影响力的结果基本符合大众的认知,例如,安卓、人工智能等科技事件的影响力属于较高的类别。论证了本方法的客观合理性。

    (2)一个科技事件在科技领域的影响力不一定等于在社会领域的影响力,存在部分科技事件在科技领域的影响力较大但在社会领域内影响力不大的情况,例如频分复用技术是信息领域非常重要的一项技术,但是在社会大众间的影响力却有限,推测是因为非该领域内的人员很少去了解一个学科的专业名词。

    (3)科技领域影响力高的事件具有的特点是具体的学科名词或较大的概念,例如无线传感器网络、GPS。社会领域影响力的高低取决于该科技事件与生产生活的关联,例如智能家居、5G等事件。

    (4)科技事件的影响力会存在时间的影响,近年来互联网的快速发展,导致新兴科技事件影响力普遍较高。

    5    结语

    本文提出了一种基于K-means算法评价科技事件影响力的方法,通过科技事件的相关搜索引擎数据来对一个科技事件进行大致的影响力评估。弥补了从社会学角度对科技事件影响力进行评估的局限,解决了如何基于当前时代产生的大量数据,对科技事件做出一个较为客观准确的评估结果这一问题。通过对实验结果的分析,我们可以看出,本实验的评估结果基本符合社会的普遍认知,但是也存在数据来源有限、特征数据维度较少等不足,存在某些领域内很重要的科技事件,由于本身的一些特性,难以获得与其重要性相匹配的搜索信息,导致评估值略有出入的情况。在今后的研究中,可以通过调整参数组合,增加特征数据维度等方式,达到更好的评估效果。作者简介:毛凯(1998— ),男,重庆人,本科生;研究方向:机器学习。

    [参考文献]

    [1]廖燕玲,孙绍荣.基于专家可信度的同行评议法[J].科学学研究(增刊),2003(12):21.

    [2]沈利华,缪家鼎,陈国钢,等.“客观同行评议”方法探索性研究:一种基于引文分析法的学术论文影响力评价方法[J].图书情报工作,2012(18):144-148.

    [3]王贤慧,袁军鹏.一种面向社会关系的同行评议方法[J].科技管理研究,2017(23):120-122.

    [4]赵丹,汪晰巍,李嘉兴,等.国内外大数据工具学术论文比较研究—基于文献计量方法[J].情报科学,2016(6):34.

    [5]朱亮,孟宪学.文献计量法与内容分析法比较研究[J].信息组织,2016(3):34-36.

    [6]熊霖,唐万梅.基于K-means++的多分类器选择分类研究[J].重庆师范大学学报(自然科学版),2018(3):20-22.

    [7]王梦珍,刘立,张惠慧.基于K-means的乳腺肿块检测方法[J].Medical Electronics,2013(11):20-22.

    [8]MCLAUGHLIN L.Automated programming the next wave of developer power tools[J].Journal of the ACM, 2003(1):41-57.

    Abstract:As a result of the development of science and technology, science and technology events can be used to evaluate the influence of science and technology. It can provide an important reference for the prediction of the development trend of the emerging science and technology events, the configuration of scientific and technological resources in the relevant departments, and the selection of science education by the science and education institutions. The method for evaluating the influence of the science and technology events on the market has the limitation of the application scene, and the result of the evaluation is less influenced by man-made subjective influence. In this paper, a new method of evaluation is proposed, and the influence of the science and technology events is evaluated by using the mass data generated by the search engines and combining with the K-means algorithm in the machine learning. to make up for the existing method to the science and technology. The limitation of the evaluation of the influence of the item has solved the problem of how to make an objective and accurate evaluation result of the science and technology event based on the large amount of data produced in the present era.

    Key words:scientific and technological events; influence assessment; K-means; search engine

    推荐访问:算法 影响力 评估 事件 研究

    Top