1.本发明涉及在线翻译技术领域,尤其涉及一种在线翻译项目综合风险计算方法、装置、设备及存储介质。
背景技术:
2.随着社会和计算机的技术进步,翻译行业也在进行一系列的变革,大部分的翻译工作都在网上进行开展和完成。在线翻译项目,特别是分布式在线翻译(distributed online translation,dot),将大型翻译任务通过一定的算法逻辑拆包成很多个小的翻译任务,依次通过打标、译后翻译(post-editing,pe)、pe审核、质控流程。
3.现有技术中,在网上开展的翻译项目,总是存在一定的风险,如延期、质量问题等。为了对翻译项目进行项目管理和风险的评估和把控,在传统翻译行业里,主要以下两种方式。
4.一种是通过统计学分析方法,如层次分析法,网络层次分析法,模糊数学综合评价法等,对翻译项目进行各种因子分析,用以分析产生风险的各种因素,以便于用在后续的翻译项目种进行比较宏观的调控和管理,难易实际把控和管理翻译项目的实际进度和风险程度;
5.另一种是通过计算翻译稿件的难度,如通过统计各种翻译难度等级的文字的数量,从而计算翻译项目的风险程度。这种类别的方法相对局限于翻译稿件的句子、文本内容上,但实际情况还须考虑实际译员的翻译产能、语种、稿件大小等因素,无法更为客观的计算翻译项目的风险程度。
技术实现要素:
6.本发明提供一种在线翻译项目综合风险计算方法、装置、设备及存储介质,用以解决现有技术中翻译项目实时进度无法把控的缺陷,实现多个维度风险值和综合风险值的可靠预测。
7.本发明提供一种在线翻译项目综合风险计算方法,用于在线翻译项目的风险程度预测,包括:
8.将在线数据输入预测模型,获取预测项目耗时;
9.根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标;所述多个维度风险量化指标包括以下至少一项:语言风险量化指标;时间风险量化指标;规模风险量化指标;
10.根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标和风险等级量化指标。
11.根据本发明提供的一种在线翻译项目综合风险计算方法,所述根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标,包括:
12.在所述多个维度风险量化指标包括所述语言风险量化指标的情况下,根据所述在
线数据的语种对字段,确定所述语言风险量化指标。
13.根据本发明提供的一种在线翻译项目综合风险计算方法,所述根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标,包括:
14.在所述多个维度风险量化指标包括所述时间风险量化指标的情况下,根据所述预测项目耗时和所述限制时长,确定时间风险量化指标。
15.根据本发明提供的一种在线翻译项目综合风险计算方法,所述时间风险量化指标包括时间风险第一部分量化指标和时间风险第二部分量化指标,且上限值相同,所述时间风险第二部分指标包括限制时长;
16.所述根据所述预测项目耗时和所述限制时长,确定时间风险量化指标,包括:
17.通过所述预测模型,获取在线翻译项目的预测项目耗时x;
18.根据预测项目耗时x,计算时间风险第一部分量化指标time_risk
t1
:
19.若在线翻译项目的字数小于等于字数阈值,则按照公式(1)计算时间风险第一部分条件一值time_risk
t11
,
[0020][0021]
若在线翻译项目的字数大于字数阈值,则按照公式(2)计算时间风险第一部分条件二值time_risk
t12
,
[0022][0023]
且time_risk
t11
=time_risk
t1 or time_risk
t12
=time_risk
t1
;
[0024]
若时间风险第一部分量化指标time_risk
t1
大于上限值,则 time_risk
t1
=上限值;
[0025]
根据预测项目耗时x和限制时长x,按照公式(3)计算时间风险第二部分量化指标time_risk
t2
,
[0026][0027]
若时间风险第二部分量化指标time_risk
t2
大于上限值,则 time_risk
t2
=上限值;
[0028]
时间风险量化指标time_risk=(time_risk
t1
+time_risk
t2
)/2。
[0029]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标,包括:
[0030]
在所述多个维度风险量化指标包括所述规模风险量化指标的情况下,根据所述预测项目耗时和所述在线数据的剩余包数,确定规模风险量化指标。
[0031]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述根据所述预测项目耗时和所述在线数据的剩余包数,确定规模风险量化指标,包括:
[0032]
根据预测项目耗时和剩余包数,按照公式(4)计算规模风险量化指标scale_risk:
[0033][0034]
若规模风险量化指标scale_risk大于上限值,则scale_risk=上限值。
[0035]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述风险等级量化指标的范围为[0,a];
[0036]
所述根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标和风险等级量化指标包括:
[0037]
若语言风险量化指标lan_risk大于语言阈值,则风险等级量化指标risk_level=a-1;
[0038]
若语言风险量化指标lan_risk小于或等于语言阈值,且所述多个维度风险量化指标均小于或等于上限值且属于统一量纲,则综合风险量化指标total_risk和风险等级量化指标risk_level分别按照公式(5) 和公式(6)计算:
[0039]
total_risk=lan_risk+time_risk+scale_risk
ꢀꢀꢀ
(5);
[0040]
risk_level=total_risk/(a+1)
ꢀꢀꢀ
(6);
[0041]
其中,a为风险等级量化指标范围上限。
[0042]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述预测模型基于机器学习算法,将在线翻译项目的历史样本数据建立训练数据集,并使用所述训练数据集训练所述预测模型。
[0043]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述训练数据集包括语种对、字数、行数、打标价格、pe价格、pe审核价格、pe下单时段、截止时间时间戳、总包数和剩余包数的一种或多种。
[0044]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述预测模型的训练方法包括:
[0045]
将所述训练数据集中的语种对字段通过特征编码器转化为离散特征;
[0046]
将所述离散特征进行最大最小标准化处理;
[0047]
将经过最大最小标准化处理的所述离散特征数据,通过sklearn 包的参数优化算法,优化所述预测模型的参数,获取训练好的预测模型。
[0048]
根据本发明提供的一种在线翻译项目综合风险计算方法,所述将在线数据输入预测模型,获取预测项目耗时包括:
[0049]
使用指定请求将在线数据通过接口传入所述预测模型;
[0050]
在线数据经特征编码和统一量纲标准化处理,转化为与训练数据集量纲一致的数据作为预测模型的输入数据,获取预测项目耗时。
[0051]
本发明还提供一种在线翻译项目综合风险计算装置,包括:
[0052]
第一获取模块,用于生成并训练预测模型,且将在线数据输入预测模型后,获取预测项目耗时;
[0053]
确定模块,用于根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标;所述多个维度风险量化指标包括以下至少一项:语言风险量化指标;时间风险量化指标;规模风险量化指标;
[0054]
第二获取模块,用于根据确定模块获取的多个维度风险量化指标,获取在线翻译项目的综合风险量化指标和风险等级量化指标。
[0055]
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种所述在线翻译项目综合风险计算方法。
[0056]
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述在线翻译项目综合风险计算方法。
[0057]
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述在线翻译项目综合风险计算方法。
[0058]
本发明提供的在线翻译项目综合风险计算方法、装置、设备及存储介质,基于机器学习方法,将在线数据输入预测模型,实现dot 项目的耗时预测,从dot项目本身实时把控dot项目的进度和翻译质量;同时,通过预测项目耗时,实时计算各个维度风险值,并计算综合风险值和风险等级,从整体上对在线翻译项目的风险程度进行实时把控,结果准确、客观、可靠。
附图说明
[0059]
为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0060]
图1是本发明提供的在线翻译项目综合风险计算方法的流程示意图;
[0061]
图2是本发明提供的综合风险的架构示意图;
[0062]
图3是本发明提供的训练数据集的字段类别示意图;
[0063]
图4是本发明提供的在线翻译项目综合风险计算方法的时间风险的计算流程示意图;
[0064]
图5是本发明提供的在线翻译项目综合风险计算方法的规模风险的计算流程示意图;
[0065]
图6是本发明提供的在线翻译项目综合风险计算装置的结构示意图;
[0066]
图7是本发明提供的电子设备的结构示意图。
具体实施方式
[0067]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0068]
下面结合图1-图5描述本发明的在线翻译项目综合风险计算方法。
[0069]
图1为本发明提供的一种在线翻译项目综合风险计算方法的流程示意图,如图1所示,一种在线翻译项目综合风险计算方法,
[0070]
本发明提供一种在线翻译项目综合风险计算方法,用于在线翻译项目的风险程度
预测,包括:
[0071]
步骤110,将在线数据输入预测模型,获取预测项目耗时。
[0072]
可选地,预测模型基于机器学习算法,将在线翻译项目的历史样本数据建立训练数据集,并使用训练数据集训练预测模型。
[0073]
可选地,图3为本发明提供的训练数据集的字段类别示意图。如图3所示,训练数据集包括语种对,示例地,en-》zh-cn表示为英文到简体中文、字数、行数、打标价格,单位为元/千字、pe(post-editing,简称pe)价格,单位为元/千字、pe审核价格,单位为元/千字,pe 审核为对pe的内容进行审核、pe下单时段,示例地,共计24个时段,0-1为时间段0、截止时间时间戳、总包数和剩余包数的一种或多种。
[0074]
可选地,预测模型的训练方法包括:
[0075]
将训练数据集中的语种对字段通过特征编码器(labelencoder) 转化为离散特征;
[0076]
将离散特征进行最大最小标准化处理,转化为统一量纲,实现数据标准化,并提高预测模型准确率和可靠性;
[0077]
将经过最大最小标准化处理的离散特征数据,通过sklearn包的参数优化算法,优化预测模型的参数,获取训练好的预测模型。
[0078]
sklearn包为开源的基于python语言的机器学习工具包,涵盖了大多数主流机器学习算法。可选地,sklearn包内常用模块包括分类模块,包括但不限于支持向量机分类算法、最近邻算法、随机森林分类算法;回归模块,包括但不限于支持向量机回归算法、岭回归算法、 lasso算法;聚类模块,如k-means算法、mean-shift算法;降维模块,包括但不限于pca主成分分析算法、特征选择算法、非负矩阵分解算法;模型选择模块,包括但不限于网格搜索算法、交叉验证算法;预处理模块,包括但不限于特征提取和归一化。参数优化算法包括但不限于网格搜索算法。
[0079]
可选地,将在线数据输入预测模型,获取预测项目耗时包括:
[0080]
本技术通过提供接口的方式提供计算服务,调用方使用指定请求 url将在线数据通过接口传入预测模型。在线数据包含字段与训练数据集包含字段相同;
[0081]
在线数据经特征编码和统一量纲标准化处理,转化为与训练数据集量纲一致的数据作为预测模型的输入数据,获取预测项目耗时。其中,标准化处理包括但不限于最大最小标准化处理。
[0082]
如图1所示,步骤120,根据在线数据、限制时长和预测项目耗时,确定多个维度风险量化指标;如图2所示,多个维度风险量化指标包括以下至少一项:语言风险量化指标lan_risk;时间风险量化指标time_risk;规模风险量化指标scale_risk。
[0083]
根据在线数据、限制时长和预测项目耗时,确定多个维度风险量化指标,包括:
[0084]
在多个维度风险量化指标包括语言风险量化指标lan_risk的情况下,根据在线数据的语种对字段,确定语言风险量化指标lan_risk。
[0085]
可选地,将历史训练数据进行分语种统计分析,并以订单次数作为依据,建立语言风险模型。将在线数据的语种对字段输入语言风险模型,获得语言风险量化指标lan_risk,且订单次数与语言风险量化指标呈负相关,即相应语种的订单越少,语言风险量化指标lan_risk 越高,且语言风险量化指标lan_risk的上限值为10。示例地,中文风险值为0,英
文风险值为5,日文风险值为5,德文风险值为6,法文风险值为6,西班牙语风险值为7,意大利语风险值为7,俄语风险值为8,韩语风险值为8,剩余其他语种风险值为10。
[0086]
根据在线数据、限制时长和预测项目耗时,确定多个维度风险量化指标,包括:
[0087]
在多个维度风险量化指标包括时间风险量化指标time_risk的情况下,根据预测项目耗时和限制时长,确定时间风险量化指标 time_risk。
[0088]
可选地,图4是本发明提供的在线翻译项目综合风险计算方法的时间风险的计算流程示意图。如图4所示,时间风险量化指标time_risk 的计算方法包括:
[0089]
通过预测模型,获取在线翻译项目的预测项目耗时x;
[0090]
根据预测项目耗时x,计算时间风险第一部分量化指标time_risk
t1
。
[0091]
若在线翻译项目的字数小于等于字数阈值,则按照公式(1)计算时间风险第一部分条件一值time_risk
t11
,
[0092][0093]
若在线翻译项目的字数大于字数阈值,则按照公式(2)计算时间风险第一部分条件二值time_risk
t12
,
[0094][0095]
且time_risk
t11
=time_risk
t1 or time_risk
t12
=time_risk
t1
;
[0096]
若时间风险第一部分量化指标time_risk
t1
大于上限值,则 time_risk
t1
=上限值。
[0097]
根据预测项目耗时x和限制时长x,按照公式(3)计算时间风险第二部分量化指标time_risk
t2
,
[0098][0099]
若时间风险第二部分量化指标time_risk
t2
大于上限值,则 time_risk
t2
=上限值。
[0100]
时间风险量化指标time_risk=(time_risk
t1
+time_risk
t2
)/2。时间风险第一部分量化指标time_risk
t1
、时间风险第二部分量化指标 time_risk
t2
和时间风险量化指标time_risk的上限值均为10。
[0101]
可选地,图5是本发明提供的在线翻译项目综合风险计算方法的规模风险的计算流程示意图。如图5所示,规模风险量化指标 scale_risk的获取方法包括:
[0102]
根据预测项目耗时和剩余包数,按照公式(4)计算规模风险量化指标scale_risk,
[0103][0104]
若规模风险量化指标scale_risk大于上限值,则scale_risk=上限值。规模风险量化指标scale_risk的上限值为10。
[0105]
步骤130,根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标total_risk和风险等级量化指标risk_level。示例地,根据语言风险量化指标lan_risk、时间风险量化指标time_risk、规模风险量化指标scale_risk,确定在线翻译项目综合风险量化指标total_risk 和风险等级量化指标risk_level。
[0106]
为便于使用和理解,将综合风险量化指标转化为风险等级量化指标risk_level,可选地,风险等级量化指标risk_level分为0至5共计六档,其中,0档和1档为低风险,2档和3档为中风险,4档和5 档为高风险。
[0107]
综合风险量化指标total_risk及风险等级量化指标risk_level计算方法包括以下步骤:
[0108]
s41、若语言风险量化指标lan_risk大于语言阈值,则风险等级量化指标risk_level=a-1。示例地:语言阈值设定为5,风险等级量化指标risk_level范围上限a为5,若在线翻译项目的语言风险量化指标 lan_risk》5,即该项目的语种非中英日语,风险等级量化指标risk_level 强制设定为4。
[0109]
s42、若语言风险量化指标lan_risk小于等于语言阈值,且三种风险量化指标均小于等于上限值且属于统一量纲,则综合风险量化指标total_risk按照公式(5)计算,
[0110]
total_risk=lan_risk+time_risk+scale_risk
ꢀꢀꢀ
(5);
[0111]
由于综合风险范围为[0,30],风险等级量化指标risk_level范围为[0,5]共计六档,因此,按照公式(6)计算风险等级量化指标 risk_level,
[0112]
risk_level=total_risk/(a+1)
ꢀꢀꢀ
(6);
[0113]
其中,a为风险等级量化指标risk_level范围上限,即a=5。
[0114]
本发明基于机器学习方法,训练并优化预测模型,将在线数据输入预测模型,实现dot项目的耗时预测,从dot项目本身分析产生风险的各种因素,实时且比较宏观的把控dot项目的翻译质量和实际进度,且预测结果基于历史训练数据,结果准确、客观、可靠。同时,分别从语言风险量化指标lan_risk、时间风险量化指标time_risk 和规模风险量化指标scale_risk中的至少一个维度,计算翻译项目的风险程度,并统计整个翻译项目的综合风险量化指标total_risk和风险等级量化指标risk_level,从整体上实时把控翻译项目的进度。
[0115]
本发明提供了一种在线翻译项目综合风险计算装置,图6为本发明提供的在线翻译项目综合风险计算装置的结构示意图。如图6所示,在线翻译项目综合风险计算装置200包括:第一获取模块201、确定模块202和第二获取模块203,其中:
[0116]
第一获取模块201,用于生成并训练预测模型,且将在线数据输入预测模型后,获取预测项目耗时;
[0117]
确定模块202,用于根据在线数据、限制时长和预测项目耗时,确定多个维度风险量化指标;多个维度风险量化指标包括以下至少一项:语言风险量化指标;时间风险量化指标;规模风险量化指标;
[0118]
第二获取模块203,用于根据确定模块202获取的多个维度风险量化指标,获取在线翻译项目的综合风险量化指标total_risk和风险等级量化指标risk_level。
[0119]
可选地,第一获取模块201,具体用于:基于机器学习算法,将在线翻译项目的历史样本数据建立训练数据集,并使用训练数据集训练预测模型。
[0120]
可选地,第一获取模块201,具体用于:
[0121]
将训练数据集中的语种对字段通过标签编码器转化为标签;
[0122]
将标签进行最大最小标准化处理;
[0123]
将经过最大最小标准化处理的标签数据,通过sklearn包的参数优化算法,优化预测模型的参数,获取训练好的预测模型。
[0124]
可选地,第一获取模块201,具体用于:
[0125]
使用指定请求将在线数据通过接口传入预测模型;
[0126]
在线数据经特征编码和统一量纲标准化处理,转化为与训练数据集量纲一致的数据作为预测模型的输入数据,获取预测项目耗时。
[0127]
可选地,确定模块202,具体用于:
[0128]
在多个维度风险量化指标包括语言风险量化指标的情况下,根据在线数据的语种字段,确定语言风险量化指标。
[0129]
可选地,确定模块202,具体用于:
[0130]
在多个维度风险量化指标包括时间风险量化指标的情况下,根据预测项目耗时和限制时长,确定时间风险量化指标。
[0131]
时间风险量化指标包括时间风险第一部分量化指标和时间风险第二部分量化指标,且上限值相同,时间风险第二部分指标包括限制时长,具体包括:
[0132]
通过预测模型,获取在线翻译项目的预测项目耗时x;
[0133]
根据预测项目耗时x,计算时间风险第一部分量化指标time_risk
t1
:
[0134]
若在线翻译项目的字数小于等于字数阈值,则按照公式(1)计算时间风险第一部分条件一值time_risk
t11
,
[0135][0136]
若在线翻译项目的字数大于字数阈值,则按照公式(2)计算时间风险第一部分条件二值time_risk
t12
,
[0137][0138]
且time_risk
t11
=time_risk
t1 or time_risk
t12
=time_risk
t1
;
[0139]
若时间风险第一部分量化指标time_risk
t1
大于上限值,则 time_risk
t1
=上限值;
[0140]
根据预测项目耗时x和限制时长x,按照公式(3)计算时间风险第二部分量化指标time_risk
t2
,
[0141][0142]
若时间风险第二部分量化指标time_risk
t2
大于上限值,则 time_risk
t2
=上限值;
[0143]
时间风险量化指标time_risk=(time_risk
t1
+time_risk
t2
)/2。
[0144]
可选地,确定模块202,具体用于:
[0145]
在多个维度风险量化指标包括规模风险量化指标的情况下,根据预测项目耗时和在线数据的剩余包数,确定规模风险量化指标。
[0146]
具体地,根据预测项目耗时和剩余包数,按照公式(4)计算规模风险量化指标scale_risk:
[0147][0148]
若规模风险量化指标scale_risk大于上限值,则scale_risk=上限值。
[0149]
可选地,第二获取模块203,具体用于:
[0150]
风险等级量化指标的范围为[0,a];
[0151]
若语言风险量化指标lan_risk大于语言阈值,则风险等级量化指标risk_level=a-1;
[0152]
若语言风险量化指标lan_risk小于或等于语言阈值,且所述多个维度风险量化指标均小于或等于上限值且属于统一量纲,则综合风险量化指标total_risk和风险等级量化指标risk_level分别按照公式(5) 和公式(6)计算,
[0153]
total_risk=lan_risk+time_risk+scale_risk
ꢀꢀꢀ
(5);
[0154]
risk_level=total_risk/(a+1)
ꢀꢀꢀ
(6);
[0155]
其中,a为风险等级量化指标范围上限。
[0156]
本发明提供的在线翻译项目综合风险计算装置,基于机器学习方法,预先训练预测模型且建立多个维度风险模型,将在线数据输入预测模型,实现dot项目的耗时预测,从dot项目本身实时把控dot 项目的进度和翻译质量;同时,通过预测项目耗时、限制时长和在线数据,通过多个维度风险模型,实时计算各个维度风险值,并计算综合风险值和风险等级,从整体上对在线翻译项目的风险程度进行实时把控,结果准确、客观、可靠。
[0157]
本发明提供了一种电子设备,图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行在线翻译项目综合风险计算方法,该方法包括:
[0158]
将在线数据输入预测模型,获取预测项目耗时;
[0159]
根据在线数据、限制时长和所述预测项目耗时,建立多个维度风险模型,获取多个维度风险量化指标,包括语言风险量化指标lan_risk、时间风险量化指标time_risk、规模风险量化指标scale_risk,其中:根据在线数据的语种字段确定语言风险量化指标lan_risk,根据所述预测项目耗时和限制时长确定时间风险量化指标time_risk,根据所述预测项目耗时和在线数据的剩余包数确定规模风险量化指标 scale_risk;
[0160]
根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标total_risk和风险等级量化指标risk_level。
[0161]
此外,上述的存储器310中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0162]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的在线翻译项目综合风险计算方法,该方法包括:
[0163]
将在线数据输入预测模型,获取预测项目耗时;
[0164]
根据在线数据、限制时长和所述预测项目耗时,建立多个维度风险模型,获取多个维度风险量化指标,包括语言风险量化指标lan_risk、时间风险量化指标time_risk、规模风险量化指标scale_risk,其中:根据在线数据的语种字段确定语言风险量化指标lan_risk,根据所述预测项目耗时和限制时长确定时间风险量化指标time_risk,根据所述预测项目耗时和在线数据的剩余包数确定规模风险量化指标 scale_risk;
[0165]
根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标total_risk和风险等级量化指标risk_level。
[0166]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的在线翻译项目综合风险计算方法,该方法包括:
[0167]
将在线数据输入预测模型,获取预测项目耗时;
[0168]
根据在线数据、限制时长和所述预测项目耗时,建立多个维度风险模型,获取多个维度风险量化指标,包括语言风险量化指标lan_risk、时间风险量化指标time_risk、规模风险量化指标scale_risk,其中:根据在线数据的语种字段确定语言风险量化指标lan_risk,根据所述预测项目耗时和限制时长确定时间风险量化指标time_risk,根据所述预测项目耗时和在线数据的剩余包数确定规模风险量化指标 scale_risk;
[0169]
根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标total_risk和风险等级量化指标risk_level。
[0170]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0171]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0172]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种在线翻译项目综合风险计算方法,用于在线翻译项目的风险程度预测,其特征在于,包括:将在线数据输入预测模型,获取预测项目耗时;根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标;所述多个维度风险量化指标包括以下至少一项:语言风险量化指标;时间风险量化指标;规模风险量化指标;根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标和风险等级量化指标。2.根据权利要求1所述的在线翻译项目综合风险计算方法,其特征在于,所述根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标,包括:在所述多个维度风险量化指标包括所述语言风险量化指标的情况下,根据所述在线数据的语种对字段,确定所述语言风险量化指标。3.根据权利要求1所述的在线翻译项目综合风险计算方法,其特征在于,所述根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标,包括:在所述多个维度风险量化指标包括所述时间风险量化指标的情况下,根据所述预测项目耗时和所述限制时长,确定时间风险量化指标。4.根据权利要求3所述的在线翻译项目综合风险计算方法,其特征在于,所述时间风险量化指标包括时间风险第一部分量化指标和时间风险第二部分量化指标,且上限值相同,所述时间风险第二部分指标包括限制时长;所述根据所述预测项目耗时和所述限制时长,确定时间风险量化指标,包括:通过所述预测模型,获取在线翻译项目的预测项目耗时x;根据预测项目耗时x,计算时间风险第一部分量化指标time_risk
t1
:若在线翻译项目的字数小于等于字数阈值,则按照公式(1)计算时间风险第一部分条件一值time_risk
t11
,若在线翻译项目的字数大于字数阈值,则按照公式(2)计算时间风险第一部分条件二值time_risk
t12
,且time_risk
t11
=time_risk
t1 or time_risk
t12
=time_risk
t1
;若时间风险第一部分量化指标time_risk
t1
大于上限值,则time_risk
t1
=上限值;根据预测项目耗时x和限制时长x,按照公式(3)计算时间风险第二部分量化指标time_risk
t2
,若时间风险第二部分量化指标time_risk
t2
大于上限值,则time_risk
t2
=上限值;
时间风险量化指标time_risk=(time_risk
t1
+time_risk
t2
)/2。5.根据权利要求1所述的在线翻译项目综合风险计算方法,其特征在于,所述根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标,包括:在所述多个维度风险量化指标包括所述规模风险量化指标的情况下,根据所述预测项目耗时和所述在线数据的剩余包数,确定规模风险量化指标。6.根据权利要求5所述的在线翻译项目综合风险计算方法,其特征在于,所述根据所述预测项目耗时和所述在线数据的剩余包数,确定规模风险量化指标,包括:根据预测项目耗时和剩余包数,按照公式(4)计算规模风险量化指标scale_risk:若规模风险量化指标scale_risk大于上限值,则scale_risk=上限值。7.根据权利要求4至6中任一项所述的在线翻译项目综合风险计算方法,其特征在于,所述风险等级量化指标的范围为[0,a];所述根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标和风险等级量化指标包括:若语言风险量化指标lan_risk大于语言阈值,则风险等级量化指标risk_level=a-1;若语言风险量化指标lan_risk小于或等于语言阈值,且所述多个维度风险量化指标均小于或等于上限值且属于统一量纲,则综合风险量化指标total_risk和风险等级量化指标risk_level分别按照公式(5)和公式(6)计算:total_risk=lan_risk+time_risk+scale_risk
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5);risk_level=total_risk/(a+1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);其中,a为风险等级量化指标范围上限。8.根据权利要求1所述的在线翻译项目综合风险计算方法,其特征在于,所述预测模型基于机器学习算法,将在线翻译项目的历史样本数据建立训练数据集,并使用所述训练数据集训练所述预测模型。9.根据权利要求8所述的在线翻译项目综合风险计算方法,其特征在于,所述训练数据集包括语种对、字数、行数、打标价格、pe价格、pe审核价格、pe下单时段、截止时间时间戳、总包数和剩余包数的一种或多种。10.根据权利要求8或9所述的在线翻译项目综合风险计算方法,其特征在于,所述预测模型的训练方法包括:将所述训练数据集中的语种对字段通过特征编码器转化为离散特征;将所述离散特征进行最大最小标准化处理;将经过最大最小标准化处理的所述离散特征数据,通过sklearn包的参数优化算法,优化所述预测模型的参数,获取训练好的预测模型。11.根据权利要求10所述的在线翻译项目综合风险计算方法,其特征在于,所述将在线数据输入预测模型,获取预测项目耗时包括:使用指定请求将在线数据通过接口传入所述预测模型;在线数据经特征编码和统一量纲标准化处理,转化为与训练数据集量纲一致的数据作
为预测模型的输入数据,获取预测项目耗时。12.一种在线翻译项目综合风险计算装置,其特征在于,包括:第一获取模块,用于生成并训练预测模型,且将在线数据输入预测模型后,获取预测项目耗时;确定模块,用于根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标;所述多个维度风险量化指标包括以下至少一项:语言风险量化指标;时间风险量化指标;规模风险量化指标;第二获取模块,用于根据确定模块获取的多个维度风险量化指标,获取在线翻译项目的综合风险量化指标和风险等级量化指标。13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至11任一项所述在线翻译项目综合风险计算方法。14.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述在线翻译项目综合风险计算方法。15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述在线翻译项目综合风险计算方法。
技术总结
本发明提供一种在线翻译项目综合风险计算方法、装置、设备及存储介质,包括:将在线数据输入预测模型,获取预测项目耗时;根据在线数据、限制时长和所述预测项目耗时,确定多个维度风险量化指标;所述多个维度风险量化指标包括以下至少一项:语言风险量化指标;时间风险量化指标;规模风险量化指标;根据多个维度风险量化指标,确定在线翻译项目综合风险量化指标和风险等级量化指标。本发明可实时把控翻译项目的进度和质量,实现多个维度风险值和综合风险值的可靠预测。合风险值的可靠预测。合风险值的可靠预测。
技术研发人员:涂洋
受保护的技术使用者:语联网(武汉)信息技术有限公司
技术研发日:2022.03.07
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-24261.html