如何利用ChatGPT进行翻译精准翻译篇基于chatGPT来做翻译,不是什么新鲜事,如果你有使用chatGPT,很可

我们需要翻译的内容是游戏内道具、物品、任务、技能、对话、背景介绍等游戏内容的文案翻译,这种翻译对于翻译质量、本地化程度都有非常高的要求,因为这已经可以定义为核心资产。基于此,我们需要对GPT有针对性的优化,才能达成我们的目的。故,本次讨论的翻译,是质量高、本地化程度高的精准翻译。

尽管我们使用了GPT,加上自己的一些优化和方法论,翻译效果有明显提升。但比较遗憾的是,我们不得不得出,目前纯机翻依然无法替代专业翻译这样子的结果。主要有以下一些问题和难点。

一、前后翻译不一致。

对于同样一个词语,在多个语料中重复出现,但GPT每次翻译都不一致。

二、翻译的准确率,怎么提升?

如果只告诉GPT你需要翻译,那么准确率其实和通用的翻译工具的准确率,没有太大差别,如何发挥出GPT的优势?

三、GPT机翻的效果,怎么快速评定?

当我们尝试使用GPT来做翻译工具,那么它翻译的结果如何?我们每次的调整,效果如何?翻译质量评定的速度,决定了你调优的速度。

1、术语

在翻译中,有个名词–【术语】,指将某个词语固定翻译成某个词。那么这里又会延伸出两个问题:

将待翻译内容,进行分词(用开源分词工具)之后,统计每个词的词频,之后将词频较高的和词语需要特殊翻译的作为术语,之后由专业翻译人员翻译成对应语言,即为术语。

这里我使用的是jieba分词:

github.com/wangbin/jiebago在大批量的翻译中,分词完定出术语表,那么这个术语表其实也挺大的,少的几百个,多的上千,取决于你的语料多少。那么,如此庞大的词库都作为提示词,在prompt中给到GPT,明显是不可行的。所以,我们采用的是,当需要翻译的语料中有出现术语表中的词语时,才将这个词语作为术语,在prompt中给到GPT。大概的形式如下:

以下为专有名词:遇到[%s]请翻译成[%s]2、上下文

由前面可知,定术语其实不是一件容易的事,需要有人工的参与。是否有其它更智能的方法来解决问题呢?答案就是上下文,事实上,不仅仅是翻译,GPT几乎所有的应用场景都可以用上下文来提升效果。

那么何为上下文呢?在中译英的翻译场景中,我举个例子吧。假设你有一批旧语料,其中有,【黄白之术】->【MidasTouch】。那么现在有一个语料:【黄白之术不是万能的,还需要一些其它的办法。】,这个怎么保证【黄白之术】按照之前的翻译结果来翻译呢?最好的方法就是通过将【黄白之术】的翻译结果当成上下文,如下:

这个翻译呢?这里就需要引入两个概念:

除了旧有已知翻译的语料可以当做上下文意外,为了保持每次翻译的前后一致,其实也可以把先机翻出来的结果,当做上下文。举个例子,如果【黄白之术1】先进行机翻被翻译成【MidasTouch1】,那么在翻译【黄白之术2】时,也可以将【黄白之术1】的翻译结果作为上下文,这样子就可以保证前后翻译一致。

3、热度/概率

如果了解GPT的基础原理,很容易就知道,GPT其实是个文本接龙游戏,它根据已有的文本,推算出下个字出现概率最大的文本集。然后再跟你传参的热度/概率:temperature或top_p从文本集中给出最终一个结果,之后,循环这个过程。

由上可知,在翻译的场景,如果想尽可能保持前后的翻译一致,以temperature为例,则是尽量低为好。推荐为0.1以下。

1、prompt优化

在所有GPT的应用场景中,大家都在说prompt优化,都知道要优化prompt。但是,很少人会告诉你,应该怎么优化,优化到什么程度,怎么验证效果。对于这个,我有以下一些方法:

大小写:\示例:【开始游戏】→【StartGame】\示例:【返回主菜单】→【ReturntoMainMenu】2、人工抽检

我们已经知道,机翻无法完全替代人工。说白了,机翻更多是提升人工翻译的效率,或者替代部分人工。那么,很容易就可以知道,由人工逐步抽检,比如先机翻出10%,然后再人工校对这10%,然后将这10%作为正确翻译语料,理论上下一次机翻,准确率是会有提升。那么就会引出一个问题,如何最大限度的,提升人工抽检之后的准确率。答案显而易见,让抽检的样本具有代表性。什么意思呢?

假设有9条待翻译语料,如上图所示。理论上来说,红色框的3条语料,如果已经人工校对过,或者说已经翻译准确,那么剩下的所有文本,则可以全部翻译正确。那么红色框中的语料,则称为具有代表性的语料。

那么,在实际的翻译场景中,我们如何实现上面的例子。其实就是将每条待翻译的语料,通过向量,查找与它相似度高的语料,最后做统计。拥有相似度高语料数的语料,则为具有代表性语料。

理论上而言,每次机翻之后都人工抽检一部分之后,得到抽检部分的正确翻译,再应用这部分正确翻译进行下一轮机翻,准确率会一直提升,直到全部翻译完成。

3、合并翻译

对于无关联的语料在进行翻译时,一般都是逐条进行翻译。而对于人物对话、背景介绍、剧情介绍这样子的内容,则最好将整段对话合并一起翻译,GPT能更好的理解前因后果,增加翻译的准确性。

在【prompt优化】部分已经提到,在对prompt进行调优时,提前将待翻译语料,进行人工翻译,得出正确翻译,再将机翻结果与正确翻译进行对比,就可以得出,promept调整是否为正向。那么,机翻结果,如何与正确翻译进行对比呢?

BLEUBLEU方法由于简单易用,已经被广泛应用于机器翻译的评测。尽管有一些已知缺陷,但经过多年发展,仍然是一种比较可靠的评测基准。

BERTscore基于BERT等预训练语言模型的BERTscore方法,利用神经网络强大的语义建模能力,能够更准确地评估翻译质量。这类预训练模型方法是当前的研究热点。

COMETCOMET方法结合多语言预训练模型与源语言文本,拟合人工评分,是当前效果最好的基于深度学习的评测模型之一。

THE END
1.ChatGPT行业报告:算力.pptx演讲人:日期:ChatGPT行业报告:算力目录引言ChatGPT行业概述算力技术发展算力在ChatGPT中应用算力市场需求与供给算力基础设施建设与运维算力成本效益及投资回报结论与展望01引言本报告旨在深入探讨ChatGPT行业中的算力问题,https://www.renrendoc.com/paper/362740549.html
2.如何利用CHATGPT分析数据快熟生成文案:无论是小红书、微博还是公众号, Chat GPT都能帮你快熟生成吸引眼球的文案,让你的创作更具有吸引力。自动撰写报告:无论是工作汇报还是项目 只需输入相关指令, Chat GPT就能为你生成结构清晰、内容肺腑的报告。Chat GPT使用技巧 1、准确提问 Chat GPT功能虽然非常强大, 但由于目前Chat GPT数据库http://www.hlwwhy.com/ask/6705610.html
3.ChatGPT原理和用法GPT3.5和GPT4的区别,一次给你讲明白1.语义理解限制:尽管ChatGPT能够理解上下文,但在某些情况下仍然存在理解限制,特别是当问题含糊不清或需要深入推理时。 2.偏差和错误:由于ChatGPT是通过大规模训练数据学习而来,它可能会反映出数据中的偏差和错误。这可能导致模型生成不准确或有偏的回答。 https://blog.csdn.net/2301_79635820/article/details/132855837
4.国产版ChatGPT大盘点:百度京东阿里腾讯那在类ChatGPT赛道上,哪些中国版的ChatGPT能快速顶上?都各有哪些困境需要突破呢?本文给诸位带来各个玩家的最新进展。 1、百度:文心一言 3月16日,百度正式推出国内首款生成式AI产品“文心一言”,可支持文学创作、文案创作、数理推算、多模态生成等功能。 https://www.shangyexinzhi.com/article/7656581.html
5.十分钟理解ChatGPT的技术逻辑及演进(前世今生)如果说 可以并行、速度更快都是技术特征,让行外人士、普罗大众还不够直观,那么从 当前ChatGPT的震憾效果就可以窥知一二。 **Transformer从根本上解决了两个关键障碍,其推出是变革性的、革命性的**。 3.5.1、摆脱了人工标注数据集(大幅降低人工数量 ) https://www.51cto.com/article/743197.html
6.五分钟带你了解ChatGPT的基本原理五分钟带你了解ChatGPT的基本原理 简介: What is LLM? LLM是大型语言模型Large Language Model的缩写,跟LLM相关的另外一个概念是NLP(Natural Language Processing自然语言处理技术的一种 )。 Nautual Language: 指的是自然形成的语言,诸如Chinese, English, etchttps://developer.aliyun.com/article/1191601
7.一天现六个国产ChatGPT大模型,“百模大战”全面开打钛媒体焦点钉钉宣布正式接入阿里巴巴“通义千问”大模型;字节跳动旗下火山引擎发布自研DPU(数据处理单元)芯片,以及发布大模型训练云平台等;金山办公宣布将推出 WPS AI,类似于基于ChatGPT技术的微软Copilot产品,金山办公CEO章庆元透露这一技术由国内企业MiniMax提供;APUS在北京推出1000亿个参数、自研多模态的天燕大模型AiLMe,以及基https://static.nfapp.southcn.com/content/202304/20/c7589252.html
8.ChatGPT介绍及国内人工智能产品介绍PPT.pptx发展历程-ChatGPT介绍ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知https://max.book118.com/html/2024/0509/8056100031006066.shtm
9.我们向百度文心一言和ChatGPT问了几个同样的问题,结果很意外ChatGPT: 作为人工智能模型,ChatGPT 和百度的文心一言都使用了深度学习算法和自然语言处理技术,可以进行自然语言的理解、生成和对话交互。它们都可以处理大量的信息和语言数据,并具备一定的智能和灵活性。然而,它们的算法和训练数据不同,所以可能有所不同。 https://www.saikr.com/a/507317
10.ChatGPT访问量下降?真相可能是它据SimilarWeb数据显示,前期ChatGPT的访问量增长率惊人,1月份的环比增长率为131.6%,2月份为62.5%,3月份为55.8%,而从4月份开始明显放缓,环比增长率为12.6%,到了5月,这个数字已经变为了2.8%。 截至6月20日,访问量比5月少了38%左右,粗略推算,到6月30日如果没有特别新的刺激,6月的环比或将下降。 https://wallstreetcn.com/articles/3691940
11.ChatGPT的背后:人工智能领域那些巧妙的算法逻辑和数学–数治网ChatGPT是最近的大热门,很多人会很好奇这背后的技术。这个领域的东西,随便聊聊都会涉及普通人比较难理解的数学、算法和逻辑,所以很多科普内容门槛太高了。 但是,也有写得特别好的。之前看过一本书叫做《你一定爱读的人工智能简史》,是由日本的人工智能先驱者,将棋AI“PONANZA”的开发者之一山本一成创作的,他以非常https://dtzed.com/?p=4226
12.通过ChatGPT实现数据整理与分析推荐使用国际直连GPT,立即访问:www.chatgp1.com 通过ChatGPT实现数据整理与分析,可以充分利用其强大的自然语言处理能力和数据生成能力,辅助用户进行数据处理和洞察提取。以下是通过ChatGPT实现数据整理与分析的步骤和方法: 一、数据收集与预处理 数据收集: https://www.729.cn/news/706.html
13.基于ChatGPT的数据权益保护问题研究科技与法OpenAI在公司官网对ChatGPT产生方法进行介绍时说,该模型是使用人类反馈强化学习训练而来,方法与InstructGPT(OpenAI开发的一种“指令生成预训练”语言模型)一致,但在数据收集设置上略有不同。我们通过监督微调的方法训练出一个初始模型:人类人工智能训练师分别扮演用户与AI助手的角色。我们允许AI训练师为模型编写建议,帮助http://www.mzyfz.com/html/1022/2023-07-06/content-1596601.html