这期我们来看看聊天机器人实测情况。我们主要从语言理解、完成任务、常识问题、逻辑数学、代码能力这五方面考验一下机器人。
(因为Claude有的时候不会使用中文回答,所以测试会使用自动翻译显示内容或许不准确或有出入。)
关键内容总结生成:美联储会议纪要总结
从ChatGPT4.0生成的第一段话中,我们就可以发现它在第一个问题就已经开始编造一些内容从而完整地回复问题。他编造了2023年七月是疫情后第一次加息,然而这是错误的,这就是他显著的一个弊端,学习的内容截止于2021年9月前。当然,除此之外,他还是表现出了他的优势,他确实有条理地给出了许多正确的有关于可能的加息原因的观点。所以,他还是能给用户提供了些许写作的灵感的。
与空气的摩擦是造成流星和航天器在天空中燃烧和解体的原因,请问是正确的吗?
在这个问题中,虽然所有的机器人给出的第一答案都是不一样的,有完全正确和不完全正确,但是大差不差,都是往正确的方向行走的。其中,Claude2,通义千问都给出了不完全正确的答案而ChatGPT给出了这是正确的。这应该是基于提示词的理解。问题中只有询问了这是不是个正确的想法,ChatGPT回答了‘正确’并给出了他的解释,相反通义千问和Claude“不完全正确”可能是多少过度解读了提示词,所以他们在提示词的基础上延伸出了更多流星和航天器在大气层中燃烧的原因。所以,我觉得他们这一轮回答各有优势,内容都是对的但是理解的能力却不一样,他们不相上下。
从这个脑筋急转弯的问题里我们可以看出来,所有的聊天机器人们都走进了一个误点便是默认了船会沉,所以他们都计算出了不同的答案。若船会沉,便只有ChatGPT4与Claude2回答出了正确答案。但基于这是个脑筋急转弯,随着水面上升,船体本身也会跟着上升,所以梯子永远不会被抹过,所以他们的回答都是错误的,系统的数据并不能支持他们进行举一反三跳出数据的思维。
有八个大小相同的球,其中7个重量相等,有一个稍微重一点。最少用几次机会确定哪一个球稍微重一点?
从这个问题,我们可以看出ChatGPT相比较Claude2和通义千问都更有优势并且给出了更正确的答案。通义千问和Claude2给出的答案并没有错,但并不是最优解,而ChatGPT给出了这个问题的最优解。
下面这段Java代码可以正常运行吗?
if(!Files.exists(path)||!Files.isDirectory(path)){
}
longdirCount=Files.list(path).filter(Files::isDirectory).count();
System.out.println(dirCount);
在这里,我们可以清晰地看出除了通义千问意外,ChatGPT和Claude都给出了正确的回答,便是这段代码存在一些错误,并且给出了修改的建议。由此我们可以看出通义千问在代码这方面确实差强人意需要继续改进。但是剩下的两家机器人们的回答却有些许偏差。Claude似乎并没有找出正确的错误地方,即循环使用代码会造成很多文件打开并不会关闭,反而说了变量没显示。ChatGPT却找出了正确的地方并给予了更改建议。这最后一局,还是ChatGPT获胜了。
在以上的对比中,我们可以看见ChatGPT的综合成绩还是略微胜于Claude2和通义千问的。
在完成任务中,我们会发现三个机器人都很出色地完成了任务,但是方面不同。ChatGPT在题目的理解上会更直接,不会拖泥带水,只会回答是或不是,对或错。而Claude2与通义千问便会在问题的基础上延伸出更细节的描述,从而让用户在知道问题答案的同时,有了更深入了解。
在常识问题中,三个机器人都会优先考虑题目的答案而并不太会有自己的思想。就像上面的例子,他们会写出问题正确的答案为4,但并不会理解到船会浮在水面上。而在这也看出了他们的理解计算能力,ChatGPT和Claude2都给出了计算的正确答案而通义千问却不能。
在逻辑数学中,我们发现ChatGPT思考的会更多,逻辑性也更强,给出的对问题的解法也是比Claude2和通义千问更优秀的。但是Claude2和通义千问并没有错,他们也给出了正常人在没有考虑的情况下给的逻辑答案。
最后便是代码能力,我们可以看出通义千问在这方面还是要加强的,它并不能找到问题所在并且进行修改。Claude2可以找出些许问题但准确性并不高。而ChatGPT可以胜任这份工作,他找出了正确的代码错误并且给出了合理的修改建议。
在最后,ChatGPT作为目前最强大的AI大模型,在综合测试中表现出色,绝对是现在顶尖的聊天机器人。然而,通义千问仍然需要在各个方面继续努力发展。与此同时,Claude2可能比通义千问更优秀在不断创新下也会继续进步。