有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT4来了快科技|chatgpt4.0文字数_算命

三、国内外大模型对比测试：多项领域比肩ChatGPT4.0全面超越文心一言

接着，为了测试讯飞星火V3.5在国际中的地位，我们使用国内的另一大模型文心一言和国外的ChatGPT4.0进行一次全面的测试对比。

1、常规问答

（1）已知问题测试

①中国2020年GDP是多少人民币

三个大模型的回答准确无误，讯飞星火V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比，不过讯飞分析的更加透彻，说到2020年这一特殊的年份，国内GDP增长的不易和国家正确的决策，能够深入理解复杂的趋势和事件。

Chat-GPT4.0则是直接给出了具体的数据，没有做过多的信息扩展。

②最近一次的东京奥运会的奖牌榜前5名的国家和奖牌数分别是？

第二个问题，只有讯飞星火3.5给出了正确的答案，文心一言则仅给到了前三的国家和奖牌数量，没有完整地回答问题，而ChatGPT的答案则出现了错误（中国共89枚奖牌）。

③全球第一款16GB内存的智能手机是什么型号？

第三个问题，面对机圈的问题，只有Chat-GPT4.0给到了正确答案，全球第一款16GB内存的智能手机，是2020年年初发布的三星GalaxyS20Ultra。

（2）未知问题测试

①世界第一高峰与世界第二高峰相差多少米？

对于世界之最这类问题，讯飞星火V3.5给出的是岩面高度差，回答正确，文心一言和Chat-GPT给到的则是雪面高度差，精度一致，没有任何问题。

2、逻辑推理能力

（1）鲁迅为什么暴打周树人？

对于“鲁迅为什么暴打周树人”这种问题，讯飞星火、文心一言和ChatGPT4都能完美避坑，给出了鲁迅和周树人是同一个人的答案。

（2）昨天的当天是明天的什么？

第二个问题，昨天的当天是明天的什么？讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案，“前天”，而文心一言则给出“昨天的当天是明天的昨天”的答案，回答错误。

（3）龙龙的妈妈有4个孩子，其中3个孩子分别叫贝贝，天天和乐乐，请问她的第4个孩子叫什么？

第三个问题，三个大模型均成功避坑，讯飞和GPT4分析的最简洁最到位，文心一言则通过一顿逻辑判断和理解输出了正确的答案，过程稍有些复杂，不够简洁。

（4）脸盆里面漂浮着一块冰，请问冰融化之后，脸盆的水面是上升还是下降？

接着是一个物理常识问题，讯飞回答错误，文心一言V4.0和GPT4.0均回答正确，冰融化之后，水面既不会上升也不会下降，并且给出了详细的逻辑分析。

看来，讯飞星火V3.5在初中物理知识方面，相较于Chat-GPT4.0还有点欠缺。

3、数学解题能力

（1）鸡兔同笼，头共67，足共184，问鸡兔各几只？请一步一步地作答

面对鸡兔同笼问题，讯飞和GPT4.0均以二元一次方程计算后给出了正确答案，讯飞星火给到了完整的解题过程，甚至连计算过程都精确的呈现出来，而文心一言和Chat-GPT4.0的回答过程则较为简略，以推理的过程为主。

（2）如果一个直角三角形的两条边长分别是6和8，另一个与它相似的直角三角形边长分别是3、4及x，那么x的值是多少？

接着是第二个数学问题，面对这种没有给到对应数值的两边长度，我们一般会分析到两种不同的可能性，因此这道题的标准答案会有2个，很显然讯飞星火3.5全都顾及到了，给出了两个正确的答案。

而文心一言V3.5和ChatGPT4.0只给出了一种正确的可能性。

所以，通过以上测试的数学问题来看，讯飞星火V3.5的解题能力已经在国际中处于领先水平，甚至在部分能力上已经超越了ChatGPT4.0。

4、代码能力

现在许多程序员也会使用大模型来解决问题，因此在代码的编写和解释能力上，我们也测试了一番。

（1）代码编写

使用PyQt5搭建-个窗口，点击按钮之后，有50%的概率把按钮移动到窗口的随机位置，还有50%的概率把按钮的标题改成随机数。不要有多余的解释，直接给出可以运行的代码。

文心一言V4.0

在代码编写能力上，三款大模型均能够精准理解需求，写出bug的程序，放到解释器里完美运行。

（2）解释代码

Chat-GPT4.0

我们给到一段代码让三个大模型进行解释，三者均会根据每行的代码进行解释，文心一言给到的解释要更偏向小白，逻辑非常清晰，新手也能一目了然。

讯飞给到的解释与GPT4.0差不太多，所以在代码编辑和解释能力上，讯飞星火3.5、ChatGPT4.0大体相当。

通过这种方式，我们可以比较它们在文字理解方面的表现。

我们给到这段文字，让三款大模型进行阅读，接着进行提问。

问题一：请问永嘉山水适合隐居的原因是什么？

第一个问题，讯飞星火3.5给到的原因是最全面的，也是最准确的，从根本上回答了这个问题，文心一言3.5给到的答案也比较准确，不过并没有讯飞全面。

ChatGPT4.0给到的回答比较深入，也就是说它能够进一步理解作者所表达的内在思想与含义，也就是说ChatGPT4.0对文字的理解要更加深刻。

对于语言的理解，讯飞星火V3.5和GPT-4在处理自然语言任务时都展现出了合格的理解能力，然而在综合比较中，GPT-4在理解和表达方面显得更为精准与细腻。

6、文生图能力

在多模态能力上，我们测试对比了大模型文生图的能力，根据描述的文字画出图片。

可以看到，三款大模型均能够理解文字所表达的意思，并画出准确的装修效果图。

不过讯飞星火V3.5和ChatGPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5，二者在文生图的能力上，不相仲伯。

接着我们提高了难度，让三款大模型在上一幅图的基础上进行二次创作，虽然均不能还原上一幅图中的全部样貌，但讯飞星火V3.5和ChatGPT4.0均能以接近上一幅图的场景进行二次创作，并精确理解了“墙面上的画”指的是什么内容。

文心一言V4.0应该说是理解了题目中的一般要求，把“春江水暖鸭先知”的含义放在了整个画面当中，并没有理解“墙面上的画中”是什么东西，导致与要求的本意产生了较大的偏差，也让最终的呈现效果与预期有一定的出入。

反观讯飞星火V3.5和ChatGPT4.0，在语义理解能力方面表现出色，两者的能力接近，甚至达到了相似的水平。

THE END

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT4来了快科技

PCIe7.0，AI互联新武器信号光纤ip交换机控制器pcie

ChatGPT4.0支持的最大字符数是多少?万象方舟

有问题先问它！讯飞星火认知大模型3.5评测：中国版GPT4来了快科技

ChatGPT4.0：新时代人工智能的颠覆性进步

正版授权ChatGPT中文版支持4.0接口意间+mj绘画卡密会员/分销/正版源码

ChatGPT3.5和4.0真的使用差距很大吗–PingCode

chat4.0国内版下载chatgpt4官网版免费版v4.0

一文搞懂ChatGPT相关概念和区别：GPT大模型AIGCLLMTransformer羊驼LangChain…..

ChatGPT(GPT4.0)论文润色指南+最全提示词/咒语学AI很简单

建议收藏：超详细ChatGPT(GPT4.0)论文润色指南+最全提示词/咒语CharyGao

三星公司引入ChatGPT被“背刺”？专家提出：要像原子能一样去监管AI

新手视角打开ChatGPT+Mermaid实现数据可视化澎湃号·湃客澎湃新闻

ChatGPT｜一文读懂GPT4！

ChatGPT，Claude2和通义千问的谁更聪明？这期我们来看看聊天机器人实测情况。我们主要从语言理解完成任务常识问题逻辑数学代码能力这五方面考验一下机器人。（因...

gpt4.0官方下载最新安卓版gpt4.0官网人工智能免费最新正版下载

奇点来临：ChatGPT时代的机遇与挑战

ChatGPT中文网站ChatGPT国内版免费版

国内chatgpt代理渠道

ChatGPT4plus插件详细介绍

万字总结！可能是最全面的ChatGPT实战指南优设网