AI大模型哪家强?七大维度横评四款主流大模型!
来源:城市文旅    发布时间:2024-04-28 07:37:25

  2023年是大模型风潮大起的一年,目前市面上,文心一言、讯飞星火、通义千问等诸多国产大模型已经开放内测许久,这些大模型的技术能力及由此带来的使用者真实的体验感均不一样。国内国外百模大战之下,哪个大模型更强大,在各方面能力表现如何引人好奇。

  带着这样的好奇,我们对包括ChatGPT、文心一言、通义千问以及讯飞星火四大国内外主流大模型进行一次综合横评,看看谁的表现更好。测评结果由1、2、3、4作为排名,最终综合排名相加越低,表示该大模型表现越好。

  希望这次测评能给大家带来一些有价值的参考与结论,废话不多说,下面我们共同来看看测评。

  多模态能力指的是处理和理解来自不同模态的信息的能力,例如图像、文本、音频和视频等。它涉及到信息融合、交互式体验、数据分析、机器学习发展等多方面,我们对其中最重要的部分语音交互能力及几个大模型由文字生成图片、视频、音频的能力展开了测试。

  语音交互能力是指系统能够理解和响应语音指令,它是多模态交互中的一个重要组成部分。

  我们以一人在春运回家路上遇到的困难,需要得到帮助作为场景,和几个大模型展开了对线)文心一言:

  作为对比,我们也测试了ChatGPT面对相同问题的反应,回答如上,能够正常的看到,GPT给出的解决方案也很细致周到,且包含的问候语很多,声音拟人度较高。但也要吐槽下,由于网络问题是需要等待很久,且容易被打断,对国人很不友好。

  可以看到,星火的全语音交互能力并不体现在一条条语音中,而是由“实时通话”的形式体现出来,通过向其提问,星火流利、顺畅且迅速、准确地给出了自己的解决方案。

  令人眼前一亮的是,回答问题时,星火V3.5也会随时带着“嗯……”、“额……”等语气词,自然且不显突兀,不止如此,星火V3.5还会时而说出“就是”、“这个”等口语化的辅助词,即便对比ChatGPT的“Ember”、“Juniper”,在拟人度和真实度方面也几无挑剔之处。

  这也对比出星火的难能可贵,即星火V3.5在回答问题时,能体现出高情商和同理心,这使得它不单单是一个智能助手,更像是一个真正理解客户的真实需求的朋友。

  进一步给出更多条件后,星火的回答也更加细致,且其支持语音互动中的文字转写。

  此外,该“通话界面”还有打断和暂停功能,暂停后也可恢复提问,且可随时切换到文字模式,看到通话全程的文字版。

  而在另一个对线的回答表现出的关心和体贴,让人感到被理解和支持,体现了高情商和高同理心。

  而文心一言和通义千问都只支持一条条语音,而不支持“实时通话”的模式,这一点曾经是ChatGPT的最大卖点之一,而目前在国内厂商中讯飞星火的全语音交互能力能够说是迎头赶上了。

  在语音交互能力之外,多模态能力发展之处其实就是“以文字形式输入,以XX形式输出”。于是我们对文生图/视频/音频的能力分别做了测评。

  可以看到讯飞星火支持完成文生图、文生视频,虽然不直接支持生成音频,但支持对回答消息的语音朗读,并且在 App 端还可以切换朗读的主播,因此也可以说是支持文生语音的能力的。

  文心一言支持文生图、文生音频,但无法支持生成视频,他以文字的形式试图“反向激发”提问者。

  作为认知大模型,语言理解能力几乎是大模型与外界交互的基础,我们选取了语义理解、总结提炼、抗干扰项能力三个层面来对这一维度进行评判。

  对文段的总结提炼被认为是考察大模型是否快、准、狠的主要的因素,我们做了以下测试:

  抗干扰项能力是考察大模型是否足够“聪明”的重要手段,我们在这项考察上挖了陷阱,其实给出的问题和前面两个半句并没有联系,看看他们的回答:

  文心一言的回答中漏掉了十年中有三个闰年的情况,即漏掉了3653天的答案。

  通义千问的回答则不够准确,明明算出来了实际天数可能是3652天,但最后给出答案时又去算了平均值,让人摸不着头脑。

  对某个行业知识的理解,能够更好的起到该行业的专业技术人员的作用,帮助对有必要了解该行业的人进行知识普及。

  讯飞星火的答案正确、且有具体分析,对于做题的学生党、考试党来说很友好。

  文心一言的答案正确的同时,给出了标黑重点,还有更进一步的分析,每个选项的错误点都指了出来,偏向于“老师向”,表现优秀。

  通义千问的回答则是进一步介绍了原题提到的名词,偏向于“百科向”,起到普及的作用,但无另外的错误选项的分析。

  GPT的回答则介于“普及向”和“老师向”之间,没有每个选项逐个分析,但综合一句话可以概括。

  接下来是历史人文知识,我们用““九州”在《书·禹贡》中指冀、( )、青、徐、扬、( )、豫、梁、雍。”这样的一个问题来考验。这样的一个问题比较小众,属于“查资料”型题目。

  讯飞星火的答案差强人意,其中,“你在二年级时,距离你上二年级已逝去了1年”的描述很奇怪,不符合逻辑,或许是想表达其在二年级下学期,事实上这一题的正确答案应该是四年级毕业,因此说是四年级、五年级皆可,但这个解题过程有待商榷。

  文心一言给出了正确答案。但步骤1中计算大学前年级时没有计算高中年级,反而计算了幼儿园年级,让人有所异议。

  通义千问的答案错误,“大二比二年级大四个年级”的错误和文心一言犯的错误如出一辙。

  由于除了GPT外,三个大模型均有错误,或是结果,或是过程,或是结果、过程都错,所以给出评判:

  通义千问的第二个步骤中“拿一个已知是假的金币作为参照物”,但事实上无法在不使用电子秤的前提下确定某一个金币是假币,因此推导过程存在瑕疵。

  数学能力是大模型应用时的一个很重要的考量因素,尤其是许多学生朋友们,或许会用到大模型来解题。我们分为英文提问的代数题和中文提问的几何题,来测试四个大模型的数学能力。

  通义千问答案错误,前三个选项没问题,第④个选项中显然没有理解题意中“一条腰上的中线)GPT:

  让大模型帮助敲代码,想必是许多程序员朋友们梦寐以求的事,我们对几个大模型进行了代码能力的检测。我们提出了要求,想让四个大模型完成“用python实现:输入一个整数,将其分解质因数,例如输入90,输出90=2*3*3*5”的要求。1)讯飞星火:

  生成是大模型最核心的能力,通过对大量的文本进行训练,能够生成原始且连贯的文本内容,可以创造性的生成一些文本,是大模型最基础的能力之一。这次测评中,我们从智力游戏、文案创作、故事续写、文章写作、方案策划等五个方面对几个大模型进行评测。下面是他们的表现:

  为了测试文本生成能力,我们向四个大模型提问了同一个问题:“你能写出三个关于元宵的谜语么?要包含‘团圆’二字”。这样的一个问题的条件有两个:1.关于元宵;2.包含“团圆”二字。1)讯飞星火:

  文案创作能体现大模型对语义的理解和创作能力。工作、学习中,我们都可通过大模型的文章生成能力,学习怎么样写好对应题材的文章。这里我们以 兵地融合共建 为主题,让四款大模型写一篇新闻稿,并给出了具体的结构要求,看看他们的写作能力如何吧。1)讯飞星火:

  故事续写是考验大模型创作能力的一大指标,我们以经典的“小白兔”、“大灰狼”作为主角开头,看看他们会续写出怎样的故事。1)讯飞星火:

  对于身处职场、体制内、或者身居组织责任要职的朋友们来说,经常需要拟定一些活动方案、评判标准等,我们以“我是一名房地产销售主管,我要给我的三个下属制定KPI。请你给我一点KPI参考”为主题,来来测试。1)讯飞星火:

  本次横评,我们从语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能力等方面对文心一言、讯飞星火、通义千问和ChatGPT四款大模型做了详细的体验横评。测下来后,在国内大模型中,

  ,星火V3.5作为国产大模型中目前支持“实时通话”的佼佼者,已经表现出了很强的实力。这对于加强星火后续的多模态能力升级很有重要的战略意义。

  当然,讯飞星火也并非完美,在文本生成和知识问答等部分细致划分领域,星火V3.5也表现欠佳,但整体看来能够说是和GPT有来有回的。

  这一搜索引擎巨头有着密不可分的关系。当然,本次横评所使用的问题样本有限,大家实际体验时的感受可能与我们横评的内容有出入,因此上述位置值也仅供各位参考,实际选择时,大家还是要依据自己的感受来选用对自己最合适的 AI 大模型。无论是讯飞星火,还是文心一言、通义千问,都是国产大模型的第一梯队,在当前的科技竞争、产业竞争的局势下,背后都要加强创新,实现我们在通用AI上的追赶与超越。

  平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。



上一篇:【48812】标志规划说明肿么写标志规划说明 下一篇:怎么来制作最佳婚礼策划方案网络投票活动?
推荐查看