清华系AI对比评测:智谱清言与Kimi Chat的功能与优势

AI大模型目前真的是汗牛充栋,不过智谱清言KimiChat这两家真值得评测一下,两家AI公司的产品都是AIGC大模型领域的明星产品,且都属于清华系,再技术能力方面都各有千秋,且都可以免费使用,但究竟PK起来孰优孰劣呢?咱们还是实际对比一番比较好。

常识判断类问题

1.  我们先给了一道选择题,是关于中国历史人才选拔制度的,题目来自于国家公务员考试试卷。

首先是KimiChat的回答,这道题它回答对了,而且解释得也基本正确。

IMG_256

我们再来看看智谱的回答,注意我们选择最新版GLM-4,可以看到智谱这道题虽然答案说对了,但是解释有些幻觉了,回答也过于简单,不过提供了三个追问来给用户选择,算是一点补救吧:

IMG_257

2.  我们再来看一道题,这道题是问诗词作者的作品,而没有直接点到我们熟知的诗人名字,而是取了他们的字,比如曹子建就是曹植,李太白自不必说,苏子瞻就是苏轼。我们先看kimi的回答,感觉它有点晕了,明明已经解释了D是苏轼的回答,但是还选了D这个错误答案。况且,在解释B的时候,这首词明明是辛弃疾写的,有点乱扯了。

IMG_258

我们对比看看智谱的回答,这次智谱掰回一局,回答完全正确。

IMG_259

综上,虽然两个样本有些少,但我们可以看到,对于常识的回答,两个AI工具都不要全信,最好对比来综合判断。

数学能力

我们再来对比下他们俩的数学计算能力,首先也是一道国考中的概率题,先看看kimi的回答:

IMG_260

这道题kimi回答得有板有眼,步骤清晰,公式明确,给出了详细的计算过程,答案也是对的,这样让不会算的人也知道怎么算了。

我们再来看看智谱的回答:

IMG_261

也有分析过程,可是最后的计算直接交给了代码,算出了近似值出来,猜对了答案,可以看出智谱具备多步分析的能力,而且可以自己调用代码解释器进行代码生成和结果输出,不过从解题的角度来讲,还是告诉用户一步步怎么计算更好些。所以还是kimi这次回答得更好些。

言语理解与表达

考察完了数学能力,我们再来看看两款工具的语文功底。这是一道如何遣词造句的题目,先看看kimi的回答,答案是正确的,感觉它站在了当时历史的角度来分析,有理有据:

IMG_262

智谱的回答则用到了排除法,基本是从语法的角度来理解,在确定了第一个答案后,第二个直接代入验证,更像个纯粹语法分析的同学。所以这一局,两个工具各有千秋。

IMG_263

判断推理

1.言语理解都过关的话,我们再来看看它们俩的推理能力如何,首先是一道类比推理题。我们对比两者的答案可以看到,都答对了,智谱的回答提炼出了每个选项的关系,解释得更清楚些,而kimi的回答有点不直接,类比关系总结得不太到位:

IMG_264

IMG_265

2.我们继续换一道逻辑推理题,这次看到kimi的回答每个选项都具体分析了,有理有据,答案正确。

IMG_266

反观智谱的回答,虽然答案也对,但细看回答,只是转义了下问题,然后说排除几个干扰项,最后得到答案,但我一看回答,还是没明白为什么选B。所以这一次Kimi的回答也扭转了一局。

IMG_267

联网搜索能力

这次我们再来对比下它俩的搜索和总结能力。嫦娥六号刚发射成功没多久,如何去月球背面采样?分成哪几个飞行阶段?这个事件是在这两个大模型的截止训练知识之后的,所以它们只有联网检索了之后才能回答,还是先看看kimi的回答,一口气找了9篇资料,然后总结回答,大部分只采用了3篇参考回答,不过好在每一条都有索引号:

IMG_268

而且鼠标移动到索引号上,可以看到链接标题,还是参考的出处段落摘要,这就感觉很贴心了:

IMG_269

智谱只检索了3篇,参考的时候也最后提到了3篇的索引:

IMG_270

我们把鼠标移到索引号上,只能看到标题:

IMG_271

所以感觉kimi要比智谱查得更多,而且索引得也更细致些。

文档分析能力

Kimichat前段时间大火的原因,也是因为它的文档分析能力强,一次性支持上传50个文档,每个文档100M最大,这在众多AI工具里是少用的,相当于让你可以快速地创建自己的知识库了,格式支持得也多,pdf、doc,甚至我阅读中经常用到的epub格式。我试了一份介绍GPT-4V使用的全英文文档,43M:

IMG_272

发给kimi,问它这本书的主要内容,看来它不仅理解了英文,还可以帮我转述成中文:

IMG_273

再问个问题,关于这本书中最棒的例子所在章节:

IMG_274

我看了它下提的名人识别在4.1节,我找了下原文,果然,就是识别马斯克、C罗等一众明星的:

IMG_275

看来kimi的阅读文档能力还是不错的,不过我尝试了一份扫描版的书籍,它没有解析成功,看来OCR文字识别做得一般,另外宣传号称的200万汉字的输入能力,我试了一本《天龙八部》一共154万字,它只阅读了前12%,看来还没有开放给公众使用,目前还是20万字限制,智谱也有同样的情况,还是有些遗憾。

IMG_276

再来对比看下智谱,只能上传最多10个文档,每个文档20M限制,所以我这份文档直接不能分析了。

IMG_277

这个限制还是有点太不够用了,所以整体来讲,还是kimi的文档理解功能更能驱使我去使用它。

绘图能力

接下来,我们来对比下两款工具的AI绘图能力,先是kimi,发现它是不具备绘图能力的:

IMG_278

对比再来看看智谱,绘图能力还是不错的。

IMG_279

所以在绘图上,智谱还是领先的。

图片理解能力

图片理解,也是现在各大AI工具竞相角逐的领域。我们也来试试两者在这方面怎么样,我虽然拍了张办公桌上的图片,看看它们的理解能力。

这是原图:

IMG_280

先看Kimi,主要焦点是在书上,对其他周边物品有所忽略。书中,对作者的解析出现了点偏差,看到文字识别还有点小缺陷,如“中信出版集团”识别错误,但好在后面通过常识纠正了。

IMG_281

对比智谱,除了书,玻璃杯、背包、蓝色带子都提到了,书的封皮上的一些小字虽然也识别错误了点,不过已经算是优秀的了,还附带推荐了这本书的其他相关知识。

IMG_282

所以,综上,在图片理解上,智谱清言确实实力更强些。

数据分析能力

数据分析,简单来测,就是上传一份Excel文档,看它能不能分析出个一二来,最好可以画个分析图表出来。还是先看看kimi,我上传了一份店铺一周收支报告。

IMG_283

可以发现,kimi分析数据说的还是挺具体到位的,可是苦于没有图表绘制功能,只能文字表述图形的设计思想。对比看下智谱的:

IMG_284
IMG_285

智谱还是强在了它可以调用代码解释器,用python语言来生成图表。所以整体来说,数据分析能力,如果你想最大化用好的话,可以先用kimi分析一下,得出要画什么图形,再把它的回答给到智谱,画出更多角度思考后的图形,结合起来使用或许更香

智能体中心

最后,我们再对比下两者在扩展的智能体方面有何建树。先是Kimi的可以看到它提供了办公、写作、社交娱乐、生活四大类,每一类都是官方精选的,数量不多,但应该有质量保证,而且没有看到如何自己创建的入口,估计官方提供了其他的开发者途径,可能没有对全部用户开开放。一个比较赞的设计是,你可以在平时的对话窗口中,通过输入@符号来呼出这些工具并选择,非常方便快捷。

IMG_286

对比智谱,则有七大类,每类里面的智能体也很多,可以搜索,然后再选择使用。关键每个用户都可以根据自己的需求创建自己心目中的智能体,只要设置好提示词就可以生成你的智能体,比如我就创建了一个“文章标题生成神器”。

IMG_287

所以,整体来讲智能体,智谱更加开放,号召全民参与,网友的创意也被激发出来了,催生出了许多有意思的智能体。

十一

总结

以上就是两款清华出身的AI的主要主观评测,整体而言,Kimi强在了长文档的解析能力上、联网搜索并总结的体验也更胜一筹。在数学推理上,kimi更倾向于用教师的方法一步步指导,也是更好的体验。其他如常识回答、言语理解、判断推理上两者互有胜负,半斤八两。

而智谱在多模态处理能力上走得更前,内置了代码解释器,绘图,图表分析也能出图,图片理解能力更强,智能体也更丰富和自定义化。所以如果你有这方面的需求的话,智谱清言是更好的选择。

不管怎么说,两款AI工具都是国产AI产品中的佼佼者,对中文理解也更加到位,免费亲民,大家不妨都可以试一试。

© 版权声明
THE END
喜欢就支持一下吧
点赞27 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容