当前位置:首页 > 科技资讯 >

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

作者:周小明 来源:网络整理 发表:2023-12-22 12:06:59 我要点评 作者ID:1

你是否知道,在人工智能领域,大模型的劲敌竟然是一位名叫伍佰的歌手?通义千问2.0揭秘了这个惊人的事实。伍佰的音乐才华和大模型的智慧碰撞,究竟会擦出怎样的火花?你...

本文给大家分享的是通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信的相关内容!

你是否知道,在人工智能领域,大模型的劲敌竟然是一位名叫伍佰的歌手?通义千问2.0揭秘了这个惊人的事实。伍佰的音乐才华和大模型的智慧碰撞,究竟会擦出怎样的火花?你敢相信,这位台湾摇滚传奇竟然能与高科技一较高下吗?让我们一起探索这个充满惊喜的故事吧!

大模型,它又来了。

今年上半年,大模型1.0被轰炸。随着时间的推移,每个家庭打磨的下一代大模型开始慢慢问世。

这不是,前两天文心一言4.0才发。在云栖大会上,通义千问2.0立即跟进,还上了APP。

最重要的是,通义2.0直接向全社会开放。点击通义千问,就可以直接使用最新版本。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

这些答案不依赖于互联网,只依赖于手动更新数据库。

只能说,真的很难。

但无论更新有多快,我们都不能成为网络人工智能测试。我们只能从语义理解、逻辑、多模态能力、文本生成和代码五个方面入手,稍微探索一下基础。

按照国际惯例,让我们来谈一些流行的弱智问题。

世超一来就问,连GPT-4都是傻眼的话题。

问:这个世界上真的有龙,我在某个地方被一条龙服务过。

上回,GPT-4就是被这两条龙绕晕了,给我编了一堆虚构的成语来源。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

结果有点意外,通义可以完美应对。我们可以完全理解两条龙的区别,也可以理解两条龙的区别。“一条龙”服务是什么意思?

开头第一个问题,通义这小子处理得很好。

为了防止通义会有准备而来,偷偷训练,世超又去弱智吧上了点新货。

问:为什么抄袭总是今人抄袭古人,没有古人抄袭今人。

这一次,通义有点无法应付。它的结论是正确的,因为时间顺序,古人当然不能抄袭今人。

但是,仔细看就会发现,后面还是说错了一句话。

它说,这并不是说古人不会向的人学习。据估计,通义最初想要正面和负面的论证,这更客观,但结果暴露了逻辑。

事实上,世超试过这么多中文语义题,没有一个大模型能做对。

如果你多问几个问题,换个角度,你总会犯几个错误。

比如问:小偷偷偷东西,什么意思?

通义语义解释为小偷偷东西,没有问题。

但前半句说里有三个偷,说这是中文绕口令,有些问题。

从结果来看,这三个问题是正确的2.5个问题,对中文语义的一般理解是好的。好吧,让我们继续测试一下。下一个问题或从中文开始,在中文语境中问一些更困难的文本生成问题。

以前每次测试写小或故事,这次整点花活。让它用诸葛亮的语气,写一首说唱听听。

这个问题,通义的答案有点有趣。

Rap字里有孔明和卧龙;坐在军帐里,抚摸瑶琴,小试牛刀。既符合诸葛亮的人物属性,又有活泼的语言。美中唯一的缺点就是没有押韵。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

世超进一步考验了它的发散思维,又有点表现不好。

让它给我编一个马斯克和孔子的对话。

然后,我看到孔子嘴里说了出来“人工智能”四个字

其他,也不太符合人物性格。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

从前两轮测试来看,通义2.0的中文水平是能听能写,但还没有自由应对。不稳定,有时对,有时傻。

其实大模型都有这样的问题。我们能否应用它取决于另一件事。——学习能力。

比如让大模型直接做直播策划,往往内容不够成熟。

在这个时候,这取决于他们是否会学习。

最重要的是,当你给它一些参考案例时,他们能够理解教程的意思并模仿它们。

在这一点上,世超认为通义做得很好,大家直接看案例就行了。

石超让它做一个电动牙刷的直播过程。并提前丢失了蜜雪冰城的参考,引导了一下。

它立刻学会了,扔掉了一个非常详细的直播过程。开场、留客、锁客一套一套学习。

成都的汉语理解、学习和文本生成都相当在线。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

此时,中文能力测试暂时结束。

让我们来看看大模型的弱点。——是否改进了数学逻辑题和代码。

那一年,我通过了无数大模型的考试,但是我通过了无数的大模型“鸡兔同笼”、“青蛙跳井”等等,简单的数学题,通义处理起来没问题。

即使稍微改变一下题目的形状,也是分步回答,容易驾驭。

但这也和许多大型模型一样。

一旦话题变得困难,达到初中水平,就会变得愚蠢。问它:任命三个长度小于1的线段,形成三角形的概率是什么?

它告诉我,0个交点组不成三角形,1个和3个交点组成三角形

。我去了,这么简单的解题思路,我怎么没想到呢?

以前有朋友问大模型能不能用来换试卷。

如果是数学老师,世超建议三思。

通义确实是进步了,但只进步到了小升初的水平。

对于大模型来说,严格推理的数学题仍然是最难啃的骨头。

在代码方面,世超却没有将通义问倒,它可以自由地回答。

抛出一堆要求,让它做一个非常简单的差评双十一促销页面。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

人们三下五除二就完成了,效果还是很符合差评的审美,需要预留的位置也做了。

虽然可能是为了严格执行我对页面简洁的要求,但是看起来有点太清楚了。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

测试到此为止,还没有结束。

除了提高基本能力外,通义还增加了两个新功能:文档分析。

事实上,像上传功能一样,是很多家庭的重点攻克对象,GPT-4后续也主要是在这方面发力。

经过世超的尝试,通义目前分析能力还是有点弱。

基本图像识别没有问题。比如给他丢个马斯克,问哪个。它一眼就能认出来,顺便给你两句科普话。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

但是,如果增加一些抽象的互联网难度,比如世超给了我一个桌子上的娃娃,让它给我分析分析。

虽然它能认出这是“小鸡”,还有两个元素:打篮球。但我不太了解中的梗,坚持不懈地胡说八道“灌篮小鸡”梗的来历

我们的吴白老师,更是轻松地把通义玩得团团转。

给了一张“随520”梗图,里面是一张吴白老师的靓照和一张20元人民币。

结果,通义不仅看不懂什么梗,还数不清里有多少钱。

图像识别能力已经完全崩溃,指着吴白说,这是吴彦祖

不仅上传,而且几乎有意义。后来,超级考试了文档的功能,但也很容易通过通义考试。

石超向电动牙刷行业扔了一份行业报告,问电动牙刷行业发展的痛点是什么。

通义嘎嘎总结,列出各种分点,系统分析。看来答案很努力,但实际答案都错了。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

原因很简单,这里世超特意挖了个坑,防止大模型胡说八道。

给出的文档只有目录,没有内容。通义这些分析不错,可惜都是胡编的,跟我的参考资料无关。

通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信

经过几轮考试,通义学生的成绩一目了然。

虽然整体没有特别抢眼的强更新,但也是稳扎稳打,基本能力提升得更扎实,学习能力一直在线。但其中,文档的能力还有很大的提升空间。

事实上,世超觉得自己闲逛时发现的产品比通义千问更有趣。

在阿里通义的官方网站上,有七个产品方向,如代码助理、客服等。

虽然大部分还是内测,但是不能试用。

世超开放的通义智文,文档体验比通义千问要好得多。

本产品专门用于解读文档,您不仅可以丢失长篇电子书,还可以将各种文章链接到其中。

世超试图将前面挖坑的行业目录输入其中。通义智文没有中招。

不仅明确指出里面没有提到,而且回答还标明数据来自文章中的几句话。这个设计很好,避免了胡说八道。

与通义千问本身相比,世超更期待这些专项训练的应用大模型。

大多数工作类型只使用一两个通识模型功能。像世超这样的代码需要文本分析和生成。更有针对性的培训实际上更有利于提高大型模型的实用性。

不仅从能力的角度来看,事实上,许多大型模型已经达到了一个平台时期,很难取得巨大的突破。从这些小点开始,它可能会成为一个更好的解决问题的想法。

这次,和通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信有关内容就为朋友们整理到这里,更多优惠活动资讯信息可查看本站其他栏目。

本站文章来自网络收集整理和网友投稿,如需申请删除,请与站长联系(挑错)。
优惠网专注全国优惠活动资讯信息及各种实用生活经验分享,更多优惠券限时折扣活动在线免费领取。

优惠网微信小程序
广告
优惠网新闻投搞