本文给大家分享的是通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信的相关内容!
你是否知道,在人工智能领域,大模型的劲敌竟然是一位名叫伍佰的歌手?通义千问2.0揭秘了这个惊人的事实。伍佰的音乐才华和大模型的智慧碰撞,究竟会擦出怎样的火花?你敢相信,这位台湾摇滚传奇竟然能与高科技一较高下吗?让我们一起探索这个充满惊喜的故事吧!
大模型,它又来了。
今年上半年,大模型1.0被轰炸。随着时间的推移,每个家庭打磨的下一代大模型开始慢慢问世。
这不是,前两天文心一言4.0才发。在云栖大会上,通义千问2.0立即跟进,还上了APP。
最重要的是,通义2.0直接向全社会开放。点击通义千问,就可以直接使用最新版本。
这些答案不依赖于互联网,只依赖于手动更新数据库。
只能说,真的很难。
但无论更新有多快,我们都不能成为网络人工智能测试。我们只能从语义理解、逻辑、多模态能力、文本生成和代码五个方面入手,稍微探索一下基础。
按照国际惯例,让我们来谈一些流行的弱智问题。
世超一来就问,连GPT-4都是傻眼的话题。
问:这个世界上真的有龙,我在某个地方被一条龙服务过。
上回,GPT-4就是被这两条龙绕晕了,给我编了一堆虚构的成语来源。
结果有点意外,通义可以完美应对。我们可以完全理解两条龙的区别,也可以理解两条龙的区别。“一条龙”服务是什么意思?
开头第一个问题,通义这小子处理得很好。
为了防止通义会有准备而来,偷偷训练,世超又去弱智吧上了点新货。
问:为什么抄袭总是今人抄袭古人,没有古人抄袭今人。
这一次,通义有点无法应付。它的结论是正确的,因为时间顺序,古人当然不能抄袭今人。
但是,仔细看就会发现,后面还是说错了一句话。
它说,这并不是说古人不会向的人学习。据估计,通义最初想要正面和负面的论证,这更客观,但结果暴露了逻辑。
事实上,世超试过这么多中文语义题,没有一个大模型能做对。
如果你多问几个问题,换个角度,你总会犯几个错误。
比如问:小偷偷偷东西,什么意思?
通义语义解释为小偷偷东西,没有问题。
但前半句说里有三个偷,说这是中文绕口令,有些问题。
从结果来看,这三个问题是正确的2.5个问题,对中文语义的一般理解是好的。好吧,让我们继续测试一下。下一个问题或从中文开始,在中文语境中问一些更困难的文本生成问题。
以前每次测试写小或故事,这次整点花活。让它用诸葛亮的语气,写一首说唱听听。
这个问题,通义的答案有点有趣。
Rap字里有孔明和卧龙;坐在军帐里,抚摸瑶琴,小试牛刀。既符合诸葛亮的人物属性,又有活泼的语言。美中唯一的缺点就是没有押韵。
世超进一步考验了它的发散思维,又有点表现不好。
让它给我编一个马斯克和孔子的对话。
然后,我看到孔子嘴里说了出来“人工智能”四个字
其他,也不太符合人物性格。
从前两轮测试来看,通义2.0的中文水平是能听能写,但还没有自由应对。不稳定,有时对,有时傻。
其实大模型都有这样的问题。我们能否应用它取决于另一件事。——学习能力。
比如让大模型直接做直播策划,往往内容不够成熟。
在这个时候,这取决于他们是否会学习。
最重要的是,当你给它一些参考案例时,他们能够理解教程的意思并模仿它们。
在这一点上,世超认为通义做得很好,大家直接看案例就行了。
石超让它做一个电动牙刷的直播过程。并提前丢失了蜜雪冰城的参考,引导了一下。
它立刻学会了,扔掉了一个非常详细的直播过程。开场、留客、锁客一套一套学习。
成都的汉语理解、学习和文本生成都相当在线。
此时,中文能力测试暂时结束。
让我们来看看大模型的弱点。——是否改进了数学逻辑题和代码。
那一年,我通过了无数大模型的考试,但是我通过了无数的大模型“鸡兔同笼”、“青蛙跳井”等等,简单的数学题,通义处理起来没问题。
即使稍微改变一下题目的形状,也是分步回答,容易驾驭。
但这也和许多大型模型一样。
一旦话题变得困难,达到初中水平,就会变得愚蠢。问它:任命三个长度小于1的线段,形成三角形的概率是什么?
它告诉我,0个交点组不成三角形,1个和3个交点组成三角形
。我去了,这么简单的解题思路,我怎么没想到呢?
以前有朋友问大模型能不能用来换试卷。
如果是数学老师,世超建议三思。
通义确实是进步了,但只进步到了小升初的水平。
对于大模型来说,严格推理的数学题仍然是最难啃的骨头。
在代码方面,世超却没有将通义问倒,它可以自由地回答。
抛出一堆要求,让它做一个非常简单的差评双十一促销页面。
人们三下五除二就完成了,效果还是很符合差评的审美,需要预留的位置也做了。
虽然可能是为了严格执行我对页面简洁的要求,但是看起来有点太清楚了。
测试到此为止,还没有结束。
除了提高基本能力外,通义还增加了两个新功能:文档分析。
事实上,像上传功能一样,是很多家庭的重点攻克对象,GPT-4后续也主要是在这方面发力。
经过世超的尝试,通义目前分析能力还是有点弱。
基本图像识别没有问题。比如给他丢个马斯克,问哪个。它一眼就能认出来,顺便给你两句科普话。
但是,如果增加一些抽象的互联网难度,比如世超给了我一个桌子上的娃娃,让它给我分析分析。
虽然它能认出这是“小鸡”,还有两个元素:打篮球。但我不太了解中的梗,坚持不懈地胡说八道“灌篮小鸡”梗的来历
我们的吴白老师,更是轻松地把通义玩得团团转。
给了一张“随520”梗图,里面是一张吴白老师的靓照和一张20元人民币。
结果,通义不仅看不懂什么梗,还数不清里有多少钱。
图像识别能力已经完全崩溃,指着吴白说,这是吴彦祖
不仅上传,而且几乎有意义。后来,超级考试了文档的功能,但也很容易通过通义考试。
石超向电动牙刷行业扔了一份行业报告,问电动牙刷行业发展的痛点是什么。
通义嘎嘎总结,列出各种分点,系统分析。看来答案很努力,但实际答案都错了。
原因很简单,这里世超特意挖了个坑,防止大模型胡说八道。
给出的文档只有目录,没有内容。通义这些分析不错,可惜都是胡编的,跟我的参考资料无关。
经过几轮考试,通义学生的成绩一目了然。
虽然整体没有特别抢眼的强更新,但也是稳扎稳打,基本能力提升得更扎实,学习能力一直在线。但其中,文档的能力还有很大的提升空间。
事实上,世超觉得自己闲逛时发现的产品比通义千问更有趣。
在阿里通义的官方网站上,有七个产品方向,如代码助理、客服等。
虽然大部分还是内测,但是不能试用。
世超开放的通义智文,文档体验比通义千问要好得多。
本产品专门用于解读文档,您不仅可以丢失长篇电子书,还可以将各种文章链接到其中。
世超试图将前面挖坑的行业目录输入其中。通义智文没有中招。
不仅明确指出里面没有提到,而且回答还标明数据来自文章中的几句话。这个设计很好,避免了胡说八道。
与通义千问本身相比,世超更期待这些专项训练的应用大模型。
大多数工作类型只使用一两个通识模型功能。像世超这样的代码需要文本分析和生成。更有针对性的培训实际上更有利于提高大型模型的实用性。
不仅从能力的角度来看,事实上,许多大型模型已经达到了一个平台时期,很难取得巨大的突破。从这些小点开始,它可能会成为一个更好的解决问题的想法。
这次,和通义千问2.0揭秘:大模型的劲敌竟是伍佰,你敢信有关内容就为朋友们整理到这里,更多优惠活动资讯信息可查看本站其他栏目。