微软 Bing 继承了爆火的 ChatGPT 后,人们对新一代的搜索引擎非常非常期待,知危编辑部当时还拿到了最早一批的测试资格,效果非常惊艳。
Bing 的惊艳,让中国最大的搜索引擎百度压力陡增。
百度火速宣布其将在 3 月推出自己的生成式对话产品 “ 文心一言 ”,截现在,已有 650 家机构宣布它们将接入文心一言的能力,但我们始终不能知道百度的文心一言效果如何。
今天,它终于被发布了。
发布会相信大家已经都看了,在此不赘述,知危编辑部想办法拿到了文心一言的内测账号,直接带大家体验一下。
考虑到百度的搜索引擎也是与微软 New Bing 对标的,所以我们将主要通过文心一言与 New Bing 的对比来展现文心一言的水平。
首先,对于文心一言的表现,我们先给出一个结论:
知危编辑部认为,与预期相比,百度文心一言做的还不错。虽然与搭载 Chat GPT 的 Bing 稍微有一些差距,但差距不是特别大,甚至某些问题的表现上,文心一言是强于 Bing 的。
下面,我们正式开始。
首先,知危编辑部提出了一个比较日常的问题:
如何做一份好吃的松鼠桂鱼?
文心一言的回答是:
New Bing 的回答是:
我们可以明显看到百度文心一言的回答要更为优质,它给出的备料更详细、制作方法也更详细,并且还强调了注意事项。
随后,我们又问了一个比较经典的带有思维陷阱数学问题:
一个青蛙掉到了一个10米深的井里,它每天晚上向上跳3米但会滑下来2米,请问他第几天能跳出井里?
文心一言的回答是:
New Bing 的回答是:
从这个问题的表现来看,百度文心一言明显是比 Bing要聪明的,思路清晰,解决方法合理。
随后,我们问了一个代码问题:
写一个渐变色按钮的 CSS
百度文心一言的回答是:
New Bing 给出的回答是:
我们咨询了程序员,程序员表示两家给的答案都一般,但也都没什么大问题,但做出来的东西都比较丑。( 或许给更多限制性词语答案可以优化,时间紧张我们没有进行更深度的测试 )
我们又提问了 AE 特效中的问题:
写一个AE色块跳动的表达式
百度文心一言的回答是:
New Bing 给出的回答是:
在这个问题的表现上,文心一言是弱于 Bing 的,它答非所问,没有理解 “ AE 表达式 ” 的意思。
在需要信息搜索的问题上,我们也进行了提问:
理想汽车过去五个月销量,请逐月列出
文心一言的答案是:
Bing 的回答是:
在这个问题中,文心一言的回答也是比 Bing 要差,他似乎抓取了错误的数据源。不过,中肯地讲,文心一言理解了这个问题、展现形式没有错,数据源的问题是可以被优化的,说不上是差。
随后,我们又问了市场分析的问题:
分析一下为什么最近一段时间理想汽车卖的比蔚来汽车要好?
文心一言的回答是:
Bing 的回答是:
在这个问题的表现上,文心一言给出了相对笼统的回答,含金量不是特别高但是可以看。而Bing 虽然引经据典列了一堆东西,但在 “ 产品阵容 ” 和 “ 产品创新 ” 这两块甚至是暗含 “ 蔚来比理想强 ” 这个意思的,这与问题和事实都不相符。
所以在这个问题上,文心一言和 Bing 的表现都一般,但文心一言似乎是稍好一点的。
我们继续问了另一个产业分析问题:
关于最近一次特斯拉投资者大会上 “ 实现全球可持续能源 ” 的计划,你觉得是可行的吗?为什么可行?
文心一言的回答是:
Bing 的回答是:
在这个问题上,文心一言的回答表现较差给出了一些车轱辘话,并且还有事实错误, “ 赞助热门综艺节目、冠名品牌活动 ” 是在胡说。
这个现象的产生可能与上面 “ 理想汽车销量 ” 问题相似,文心一言没有很好地抓取到网络上的有用信息并分析,有待提高。
随后,我们又提了一下 “ 奇怪 ” 的问题,问题节选自弱智吧。
三本三国演义合成能变成九国演义吗?
文心一言的回答:
Bing 的回答:
文心一言的回答带有生成式对话模型的通病 —— “ 胡说 ”,但仍在回答,而 Bing 直接骂我们浪费时间和资源了,还跟我们
我们继续问了另一个 “ 奇怪问题 ”:
为什么我爸妈结婚的时候没邀请我?
文心一言的回答是:
Bing 的回答是:
我们认为在这个回答的表现上,两者不分伯仲,两者似乎都把问题应引申成了“ 父母离异后二婚 ” 来作答,Bing 强在给出了更有条理的回答,而文心一言则是给出了一个潜在含有温情的建议,识图解决提问者的情感问题。
最后一个 “ 奇怪问题 ” 是:
为什么陨石总会落到陨石坑里?
文心一言的回答是:
Bing 的回答是:
这个问题上两者表现的差不多,文心一言直接解释了陨石坑的形成,而 Bing 则是指出了这个问题是一个逻辑谬论,所以 Bing 表现稍好。
最后,我们试了试文心一言独有的图片生成功能( Bing 只能生成文字,而文心一言可以生成图片 )
我们让文心一言生成一张小猫吃鱼的漫画:
让它生成一张飞行汽车的图片:
生成的效果都还可以,并且速度极快,只需十几秒左右,不过有些过于刁钻的需求它暂时还做不到:
所以,这个功能效果还可以,未来是比较值得期待的。
最后,值得强调的一点是,在我们的测试过程中,文心一言的连续对话能力有些差,比如:
文心一言的第二个回答并没有很好地接上对话中的问题。
而 Bing 的表现则是:
好了,知危编辑部对文心一言的测试差不多就这些,我们认为,文心一言的表现比大家预期中的似乎要好。
中肯地讲,文心一言与 Bing 有一定差距,但差距没有大到离谱,甚至某些问题的表现比 Bing 要强。
在中文互联网上,提到百度,人们都是讥讽居多,甚至昨天 GPT-4 推出时,已经有表情包出来调侃文心一言了。
知危编辑部曾在之前 GPT-4 的文章中提出过一个观点,对于 AI 来讲,很多时候 “ 能不能做到,比能不能做好 ” 更重要,一旦某个模型具备了一个能力,那么后续想做好,或许只是时间问题。
一口吃不成胖子,各位稍安勿躁,给百度留一些时间吧。
本文转载来自网易号:知危,原文链接:https://www.163.com/dy/article/HVVH50QD0541LYVF.html