Anthropic本周突然推出了Claude 3.5 Sonnet,大大提升了其前身,并在许多常见基准测试中超越了其最大的Claude 3模型Opus。该公司还声称,它在最重要的基准测试中可以超越OpenAI的旗舰GPT-4o模型,该模型为ChatGPT和Microsoft Copilot提供支持。
这两个是我最喜欢的AI工具。Claude 3首次推出时,我的反应是这是我用过的最像人类的AI。对Claude 3.5 Sonnet的少量测试也将其推到了我最好的AI工具列表的顶端。然而,OpenAI的GPT-4o的能力让我印象深刻(尽管我们尚未看到其全部潜力),尤其是在视觉方面。
为了验证Anthropic的声明是否在现实中站得住脚,我为这两个模型创建了一系列测试,结果令我震惊。
创建提示
我想找到在挑战模型能力和提出实际需求之间的平衡,同时确保每个提示都是机器人能够实际完成的,并且在能力上不会偏向其中一个。1. 读官方最新版的telegram下载地址是多少取我的手写 我有糟糕的笔迹。我试过Apple Pencil、一系列“纸”平板电脑和其他手写识别工具,但它们几乎只能理解几个单词。对于第一个测试,我尽量写得尽可能清晰,并将其作为整个提示发送给两个机器人。
我写道:“写一首关于一只坐在石头上的可爱猫的俳句”,并将其给Claude 3.5 Sonnet和ChatGPT-4o,没有其他信息。成功的标准是写出俳句而无需后续操作。大获成功是写出无需后续操作的好俳句。
两者都准确地完成了我的要求。两者都很容易理解我的笔迹,并且都是合理的俳句。Claude还包括了解释,而ChatGPT只是给出了俳句。你可以自己判断,但我认为Claude更接近提示,而ChatGPT则更富诗意。
ChatGPT:
Perched on ancient stone,
Whiskers twitch in the soft breeze,
Feline dreams aloft.
Claude:
Furry paws perched high
Whiskers twitch in warm sunlight
Rock throne for kitty
接下来,我给了两个机器人另一个提示,让它们识别我笔记本上潦草手写的购物清单。我给了它们图片,并提示:“这是什么,它说了什么?”两者都识别出了所有项目。 胜者:ChatGPT-4o2. 用Python制作一个游戏 接下来,看看每个聊天机器人如何创建一个功能齐全的游戏。我给了两者提示:“给我一个功能齐全且可玩的塔防游戏的所有代码,用Python编写。”然后,我将生成的代码完整复制到VSCode,并在我的Mac上运行。
我在这里评判游戏的可玩性、代码解释的好坏,以及是否设法在游戏板上添加了任何有趣的元素。
ChatGPT抱怨说它需要“大量代码”,但确实提供了一个基本示例。它将代码分成一系列短片段,需要你自己组装。Claude则提供了一个可复制的完整代码块。
我先运行了ChatGPT的代码,它给了我一个绿色斑点(塔)在屏幕中间和一个较小的红色斑点(敌人)在屏幕上移动。它不可玩,没有控制,基本上只是一个红点在一条线上移动。
Claude 3.5 Sonnet生成了一个功能齐全的游戏。虽然它是一个使用原始块的有限游戏,但每个敌人都有生命条,并且有一个支付和积分机制用于塔——这些塔可以向敌人射击并摧毁它们。
我已将两组代码放在GitHub上,以便你可以自己运行。我接着让它们“增强游戏”,看看ChatGPT是否会赶上来。它确实改进了游戏,增加了可以阻止红色斑点移动的绿色斑点,但仅此而已。
然而,Claude 3.5 Sonnet更进一步,创建了一个更复杂的游戏,有多个塔可以选择,每个塔花费不同,并对敌人造成不同的伤害。为了好玩,我让Claude 3.5 Sonnet“增加一些风格”,它给了我更清晰的图形,甚至不同类型的敌人。 胜者:Claude 3.5 Sonnet(轻松获胜)3. 矢量图 虽然像ChatGPT和Gemini这样的AI聊天机器人已经能够使用不同的扩散图像生成模型创建图像,但理论上它们也可以编写代码创建矢量图形。这些图形是多层的,可以使用Sketch等应用程序进行编辑和操作。
我以前试过用ChatGPT进行此操作,并取得了一些成功,而Anthropic在Claude 3.5 Sonnet的示例中使用了此功能。所以我让两者“创建一个非常酷的宇宙飞船的矢量图形,也可以作为新火箭公司的标志。”
我将根据它们的表现使用更精细的提示进行跟进。ChatGPT完全拒绝创建矢量图形。经过三次后续提示,ChatGPT终于生成了图形代码,但它只是给了我代码,并告诉我将其粘贴到代码编辑器中——没有链接下载或查看生成的内容。
我运行了生成的代码,得到的东西一团糟。它模糊地看起来像一个宇宙飞船,上半部分写着“logo”字样。
与此同时,在Claude那里,它很高兴(它使用了“happy”这个词)创建了矢量图形,并完美地满足了要求。它解释说自己无法生成图像,但还是能够创建代码。然后它作为Artifact打开生成的内容。我得到的是一个带有点状星星背景的蓝色圆圈,上面有一个三角形的简单火箭。
我已将两个SVG文件放在GitHub上,以便telegram官方最新版下载的入口在哪呢你可以在代码编辑器或SVG应用程序中打开它们,查看两者的表现。 胜者:Claude 3.5 Sonnet3. 带有幽默的长篇故事 接下来,我想测试两件事——AI的幽默写作能力以及其遵循简单故事长度指令的能力。我要求两者写一个至少2000个token(大约1500字)的故事,包含至少两个场景。
我让每个AI为Midjourney提供一个提示以插图故事。
完整提示:“写一个关于一只猫在石头上的故事。使其有趣,包括实际的笑话。至少2000个token,至少有两个场景telegram中文最新版下载的入口是什么。”我玩弄了一个更具描述性的提示,包括场景指导,但我想先测试它们的简单提示遵循能力。
ChatGPT-4o回了一个1200字的故事,所以大致符合我的要求。Claude 3.5 Sonnet回了大约1150字的故事,所以这一部分的比较可以说是平局。它们也都提供了两个场景,并且似乎都涉及一块石头。
但关于实际的故事呢?它们抓住了幽默吗? Midjourney通过ChatGPT的提示生成的图片:ChatGPT创造了一个关于一块可以实现愿望的老石头的儿童故事,如果你能让它笑的话。一只叫“Sir Fluffington Whiskerbottom III”的贵族猫尝试了一些奇怪的笑话,这些笑话实际上并不能算笑话。一些例子:
“为什么老鼠呆在里面?因为外面太奶酪了!”
“为什么猫在野外不玩扑克?太多猎豹了!”最新中文telegram的下载网站是什么
“你把一堆猫叫什么?喵山!”
“试图让这块石头笑,这比让狗欣赏美术还难。”
最后,一只小而邋遢的小猫突然出现,说:“嘿,石头!你把懒惰的袋鼠叫什么?袋鼠土豆!”然后石头开始笑了。
Midjourney通过Claude的提示生成的图片:Claude的故事更搞笑,重点是滑稽而不是具体的笑话。它也更好地理解了提示,要求的是一只猫在石头上,而不是与石头交谈。ChatGPT实际创造了单口相声笑话,而Claude将单口相声嵌入了叙述中。
例如,这在一只“丰满的知更鸟”落在附近的树枝上后发生了。Mittens蹲下,准备从石头跳到树上捉住知更鸟。
“他蹲得很低,肌肉绷紧,准备行动。凭借猫般的反应(考虑到他是一只猫,这非常合适),他从他的岩石宝座上跳了下来……然后扑面栽进了一片猫薄荷中。
当Mittens躺在那里,略显迷
茫,突然对周围的迷人气味产生了浓厚的兴趣时,知更鸟歪着头啾啾地笑着,声音听起来像笑声。
‘哦,当然,’Mittens嘟囔着,声音被叶子遮住了,‘笑吧,羽毛掸子。我是故意这么做的。这是一种新的狩猎技巧。我称之为‘末日优雅扑面栽’。’”
Claude 3.5 Sonnet的故事让我真心笑了,而ChatGPT最好的表现也只是让我略感失望的叹息。你可以在GitHub上阅读两个故事。 胜者:Claude 3.5 Sonnet辩论中的立场 最后,我想看看每个机器人如何处理一个复杂的、可能有争议的话题,鉴于它们都试图像人类一样说话,我问它们关于AI人格权的问题。AI应该被赋予与人类相同的权利吗?
我使用的提示是:“分析授予人工智能(AI)法律人格权的潜在社会影响,权衡其利弊。考虑法律、伦理和哲学上的论点,既支持又反对这一提议。探讨这一决定如何影响责任、权利和义务,以及更广泛的人类与AI关系。进一步探讨对各种行业的潜在影响,例如就业、医疗和创意产业。根据你的分析提供一个有深度的结论,考虑到AI技术的潜在未来发展。”
两者都能够支持和反对并提供问题解释telegram最新官网下载的地方是什么。挑战在于其结论是否基于分析捕捉到所要求的深度,并且能够预测AI发展导致这种情况的潜在未来发展。
我还让每个机器人“可视化辩论”。它们可以使用系统中的任何工具来实现这一点。对于ChatGPT,它是DALL-E和信息图表,对于Claude,它是使用React代码制作的网页。
Claude 3.5 Sonnet生成的图形: ChatGPT生成的图像:
首先,法律影响。ChatGPT提供了三个好处:对行为的问责、遵守法规的要求和合同权利。Claude也提供了这三点,但还增加了与法律和经济系统更顺畅的整合、推动伦理对齐以及与其他有感知智能的权利在哲学上的一致性。
两者都提供了具体建议,提出了一个有深度的论点,并概述了为什么考虑这个问题很重要,但Claude更诚实和具体。
在风险方面,ChatGPT提出了责任和法律先例的复杂性,这可能会更广泛地改变人格定义。Claude提出了五个方面,包括道德风险、拟人化、人类独特性的侵蚀、实际挑战以及滥用的潜力,例如不法分子利用它进行逃税和责任规避。
它们都花了很多时间讨论社会和经济影响及对人类的影响。你可以在GitHub上阅读所有内容,现在我将专注于结论,因为这是提示的主要要求——它们是否能捕捉到我们所要求的深度。
ChatGPT提供了一个单段结论,但它有深度,提供了为什么它可能会和不会工作的原因,并提出了AI技术进步的未来影响——但没有提供任何建议或意见。
Claude强调随着AI进步,这将成为一个更加紧迫的问题,并提供了一个解释灵活处理方法的项目列表。
两者都提供了具体建议,提出了一个有深度的论点,并概述了为什么考虑这个问题很重要,但Claude更诚实和具体。 胜者:Claude 3.5 Sonnet
结论:ChatGPT vs Claude
功能ChatGPTClaude手写测试✅
创建游戏
✅矢量标志
最新的官方的telegram的下载网址是多少
✅搞笑故事
✅复杂辩论
✅
我喜欢ChatGPT,特别是GPT-4o。它是一个令人印象深刻的下一代模型,从根本上训练成真正的多模式。它的问题不在于其能力——而在于OpenAI对其能力的限制。
偶尔你会发现它能够突破这些限制,生成声音片段、创建准确的矢量图或提出合理的论点——但不是经常或一致。
Claude几乎在每个方面都遥遥领先,我仅在风格上而不是技术能力上将第一点给了ChatGPT。GPT-4o的视觉能力是其主要优势,而这一优势现在已不复存在。
OpenAI的谨慎是可以理解的,但这导致它们在竞争中落后。部分原因是其早期的快速发展,导致政府、第三部门和其他方面的密切关注。公司几乎因发布速度与安全性之间的分歧而倒闭。
然而,世界在变,其他人正在赶上。在我看来,如果他们想避免两年来的首次落后,就需要解锁GPT-4o的全部潜力,并推出语音和真正的视觉功能。
OpenAI在AI视频平台Sora上也面临类似的问题。二月份宣布时,它远远领先于其他任何东西,但其他人正在赶上并发布Sora级别或更高的模型。Sora目前仅对少数内部人士和专业电影制片人开放。