首页 » 博客 » 2024 年最佳大型语言模型 (LLM):基于数据的研究

2024 年最佳大型语言模型 (LLM):基于数据的研究

如果你每月花 20 美元购买 AI 工具,你不妨选择最好的一个,对吧?

好吧,我们做了研究,并且得到了结果!

我和我的团队分析了三种最流行的 AI 语言工具的响应质量和内容构思。查看我们在下面了解到的内容,找出哪种 LLM 最好。

关键要点

  • 我们向 Gemini、ChatGPT 和 Copilot 提出了两个问题(一个用于衡量准确性,一个用于衡量战略建议),以确定最佳答案。
  • 我们根据 0 到 3 的九 日本号码采集 项标准衡量了每位法学硕士的回答,总分为 27 分。
  • 尽管 Gemini 和 ChatGPT 在某些情况下也能够提供相当全面的回答,但总体而言,Copilot 的表现最佳。
  • AI大型语言模型有几十种用例,包括主题创建、文章大纲、反馈和质量保证。
  • 我不建议你让人工智能法学硕士 (AI LLM) 撰写你的内容,除非你愿意对它们进行大量的编辑和事实核查。

我们的方法

为了从营销和 SEO 的角度 数据科学:数据如何帮助你的公司 发现哪种 AI 语言模型是最好的,我们向 Gemini、Copilot 和 ChatGPT 提出了两个精心设计的问题——一个用于确定模型的准确性,另一个用于评估其战略能力。

然后,我们根据 9 个因素对每个回应的质量进行从 0 到 3 的等级排序。

这些因素包括:

  1. 准确性。答复是否确实正确?
  2. 详细程度。回复是否提供了足够的背景信息?
  3. 可读性。答复是否合理,是否用普通人能理解的语言写成?
  4. 长度。响应是否太长或太短?
  5. 资源链接。是否有相关资源的链接?
  6. 后续问题。法学硕士如何回答后续问题?
  7. 响应时间。需要多长时间才能做出响应?
  8. 真实性。听起来像人类还是人工智能?
  9. 数字无障碍。该工具是 阿尔及利亚商业指南 否通过提供基于文本的交互来帮助残障人士,从而比其他界面更容易导航?

我们为什么要走这条路?NP Digital 高级内容制作主管 Ryan Velez 解释道

“我们设计这些问题的目的是确保我们能够为法学硕士测试尽可能多的理解方面。它能多好地解析信息以获得最准确和最新的结果?如果我们想更深入地研究,它能多好地处理后续结果?”

每份答案满分为 27 分,最高分为 52 分,总分最高的模型被评为最佳 AI 大型语言模型。

了解你的法学硕士

在深入研究结果之前,我们先花点时间介绍一下我们的竞争对手。我们比较了谷歌、微软和 OpenAI 的三大领先大型语言模型。

ChatGPT

OpenAI 的 ChatGPT 是最初的 AI LLM。它于 2022 年 11 月推出,成为有史以来增长最快的应用程序,仅用两个月就达到了 1 亿月活跃用户。

ChatGPT 最初是一个生成文本模型,允许用户提问并执行其他基于文本的活动。如今,它拥有其他几个 AI 模型,例如 DALL·E 和 Whisper,允许用户创建图像并将语音转录为文本。

ChatGPT 可免费使用。高级版本 ChatGPT Plus 每月收费 20 美元。