今年年初最热门的话题之一便是风靡整个互联网的人工智能ChatGPT,它能熟练准确地理解问题句子语法逻辑并作出正确的回答,在许多领域得到了应用。Chat Generative Pre-trained Transformer (ChatGPT)是一类被称之为回归语言模型的大型语言模型 (LLM) 中的最新成员,是一个1750 亿参数的自然语言处理模型,可以对用户输入生成对话式响应,无论是写论文还是回答网友问题、生产段子还是修改计算机程序代码,其表现出来的性能都令人惊叹。
2022年12月24日在JMIR Med Educ杂志的一项研究中首次探索了ChatGPT人工智能能否通过美国执业医师考试,从而在可见的未来能应用到患者问诊互动、健康知识查询、临床查询等相关软件中,以及代替医师对患者问诊做出诊断。
在这项研究中,研究人员旨在量化 ChatGPT 评估医学知识的主要能力(生物医学、临床、流行病学和社会行为科学telegram中文版的下载的网址是多少知识),以及通过美国医学执照考试 (USMLE) 第 1 项和第 2 项以临床知识为中心的 2 个数据库。测试1侧重于基础科学及其与医学实践的关系,而测试2侧重于这些基础科学的临床应用。研究人员还将 ChatGPT 在这些考试中的表现与前代人工智能 (2 个 LLM、GPT-3 和 InstructGPT )的表现进行了比较。此外,为了进一步评估 ChatGPT 作为模拟医学导师的能力,研究人员定性地检查了 ChatGPT 在逻辑论证以及使用内部(题目信息)和外部信息(题目外的知识)来回答的完整性和正确率。
完整版的telegram的下载网站是多少
结果显示,在AMBOSS-Step1、AMBOSS-Step2、NBME-Free-Step1和NBME-Free-Step2这 4 个医学数据库的测试中,ChatGPT 的准确率分别为 44%(44/100)、42% (42/100)、64.4% ( 56/87) 和 57.8% (59/102)。ChatGPT 在所有数据库中的平均表现优于前代人工智能InstructGPT 8.15%左右,而GPT-3的表现与随机机会相似(类似人类随机选择答案)。
在AMBOSS数据库进行的问题难度测试中,随着 AMBOSS 的问题测试难度增加,ChatGPT 的准确性显著下降 (P=0.01),从1 级较低难telegram中文版的最新下载地址是什么度问题的 64% (9/14) 准确率下降到第 5 级较高难度问题的 0% (0/9) 准确率,在处理较复杂困难的测试题目上跟人类相似。
在回答问题的质量评估上,研究人员通过逻辑推理的存在、内部题干信息理解和外部信息收集归纳三个指标来评估 ChatGPT 的回答质量telegram官网最新版的下载的入口哪里有。研究人员发现 ChatGPT 提供的每个回复都提供了对其答案选择的合乎逻辑的解释,与回复的正确性无关。此外,在NBME-Free-Step1和NBME-Free-Step2数据库中,ChatGPT 在 96.8% (183/189) 的问题中使用了问题的内部信息。最后,对于NBME-Free-Step1数据库,92.9% (52/56) 的正确回答和 48.4% (15/31) 的错误回答使用了问题之外的信息(差异为 44.5%;P <0.001 )。
对于NBME-Free-Step2 数据库,外部信息用于 89.8% (53/59) 的正确答案和 62.8% (27/43) 的错误答案(差异为27%;P =0.001)。所有31个错误答案中,逻辑错误是最常见的有13 (41.9%)个,其次是信息错误有7 (22.6%)个,统计错误有2 (6.5%)个。可见ChatGPT在回答质量上非常高,对题目外的信息收集归纳能力也非常强。
这些测试说明ChatGPT 标志着自然语言处理模型在医学问答任务上的显著改进完整版telegram的下载入口。通过在各类医师执照考试相关医学知识数据库训练测试,研究人员表明ChatGPT模型达到了相当于三年级医学生的及格分数。此外,研究人员强调了 ChatGPT 在大多数答案中提供逻辑和信息上下文的能力。这些事实证明 目前阶段ChatGPT 可以作为一种交互式医学教育工具来支持学习。随着未来进一步发展,可以预见ChatGPT未来会更加强大,不远的将来有一天或许真的能帮助或者代替执业医师对患者进行问诊分析。
Ref:Gilson A, Safranek C, Huang T, Socrates V, Chi L, Taylor R, Chartash D;How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for Medical Education and Knowledge Assessment;JMIR Med Educ2023;9:e45312;URL: https://mededu.jmir.org/2023/1/e45312;DOI: 10.2196/45312