大型语言模型(LLM)因其能够处理人类语言并执行未明确训练任务而受到广泛关注。然而,目前对LLM的化学能力只有有限的系统性了解,这需要进一步改进模型以减少潜在危害。弗里德里希·席勒大学耶拿分校的Kevin Maik Jablon提出了一个名为ChemBench的自动化框架,用于评估当前最先进的LLMs在化学领域的知识和推理能力。他们整理了超过2700个问题-答案对,评估了多个开源和闭源的LLMs,发现最好的模型在平均表现上超过了人类化学专家。但模型在一些基础任务上仍然存在困难,并且容易给出过于自信的预测。ChemBench不仅为LLMs在化学领域的优化提供了量化基准,还揭示了当前模型的潜力与局限。研究成果以“A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists”为题发表于Nature Chemistry。

他们的工作主要创新点在于:
1.首个化学领域多维度评估框架:填补了现有基准(如BigBench、LM Eval Harness)在化学专业任务上的空白,支持开放性和工具增强型系统的评估。
2.数据集构建方法创新:结合手动整理(教科书、考试题)与半自动生成(化学数据库衍生问题),确保覆盖广度和质量。引入语义标注(如SMILES字符串、方程式标签),适配科学文本处理需求。
3.人类-模型对比分析:首次系统化对比LLMs与化学专家的表现,揭示模型在特定任务上的优势(如教科书问题)与劣势(如结构推理)。
4.自信度评估与校准研究:通过提示模型自我评估信心水平,发现其自信度与答案正确率脱节,为安全应用中的不确定性管理提供洞见。

图1:ChemBench框架概述。

图2:主题和所需技能的分布。

图3:ChemBench-Mini上模型和人类的性能。

图4:ChemBench-Mini上不同主题的模型和人类的表现。

图5:置信估计值的可靠性和分布。
该研究成果显示:
一方面,研究成果强调了大语言模型在化学科学中的强大能力:领先的模型在许多主题的具体化学问题上超越了领域专家。另一方面,仍存在显著的局限性。对于非常相关的话题,模型提供的答案是错误的。此外,许多模型无法可靠地估计自身的局限性。
然而,模型在评估中的成功或许更多地揭示了我们用来评估模型和化学家的问题的局限性,而不是模型本身。例如,虽然模型在许多教科书问题上表现良好,但在需要更多关于化学结构推理的问题(如异构体数量或核磁共振峰)上却显得力不从心。
鉴于模型在研究中优于普通人类,研究者任务需要重新思考如何教授和考试化学。批判性思维越来越重要,而死记硬背或记忆事实仍然是大语言模型将继续超越人类的领域(当训练在正确的训练语料库时)。
研究成果还突显了评估框架广度与深度之间的微妙权衡。不同主题上的模型性能分析显示,模型在所测试的子领域中的表现差异很大。然而,即使在同一主题内,模型的表现会因问题类型和回答所需推理的不同而大相径庭。目前化学大语言模型的评估框架主要设计用于衡量模型在特定属性预测任务上的表现。它们无法用于评估推理或为科学应用构建的系统。
研究显示,精心策划的基准可以提供更细致的理解,揭示大语言模型在化学科学中的能力。重要的是,在开发更好的人机交互框架方面需要更多关注,因为模型无法估计其局限性。
尽管发现指出了许多改进大语言模型系统的领域,但也要认识到明确定义的度量标准是许多机器学习领域,如计算机视觉进步的关键。虽然当前系统可能远未达到像化学家那样推理的程度,但研究者认为ChemBench框架将成为实现这一目标的垫脚石。
论文地址:https://www.nature.com/articles/s41557-025-01815-x