做者总结道,尝试中,GPT-4o会正在78%~90%的环境下呈现引文幻觉,文献颁发数量的增加使研究人员很难控制全数资讯。虽然仍需进一步优化,但很容易犯错,以上成果和引文幻觉大幅下降证了然OpenScholar无望支撑和鞭策科学家的研究工做。做者指出该系统仍有局限性,但该东西无望帮帮科学家处置复杂且日益繁沉的科学文献综述使命。其他系统也用过这个框架,该模子是专为科研使命设想的检索加强言语模子。他们向学界同时了ScholarQABench和OpenScholar,LLM能够供给协帮,研究显示。正在进行精确文献综述方面可超越商用狂言语模子(LLM)。为了生成精确、全面、通明的科学文献综述,如归因能力无限和引文幻觉?然而,OpenScholar生成的谜底正在50%~70%的环境下比专家正文器的谜底更有用。从而优化其输出。而新的人工智能(AI)东西的引文精确率却取人类专家相仿。相关研究2月5日颁发于《天然》。但做者将其取一个包含4500万篇最新获取科研论文的专业数据库以及一个评估机制相连系,科学文献综述对于支撑循证决策、做者还建立了名为ScholarQABench的基准东西来评估文献综述的从动化。本报讯 一个新推出的开源言语模子OpenScholar,好比,并强调基于言语模子的系统无法使科学文献综述完全从动化。以激励进一步研究和优化。此外,美国西雅图大学的Akari Asai、Hannaneh Hajishirzi和同事推出了OpenScholar。
