(資料圖)
論文作者指出,雖然OpenScholar后續(xù)仍需進(jìn)一步優(yōu)化,但該AI工具有望幫助科學(xué)家處理復(fù)雜且日益繁重的科學(xué)文獻(xiàn)綜述任務(wù)。
據(jù)介紹,科學(xué)文獻(xiàn)綜述對于支持循證決策、微調(diào)科學(xué)過程和引導(dǎo)新發(fā)現(xiàn)都很重要。然而,文獻(xiàn)發(fā)表數(shù)量的增長使研究人員很難掌握全部資訊。大語言模型可以提供協(xié)助,但卻很容易出錯(cuò),如歸因能力有限和引文幻覺。
為了生成準(zhǔn)確、全面、透明的科學(xué)文獻(xiàn)綜述,美國華盛頓大學(xué)Akari Asai、Hannaneh Hajishirzi和同事及合作者一起,研發(fā)推出了開源語言模型OpenScholar。該模型是專為科研任務(wù)設(shè)計(jì)的檢索增強(qiáng)語言模型,其他系統(tǒng)也用過這個(gè)框架,但論文作者將其與一個(gè)包含4500萬篇最新開放獲取科研論文的專業(yè)數(shù)據(jù)庫以及一個(gè)自我評估機(jī)制相結(jié)合,從而優(yōu)化其輸出。
論文作者還創(chuàng)建了名為ScholarQABench的基準(zhǔn)工具來評估文獻(xiàn)綜述的自動(dòng)化。研究顯示,OpenScholar的準(zhǔn)確率比GPT4o和PaperQA2(一個(gè)文獻(xiàn)綜述工具)這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外,OpenScholar生成的答案在50%到70%的情況下比專家注釋器的答案更有用。
這些研究結(jié)果和引文幻覺大幅下降,證明了OpenScholar有望支持和推動(dòng)進(jìn)一步研究工作。論文作者也提醒說,該AI系統(tǒng)仍有局限性,同時(shí),基于語言模型的系統(tǒng)無法使科學(xué)文獻(xiàn)綜述完全自動(dòng)化。因此,他們向?qū)W界同時(shí)開放ScholarQABench和OpenScholar,以鼓勵(lì)進(jìn)一步研究和優(yōu)化。(完)
關(guān)鍵詞: 消費(fèi)導(dǎo)報(bào)網(wǎng) 聚焦資訊







