【本報訊】加拿大科學家在16日出版的《放射學》雜誌上刊登新論文稱,最新版本的ChatGPT通過了美國放射學委員會的考試,突出了大型語言模型的潛力,但它也給出了一些錯誤答案,表明人們仍需對其提供的答案進行核查。

ChatGPT是一種人工智慧(AI)聊天機器人,它使用深度學習模型在龐大的訓練資料中識別單詞之間的模式和關係,並根據提示生成類似人類的反應,類似的聊天機器人正被納入穀歌和必應等流行的搜尋引擎中,醫生和患者們也會使用這些搜尋引擎來搜索醫療資訊。但由於資料來源並不一定真實可靠,該工具會給出與事實不符的答案。

為評估ChatGPT在美國放射學委員會考試問題上的表現並探索其優勢和局限性,多倫多大學的拉傑什·哈瓦那博士及其同事首先測試了基於GPT-3.5的ChatGPT的表現。研究團隊使用了150道選擇題,這些選擇題與加拿大皇家學院和美國放射學委員會考試的風格、內容和難度相當。這些問題不包括圖像,分為低階(知識回憶、基本理解)和高階(應用、分析、綜合)思維問題。高階思維問題可進一步細分為影像學表現描述、臨床管理、計算和分類、疾病關聯。

研究人員發現,基於GPT-3.5的ChatGPT的正確率為69%,接近70%的及格線。該模型在低階思維問題上表現相對較好,正確率為84%,但回答高級思維問題時表現不佳,正確率僅為60%。而性能更優異的GPT-4的正確率為81%,且在高階思維問題上的正確率為81%,遠好於GPT-3.5。但GPT-4在低階思維問題上的正確率僅為80%,答錯了12道題——GPT-3.5全部答對了這些題目,這引發了研究團隊對GPT-4收集資訊的可靠性的擔憂。

這兩項研究都表明,ChatGPT會有提供不正確答案的傾向,如果僅僅依靠它獲取資訊,非常危險,因為人們可能意識不到其給出的答案是不準確的,這是它目前面臨的最大的問題。當前,ChatGPT最適合用來激發想法,説明撰寫資料摘要,而用於快速資訊檢索,需要對其提供的事實性答案予以核查。【編輯:王京】

編輯出版發行人:環球新聞時訊報
社  長:魏月童
承  印:環球電視有限公司
地  址:香港上環幹諾道西20號中英大廈14樓1401室