光明網(wǎng)評論員:大模型作答高考卷,一個有意思的實驗: 2024年全國高考結(jié)束后,上海人工智能實驗室的司南評測體系(Open Compass)選取了包括GPT-4o在內(nèi)的中外6個開源模型,針對高考全國新課標(biāo)I卷“語數(shù)外”三門課程進行了全卷能力測試。結(jié)果顯示,阿里巴巴的Qwen2-72B語文成績奪冠,124分;GPT-4o英語成績居首(似毫無疑問),111分。6個大模型均是數(shù)學(xué)“學(xué)渣”,最高分也沒有超過80分。
大模型在高考季刷一下話題,很有趣,因為信息披露有限,也不必得出一些可以較真的結(jié)論。只是在測評中,也有一些大模型訓(xùn)練的蛛絲馬跡可以捕捉,助人們更豐富地理解AI。
比如,6個模型在語文卷中現(xiàn)代文閱讀部分得分差距不大,卻在文言文考題中差距極大,墊底的是來自法國Mistral的對話模型。這可以略窺不同模型在訓(xùn)練材料中的語言占比,感受一下歐洲大模型對漢語訓(xùn)練材料的看重程度到底幾何。
比如,閱卷老師表示,多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念,寫作文不像寫作文,更像問答題。這是因為AI輸出本質(zhì)上是一種基于數(shù)據(jù)的模式匹配,而不是傳遞人的情感體驗,因此無法生成文章之為文章的那個情感紐帶,生成文章字里行間的“潛臺詞”,故而只有“回答”而不能“作文”。
比如,6個大模型都折戟數(shù)學(xué),遠未達到及格水平。尤其耐人尋味的是,它們對數(shù)學(xué)主觀題目的回答“具有迷惑性”,甚至出現(xiàn)了過程錯誤但答案正確的情況。這句話說白了就是,大模型沒有足夠的邏輯推理能力,但在學(xué)到人類這個深度能力之前,它先學(xué)會了用數(shù)據(jù)占有優(yōu)勢撒謊,還可以編造復(fù)雜謊言。(見光明網(wǎng)評論員文章《你被人工智能騙過么》)
實際上,“語數(shù)外”三科閱卷老師在整體點評時都提到了主觀題的問題,除了語文數(shù)學(xué)上述問題之外,英語閱卷人也提出了大模型的作文超字問題——英語已經(jīng)是三科中客觀性最強的科目。這意味著,大模型在處理復(fù)雜上下文時可能會遇到困難,難以準(zhǔn)確理解多義性、歧義性和語境變化。而這種多義性與歧義性,以及兼縱理性與情感的處理要求,恰恰是今天大模型們要進軍的醫(yī)療、司法等領(lǐng)域決策過程的特征。
在現(xiàn)實世界里,高考是選拔賽,也是成人禮。綜合理解卷面上的問題與背后的考察意圖,是“人”成熟的一個標(biāo)識,繼續(xù)社會化的重要準(zhǔn)備。大模型“參加”這次高考,作為一個黑盒模型,決策過程難以解釋,面對稍微復(fù)雜一點的語境,調(diào)試性又明顯不足,看來還沒到說成熟的時候。
責(zé)任編輯:胡睿琳
關(guān)注公眾號,隨時閱讀陜西工人報
陜工網(wǎng)——陜西工人報 © 2018 sxworker.com. 地址:西安市蓮湖路239號 聯(lián)系電話:029-87344649 E-mail:sxworker@126.com
陜ICP備17000697號 陜公網(wǎng)安備61010402000820 版權(quán)所有 Copyright 2005陜工網(wǎng) 未經(jīng)書面授權(quán)不得轉(zhuǎn)載或鏡像 網(wǎng)站圖文若涉及侵權(quán),請聯(lián)系我們刪除。