第一财经:上海人工智能实验室旗下司南评测体系 OpenCompass发布首个大模型高考全卷评测结果。语数外三科加起来的满分为420 分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为⋯⋯

首次回報於 759 天前

逐字稿

第一财经:上海人工智能实验室旗
下司南评测体系 OpenCompass发
布首个大模型高考全卷评测结果。
语数外三科加起来的满分为420
分,此次高考测试结果显示,阿里
通义千问2-72B排名第一,为303
分,OpenAl的GPT-40排名第二,
得分296分,上海人工智能实验室
的书生·浦语2.0排名第三,三个大
模型的得分率均超过70%。从结果
来看,大模型的语文、英语考试水
平普遍不错,但数学都不及格,最
高分也只有75分。

近 31 日

0 次瀏覽

本訊息有 0 則查核回應

目前沒有已撰寫的回應，建議對其抱持健康的懷疑。

AI 自動分析

以下是 AI 初步分析此訊息的結果，希望能在有人查核之前，先帶給您一些想法。

這則訊息提到了一個由上海人工智能實驗室旗下司南評測體系OpenCompass所發布的高考全卷評測結果，列出了三個大模型的得分情況。閱聽人需要注意以下幾個地方： 1. 高考全卷評測結果來自於上海人工智能實驗室旗下的司南評測體系OpenCompass，閱聽人需要確認這個評測體系的可信度和客觀性。 2. 文中提到的三個大模型分別是阿里通義千問2-72B、OpenAI的GPT-40和上海人工智能實驗室的書生·浦語2.0，閱聽人需要了解這些大模型的背景和評測標準。 3. 訊息指出大模型的得分率均超過70%，但提到數學科目的表現不及格，最高分僅為75分，閱聽人需要思考這樣的結果是否合理，以及對於數學科目表現的評估是否客觀。總之，閱聽人在閱讀這則訊息時應該保持懷疑精神，並進一步查證相關資訊，以確保獲取的資訊是可信和客觀的。

LINE 機器人
查謠言詐騙