mamun45696 發表於 2024-5-5 15:09:33

大多大模型性能会大幅下降


二、中文大模型变聪明的背后 为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业[已屏蔽惡意廣告]们对待OpenAI的态度严肃且认真。 除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。 为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为CEval,受到了行业内的广泛关注。

在一些专业人士看来,此评测的初衷是用锱铢必较的方式找出中文大模型的比较优势。和以往 卡塔尔手机号码列表 由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,CEval更加透明和公开。 据了解,全套测验包含道多项选择题,涵盖个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM、OpenAI的GPT、商汤的SenseChat,APUS的AiLMeBv。
https://i.ibb.co/W6PXr2t/Quatar-phone.png

对比由微软亚洲研究院Microsoft Research Asia开发的基准测试AGIEval,CEval覆盖的领域更广。APUS技术专家张旭称:AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而CEval覆盖了注册电气工程师、注册计量师……等领域,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。 从另一个角度说,CEval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。

頁: [1]
查看完整版本: 大多大模型性能会大幅下降

一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |