大多大模型性能会大幅下降

mamun45696 發表於 2024-5-5 15:09:33

二、中文大模型变聪明的背后为了探求国内中文大模型的发展情况，在过去的几个月中，数科星球团队与几十家公司进行了百余次沟通。结果是，科技圈的大佬和创业[已屏蔽惡意廣告]们对待OpenAI的态度严肃且认真。除了在产品上进行了洗心革面式的改进，还对模型的评价体系进行了优化。为了弥补中文大模型在评测领域的缺失，日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出，该评测名为CEval，受到了行业内的广泛关注。

在一些专业人士看来，此评测的初衷是用锱铢必较的方式找出中文大模型的比较优势。和以往卡塔尔手机号码列表由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是，无论在过程和结果上，CEval更加透明和公开。据了解，全套测验包含道多项选择题，涵盖个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM、OpenAI的GPT、商汤的SenseChat，APUS的AiLMeBv。
https://i.ibb.co/W6PXr2t/Quatar-phone.png

对比由微软亚洲研究院Microsoft Research Asia开发的基准测试AGIEval，CEval覆盖的领域更广。APUS技术专家张旭称：AGIEval只覆盖了中国高考题、公务员考试题等几个类别，而CEval覆盖了注册电气工程师、注册计量师……等领域，覆盖范围的拓宽意味着，除高考、公务员考试等场景外，在其他特定职业领域也可以测定大模型的能力。从另一个角度说，CEval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。

頁: [1]

心情論壇's Archiver

大多大模型性能会大幅下降