提交收录
排行榜
首页
•
AI模型评测
•
PubMedQA
PubMedQA
4天前发布
6
0
0
PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
收录时间:
2025-04-28
直达网站
手机查看
AI模型评测
# AI模型评测
PubMedQA
直达网站
PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
数据统计
相关导航
MMBench
MMBench是一个多模态基准测试,由上海人工智能实验室、南...
OpenCompass
OpenCompass是由上海人工智能实验室(上海AI实验室...
Chatbot Arena
Chatbot Arena是一个大型语言模型 (LLM) 的...
H2O EvalGPT
H2O EvalGPT 是 H2O.ai 用于评估和比较 L...
C-Eval
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件...
LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准...
FlagEval
FlagEval(天秤)由智源研究院将联合多个高校团队打造...
CMMLU
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在...
暂无评论
暂无评论...
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章