PubMedQA

1年前发布 302 0 0

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

收录时间：

2025-04-28

直达网站手机查看

AI模型评测 # AI模型评测

PubMedQA

PubMedQA

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

数据统计

相关导航

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准...

MMLU

MMLU 全称 Massive Multitask Lang...

FlagEval

FlagEval（天秤）由智源研究院将联合多个高校团队打造...

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数...

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在...

HELM

HELM全称Holistic Evaluation of L...

Chatbot Arena

Chatbot Arena是一个大型语言模型 (LLM) 的...

AGI-Eval

AGI-Eval是什么 AGI-Eval是上海交通大学、同济...

暂无评论

none

暂无评论...