PubMedQA

10个月前发布 148 0 0

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

收录时间：

2025-04-28

直达网站手机查看

AI模型评测 # AI模型评测

PubMedQA

PubMedQA

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

数据统计

相关导航

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三...

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数...

HELM

HELM全称Holistic Evaluation of L...

AGI-Eval

AGI-Eval是什么 AGI-Eval是上海交通大学、同济...

MMLU

MMLU 全称 Massive Multitask Lang...

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 L...

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室...

MMBench

MMBench是一个多模态基准测试，由上海人工智能实验室、南...

暂无评论

none

暂无评论...