现有的评测平台均针对于通用领域大模型,缺少对于医学领域大模型的评测平台
该平台用于对医疗领域大模型进行相对全面的测试
严格遵循项目设计的五维评估框架(可信任性/公平性/安全性/隐私性/稳健性), 通过视觉知识问答、多语言安全测试等核心实验模块,系统验证模型在真实医疗场景中的可靠性, 输出涵盖临床诊断准确率、伦理风险指数等关键指标的综合评估报告。
结合临床专家人工评审(5分量表评估影像特征准确性)与自动化指标分析(准确率/拒绝率/BERT相似度), 采用混合效应模型控制评估偏差,确保结果符合《新一代人工智能伦理规范》要求。
突破通用LLM评估指标,针对医疗场景需求定制专业化评价标准:临床可读性与严谨性指标,伦理导向的公平性指标与多模态联合推理能力指标。 系统性填补了传统通用评估框架在临床场景适配性、伦理治理深度及多模态认知能力验证方面的结构性空白
针对当前医疗AI领域普遍忽视低资源语言安全防御能力的现状,创新性地设计了覆盖10种语言的越狱攻击测试框架,有效弥合了语言资源鸿沟,率先将跨语言安全防御能力与医疗伦理规范相结合, 在检测模型生成有害内容的基础上,进一步识别其在不同语言环境下输出违背医学伦理原则的潜在风险