数据样例 | 第一届智能对话诊疗评测比赛

赛道一

任务1：命名实体识别

Input（对话）	Output （BIO标签）
...	...
医生：有没有发热	O O O O O O O B-Symptom I-Symptom
患者：没有	O O O O O
...	...
医生：应用什么药物	O O O O O O O O O
患者：给喝过小儿咳喘灵，阿莫西林颗粒	O O O O O O B-Drug I-Drug I-Drug I-Drug O B-Drug I-Drug I-Drug I-Drug I-Drug I-Drug
...	...

任务2：症状识别

Input（对话）

Output

...

患者：没有发热，但是咳嗽

...

患者：嗓子里有呼噜声

发热：0

咳嗽：1

痰鸣音：1

注：0 代表没有，1 代表有，2 代表不确定

赛道二

任务1：医疗报告生成

Input（自述+对话）

Output（医疗报告）

【自述】

宝宝九个月了，嗓子有痰咳不出，很少咳嗽，怎么办

【对话】

...

医生：有没有发热

患者：没有

...

医生：应用什么药物

患者：给喝过小儿咳喘灵，阿莫西林颗粒

...

(1) 主诉：有痰鸣音两天

(2) 现病史：患儿两天前咳嗽服药好转后，出现痰鸣音，口服小儿咳喘灵，阿莫西林颗粒治疗，症状改善不明显

(3) 辅助检查：听诊

(4) 既往史：暂无

(5) 诊断：小儿支气管炎

(6) 建议：完善胸片，对症治疗

赛道三

标注内容：

符号	含义
id	样本id
Diagnosis	患者疾病类别
explicit_info	病人主诉中明确提及的实体信息，包括症状、检查
implicit_info	病人整组对话中提及的症状和检查信息，以及它们类别标签

输入文件： goal_set.p

可以通过 pickle.load(file=open('./goal_set.p', "rb")) 进行读取. 其中包含数据的训练集和验证集（选手们也可以自己重新划分）

文件格式：

        {
            ‘consult_id’ : ‘10653868’   # ———— 该数据的编号为 10385976
            ‘disease_tag’: ‘小儿消化不良’ # ———— 该数据病人所患疾病为 小儿消化不良
            ‘goal’ :                    # ———— 用于构建交互系统的数据
            ‘explicit_inform_slots‘: {‘便秘’: ‘1’}  # —————— 在病人的自述中，它含有便秘的症状
            ‘implicit_inform_slots’: {'呕吐': '0', '哭闹': '1', '屁': '1'}
                                        # —— 在医生后续的问诊中，我们可以得到的额外信息有：病人没有呕吐，但是会哭闹和放屁
        }

注：在进行评测时，测试集也将以这种格式进行输入