标注说明

请认真阅读下述说明并下载标注流程与规范文件仔细查看!

  接下来您将看到一段医生和患者的对话文本,包含疾病、患者提问和对话内容。您需要标注出以下三个内容:每句话所对应的话语行为、句子内部记录(包括实体识别和实体规范化)、每个病例的诊疗报告。具体说明如下:

(一)话语行为标注
  每句话都有其对应的话语行为(dialogue act),话语行为一共包含七类,分别是提问-症状、告知-症状、提问-病因、告知-病因、提问-基本信息、告知-基本信息、提问-已有检查和治疗、告知-已有检查和治疗、提问-用药建议、告知-用药建议、提问-就医建议、告知-就医建议、提问-注意事项、告知-注意事项、诊断、其他。例如“医生:建议你吃点消炎药” 这句话的话语行为是“告知-用药建议”。
  请在标注页面每句话下一行的第一个表格“请选择动作“中选择对应的话语行为。

(二)句子内部记录标注
  句子内部记录标注分为两大部分:实体识别以及实体规范化
  1、实体识别
  实体识别是指识别出句子中重要的词组,如症状、药品名、药物类别、服用方式、检查、操作、注意事项,并对每句话的每个字打上相应的BIO标签(B:实体开始,I:实体中间,O:其他文字),BIO标签对应如下:0:O,1:I,2:B-症状,3:B-药品名,4:B-药物类别,5:B-服用方式等,6:B-检查,7:B-操作,8:B-注意事项
  2、实体规范化
  实体规范化是针对症状“检查”相关的实体提出的。 规范化“症状”相关的实体时,在症状名词的实体开头(2:B-症状)的下一行写上规范化名词(只需写在一个表格中即可); 规范化“检查”相关的实体时,在检查实体开头(6:B-检查)的下一行写上规范化名词(只需写在一个表格中即可)。

  初始化的BIO标签已包含了部分信息,包括机器自动匹配的症状、药品名和检查名。这部分不准确,需要进一步仔细核实修改,尤其是将药物类别从药品名中分离开,将错误标注或不完善的药品名和检查名完善好。
  BIO标注时要尽量标注出关键词,不标无关的词。

(三)诊疗报告report
  每个病例需要输出一个诊疗报告,参考框架如下:
  (1)主诉: 主要症状或体征
  (2)现病史: 主要症状的描述(发病情况,发病时间)
  (3)辅检结果:病人已有的检查项目、检查结果、会诊记录等
  (4)既往史:既往的健康状况、过去曾经患过的疾病等
  (5)诊断:对疾病的诊断
  (6)建议:检查建议、药物治疗、注意事项

  话语行为、各实体含义、标注案例、标注流程等内容均在标注流程与规范文件中有所阐释,请务必点击“下载标注流程与规范”按钮下载并仔细阅读。