本届智能论辩评测比赛包含4个子任务,任务内容覆盖论点抽取、论据发现、交互论点对提取和论点生成。
本届比赛提供中英文两个语种的数据作为评测语料。
英文数据集(支撑任务一和任务二):数据集来源于英文维基百科,由专业标注员进行了论点、立场、论据等标注,整理为带格式的txt文件。
中文数据集(支撑任务三和任务四):数据集来源于2007至2021年的近700场知名华语辩论比赛,
经由语音转译及人工校验得到了每场比赛的单环节、单方陈词文本,由标注员进行了论点句和互动论点对等标注,整理为带格式的txt文件。
给定一个辩题和一个候选句子,用<tab>符号隔开, 参赛模型须判断当前句子是否为该辩题的论点, 并同时判断该论点(如有)的立场为支持或反对。 输出有三种标签:“1”表示该句子是论点且支持辩题,“-1”表示该句子是论点且反对辩题,“0”表示该句子不是论点。
macro F1
给定一个论点和一个候选句子,用<tab>符号隔开, 参赛模型须判断当前句子是否为支持当前论点的论据。 我们也会提供辩题作为辅助参考。输出有两种标签:1表示是论据,0表示非论据。
论据类别上的F1
提供一对具有互动关系的正、反方单环节辩稿。 针对一方的一个论点,从5个候选论点中选择出与给定论点有直接互动关系的一个。 候选集由1个人工标注的互动论点,和同一辩稿中采样得到的4个无关论点所组成,用<SEP>符号隔开。 一个论点可能包含1个或多个句子。
辩稿A:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXX
辩稿B:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXX
候选论点1:
XXXXXXXXXXXXXXXXXXXXX
候选论点2:
XXXXXXXXXXXXXXXXXXXXX
候选论点3:
XXXXXXXXXXXXXXXXXXXXX
候选论点4:
XXXXXXXXXXXXXXXXXXXXX
候选论点5:
XXXXXXXXXXXXXXXXXXXXX
互动论点:1
最高预测的平均准确度 (average accuracy of the top predictions,A) 和平均倒数排名 (average mean reciprocal rank,M),以准确度为最终排名依据
针对既定的辩题,由参赛模型自动生成贴合辩题的5个论点。
所生成句子与标准论点句的BLUE与ROUGE,以ROUGE-L为最终排名依据
每个赛道将独立排名并颁奖: