CCAC 2022 第二届智慧论辩评测（AI-Debater）

本届智能论辩评测比赛包含4个子任务，任务内容覆盖论点抽取、论据发现、交互论点对提取和论点生成。本届比赛提供中英文两个语种的数据作为评测语料。
英文数据集（支撑任务一和任务二）：数据集来源于英文维基百科，由专业标注员进行了论点、立场、论据等标注，整理为带格式的txt文件。
中文数据集（支撑任务三和任务四）：数据集来源于2007至2021年的近700场知名华语辩论比赛，经由语音转译及人工校验得到了每场比赛的单环节、单方陈词文本，由标注员进行了论点句和互动论点对等标注，整理为带格式的txt文件。

点击下载训练数据

赛道一

论点抽取及立场分类

介绍

给定一个辩题和一个候选句子，用<tab>符号隔开，参赛模型须判断当前句子是否为该辩题的论点，并同时判断该论点（如有）的立场为支持或反对。输出有三种标签：“1”表示该句子是论点且支持辩题，“-1”表示该句子是论点且反对辩题，“0”表示该句子不是论点。

数据样例

输入：Will artificial intelligence replace humans<tab>Any job that involves repetitive tasks is at risk of being replaced.
输出：1

输入：Will artificial intelligence replace humans<tab>The number of industrial robots has increased significantly since the 2000s.
输出：0

Will artificial intelligence replace humans<tab>AI is incredibly smart, but it will never match human creativity.
输出：-1

评价指标

macro F1

赛道二

论据发现

介绍

给定一个论点和一个候选句子，用<tab>符号隔开，参赛模型须判断当前句子是否为支持当前论点的论据。我们也会提供辩题作为辅助参考。输出有两种标签：1表示是论据，0表示非论据。

数据样例

输入：Any job that involves repetitive tasks is at risk of being replaced.<tab>In 2017, Gartner predicted 500,000 jobs would be created because of AI, but also predicted that up to 900,000 jobs could be lost because of it.
输出：1

输入：Cloning humans could reduce the impact of diseases in ways that vaccinations cannot. <tab>This method could help countries like Japan who are struggling with low birth rates.
输出：0

评价指标

论据类别上的F1

赛道三

互动论点对识别

介绍

提供一对具有互动关系的正、反方单环节辩稿。针对一方的一个论点，从5个候选论点中选择出与给定论点有直接互动关系的一个。候选集由1个人工标注的互动论点，和同一辩稿中采样得到的4个无关论点所组成，用<SEP>符号隔开。一个论点可能包含1个或多个句子。

数据格式

输入：
辩稿A：

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXX

辩稿B：

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXX

候选论点1：

XXXXXXXXXXXXXXXXXXXXX

候选论点2：

XXXXXXXXXXXXXXXXXXXXX

候选论点3：

XXXXXXXXXXXXXXXXXXXXX

候选论点4：

XXXXXXXXXXXXXXXXXXXXX

候选论点5：

XXXXXXXXXXXXXXXXXXXXX
输出：
互动论点：1

评价指标

最高预测的平均准确度 (average accuracy of the top predictions,A) 和平均倒数排名 (average mean reciprocal rank,M)，以准确度为最终排名依据

赛道四

论点生成

介绍

针对既定的辩题，由参赛模型自动生成贴合辩题的5个论点。

数据样例

输入：公众事件中不应该批评不完美受害者
输出：将矛头调转向批评不完美的受害者，使受害者与加害者之间的力量进一步失衡，不符合媒体伦理。舆论的变动可能影响案件的走向。如果秉持着应该批评不完美的心态，无疑会使得将来更少受害者敢于向公众发声。……

评价指标

所生成句子与标准论点句的BLUE与ROUGE，以ROUGE-L为最终排名依据

奖项说明

每个赛道将独立排名并颁奖：

一等奖（1名）5,000元
二等奖（2名）2,000元
三等奖（3名）1,000元

参考文献

https://eval.ai/challenge/1449/leaderboard/3606
Yuan, Jian, Liying Cheng, Ruidan He, Yinzi Li, Lidong Bing, Zhongyu Wei, Qin Liu, Chenhui Shen, Shuonan Zhang, Changlong Sun, Luo Si, Changjian JIang and Xunjing Huang. Overview of Argumentative Text Understanding for AI Debater Challenge. NLPCC 2021.
Lu Ji, Zhongyu Wei, Xiangkun Hu, Yang Liu, Qi Zhang and XuanJing Huang. Incorporating argument-level interactions for persuasion comments evaluation using co-attention model. COLING 2018.
Lu Ji, Zhongyu Wei, Jing Li, Qi Zhang and Xuanjing Huang. Discrete Argument Representation Learning for Interactive Argument Pair Identification. NAACL 2021.
Jian Yuan, Zhongyu Wei, Donghua, Zhao, Qi Zhang and Changjian Jiang. Leveraging Argumentation Knowledge Graph for Interactive Argument Pair Identification. ACL 2021 findings.
Liying Cheng, Lidong Bing, Ruidan He, Qian Yu, Yan Zhang and Luo Si. IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks, ACL 2022
Di Chen, Jiachen Du, Lidong Bing and Ruifeng Xu. Hybrid Neural Attention for Agreement/Disagreement Inference in Online Debates. EMNLP 2018.
Liying Cheng, Lidong Bing, Qian Yu, Wei Lu and Luo Si. APE: Argument Pair Extraction from Peer Review and Rebuttal via Multi-task Learning. EMNLP 2020.

如有疑问，请致信评测会务组：disclab@fudan.edu.cn 评测官网：http://www.fudan-disc.com/sharedtask/AIDebater22/index.html