本届智慧论辩评测包含基础论辩能力评测及综合论辩表现评测两个阶段。第一阶段由三个计算论辩领域的下游任务组成,而第二阶段则包含两个较为综合性任务。本次评测鼓励参赛选手使用大语言模型(LLM)解决问题,因此不针对各个任务分别提供训练数据,而是统一提供论辩指令数据集。除阶段二的自主论辩任务外,每个任务都有相应的测试集。
给定一个论点和一个候选句子,判断当前句子是否为支持当前论点的论据。输出有两种标签:1表示是论据,0表示非论据。
F1
给定一个辩题和一个论点,判断该论点的立场为支持或反对。输出有两种标签:1表示支持,-1表示反对。
F1
针对给定的话题和原始论点,由参赛模型自动生成反驳原始论点的1个句子(称为反论点)。
ROUGE-L
针对既定的辩题,由参赛模型自动生成贴合辩题的5个论点。
ROUGE-L
基于LLM实现一个自主论辩智能体,与基准智能体针对给定的辩题进行辩论赛。基准智能体持正方,参赛智能体持反方。
Debatrix(点此了解更多)、人工评价