前言

我们小队能获得JDDC2019的并列亚军(3th),既有运气的成分,也离不开我们做的很多工作。

但本文只具体谈谈我参与JDDC2019的感想与收获,大概就是一篇写给自己的流水账吧。至于检索模型的细节可以参见我的github jddc2019-3th-retrieve-model以及我在12月中旬将完成的一篇关于多轮对话的综述。

正文

其实在参加这个比赛之前,我对NLP都只是一知半解,因为NLP的基本模型太多了,看书看得不明白,也没有对模型有个总体的认识。

在完成JDDC这个比赛的过程中,我确实获益良多。主要可以分为三个方面:

数据预处理(数据探索性分析)

在数据探索性分析的过程中,我发现世界之大无奇不有,有很多有趣的事情都蕴含在语料之中。

列举几个影响比较深刻的例子:最长的会话长度(即多次QA的句数之和)有300句,可以说是客服和用户“大战”300回合;最长的用户提问有超过两万个字,是由一个短句复制了无数遍产生,可想而知用户当时的心情有多么的崩溃;有的用户前言不搭后语,还存在大量错别字,可以看出用户是刚刚接触网购,对拼音和手机沟通比较生疏。

而这次的数据预处理工作比较让人头疼。之前没有接触过这种基本没有经过处理、在实际对话中产生… Read the rest