浅谈自然语言处理

“人工智能”或者“机器学习”这个词对于多数人来说应该并不陌生,一来是各路公司把它当做噱头炒作,二来是在中国有很广的应用场景(就连“非诚勿扰”都加入了智能匹配嘉宾的环节);其实,人工智能的概念非常宽泛,可以细分为多个学科和领域,比如视觉、翻译、语音等等,而我所做的是“自然语言处理(Natural Language Processing)”;用通俗的话来解释就是:让计算机理解人类的语言。网站APP里的搜索引擎、语音助手、聊天机器人等等,都是我们日常生活中的实例。

人类对自然语言的研究可以追溯到18世纪中叶,著名的“图灵测试”就是在1950年发表。虽然在今天看来测试已经不是唯一的标准,但仍然是评判机器是否真正“智能”的条件之一:测试者通过用文本聊天的方式在电脑上和“对方”交流,可以展开任何开放性的话题或者提问,然后让测试者辨别“对方”是真人还是机器。近些年来,随着深度学习(deep learning)的普及以及硬件、运算能力的大幅提升,业界有了不少重大突破,比如谷歌的Duplex电话应答系统。尽管如此,自然语言处理仍是一项重大、复杂的科学难题,因为它包含了语言理解、知识表示推理、语言总结生成等诸多层面;这些步骤就和人类大脑的工作方式一样,环环相扣,密不可分。

人们在一百多年前对自然语言研究是为了有朝一日让计算机可以像人一样思考和表达,而如今我们又给它赋予了一个新的任务:数据挖掘(Data Mining)。自然语言之所以在当下更加重要,是因为数字时代的特有产物:海量数据。根据世界经济论坛一篇文章的介绍,2020年人类每天会产生惊人的44泽字节数据,相当于110万亿张DVD,而其中一大部分数据都是用户生成的内容(User Generated Content),比如购物网站的评价,推特、微博的内容,电子邮件,短信微信发送的消息,网络上的新闻、热搜等等。面对这样海量的数据,只能借助计算机和自然语言处理,才有可能批量的处理数据,从中提取出有价值的信息,并加以利用。

举个实际点的例子,比如一家投资公司想买入lululemon的股票,那么它可以运用自然语言处理来分析公司的财物报表,并且把它的每一项数据都和行业的其它公司做比较,从而得出操作的推荐;为了验证这些数据,还可挖掘其它数据源,从而进行数据的连接。而在买入了lulu的股票之后,又可以通过“社交媒体监听”(social listening)把所有关于这家公司的新闻、推特、博文都筛选出来,再进行消费者文本情感分析(sentiment analysis),从而在全局上掌握市场动态和品牌趋势,对股票的走势进行预判。这些大量数据的处理在以前都是不可能完成。

中国在一些数字化业务上确实走在了世界的前沿,经济的高速发展,从上到下政策的贯彻和落地,使得社会跳跃了一些发展阶段。但纸质办公在其它国家仍然非常普遍,甚至一些领域还有上升趋势。比如在美国买房,几乎全部手续都基于纸质材料:申请表、银行账单、税表、信用记录,收入证明等等,将近500页的资料都需要人工处理,数据录入,验证比对,花费大量的时间和成本,所以光办理一项房屋贷款就要花费1300美金。这样的例子还有很多,比如贴发票报销、医院之间的病人推荐系统等等,都可以通过人工智能和自然语言处理来代劳。

这次COVID-19的疫情,极大地改变了人们生活、工作的方式,也更快地推动了美国传统行业的数字化转型。公司在“节流”的同时,更多地开始思考如何借助人工智能和自然语言处理使得公司业务和运营更加弹性化、更能应对未知的风险。在ToC面向消费者的市场,我们看到越来越多的朋友圈和短视频,以非语言的形态呈现;但在ToB对公的市场,文字是公司运作的基石:合同条款、法律文档、发票收据等等只会越来越多,越来越复杂。自然语言虽是一个传统学科,但很多学术界的最新成果还都没有成功的产品化,很多新兴技术的价值还有待挖掘;在当今的大环境下,未来充满着机遇和挑战,任重而道远。

(图片来自世界经济论坛