社会的数字化和现代化

信息化、数字化已经不是什么新鲜的话题了,面对不断涌现出的互联网黑话和新兴词汇,人们乐于赋予它们“深奥”的含义,层层递进的关系,甚至总结出了条条是道的方法论。我欣赏方法论对知识体系的梳理和帮助,但在美国互联网行业中除了电子化(Digitalization)以外,几乎很少提及信息化和互联化,也没有把概念强行拔高和上价值,一切还都是从用户出发。早在10几年前人们就开始构想一个全新的数字化社会,可是直到今天为止,西方仍然停留在纸质办公的阶段,尤其是传统行业:政府、采购、医疗、银行等等。这背后的原因有很多,有文化的、有习俗的、有对隐私的要求,使得电子化在美国和欧洲推行起来进展缓慢。

在消费者市场,中国肯定是弯道超车,尤其是移动支付和与生活相关的领域走在了世界的前面。昨天和朋友在Polk Street上吃一家寿司店,服务员让我们扫描桌上的二维码。一阵惊喜,敢想说因为疫情的缘故美国终于要和国内接轨了,但扫码打开的链接还是一个静态网站和一个尴尬的PDF菜单,点菜的工作还要等服务员前来。朋友问,你说要是咱们把国内的点餐系统推到美国,一家餐厅一个月就收100块有人用么?我说很难讲,推行起来估计比较困难。比如,美国的餐厅要收小费,如果没有点餐的过程,那谁还愿意为“服务”买单呢。更重要的是美国人喜欢面对面拉家常,热情地打完招呼之后还会介绍自己:“你好,我叫谁谁谁,今晚会为你们服务”,而国内的服务员多为无名氏,没有人在乎你是谁,你今天过得怎么样。这种人与人的连接是美国和欧洲文化中重要的环节,所以电子化也需要因地制宜。

再看对公市场,大家都知道数据是电子化的直接产物,而掌握数据就能主导市场,所以西方的政府部门和每个终端消费者都对数字化非常谨慎。比如保险公司之间的信息就不会共享,医疗的大数据在多年之后仍然分散在各个机构之中,就连收过路费的电子系统(国内是ETC)都会被大家拿到放大镜下仔细审查,生怕泄露个人隐私。很多大公司都曾尝试介入横向集成的领域,希望打通数据壁垒,最后都以失败告终。如今随着机器学习的盛行,数字化的迫在眉睫,越来越多的传统企业希望借助技术来现代化老旧的技术基础构架,逐渐取代一些人力密集的工种。这就如同10年前铺的两车道水泥路,如今要投入大量资金升级到单向4车道的柏油高速路。而众多的技术公司发现横向难以打通,从而去发掘垂直领域(industry vertical)的商机,因为深度的集成既可以获得更高的利润空间,也同样能形成更稳固的技术保障,使得竞争者很难快速复制并且追赶: 比如用AI加快贷款处理分析的速度,用视觉模型检测生产线中的残缺品,或者用图神经网络(graph neural network)减少反洗钱监测中的假阳性(false positive)。面对消费者市场相对单一的目标:增加点击率、留存率等等,对公业务的征程却刚刚起步,大家还都处在摸索阶段,如何把最新的技术、对隐私的保护应用到广阔的传统行业中并不容易。这要求从业者既能熟练地应用互联网技术,还要对垂直领域有深刻的了解。未来的10年,是数据和机器学习的10年,也是影响企业发展的关键10年。

浅谈自然语言处理

“人工智能”或者“机器学习”这个词对于多数人来说应该并不陌生,一来是各路公司把它当做噱头炒作,二来是在中国有很广的应用场景(就连“非诚勿扰”都加入了智能匹配嘉宾的环节);其实,人工智能的概念非常宽泛,可以细分为多个学科和领域,比如视觉、翻译、语音等等,而我所做的是“自然语言处理(Natural Language Processing)”;用通俗的话来解释就是:让计算机理解人类的语言。网站APP里的搜索引擎、语音助手、聊天机器人等等,都是我们日常生活中的实例。

人类对自然语言的研究可以追溯到18世纪中叶,著名的“图灵测试”就是在1950年发表。虽然在今天看来测试已经不是唯一的标准,但仍然是评判机器是否真正“智能”的条件之一:测试者通过用文本聊天的方式在电脑上和“对方”交流,可以展开任何开放性的话题或者提问,然后让测试者辨别“对方”是真人还是机器。近些年来,随着深度学习(deep learning)的普及以及硬件、运算能力的大幅提升,业界有了不少重大突破,比如谷歌的Duplex电话应答系统。尽管如此,自然语言处理仍是一项重大、复杂的科学难题,因为它包含了语言理解、知识表示推理、语言总结生成等诸多层面;这些步骤就和人类大脑的工作方式一样,环环相扣,密不可分。

人们在一百多年前对自然语言研究是为了有朝一日让计算机可以像人一样思考和表达,而如今我们又给它赋予了一个新的任务:数据挖掘(Data Mining)。自然语言之所以在当下更加重要,是因为数字时代的特有产物:海量数据。根据世界经济论坛一篇文章的介绍,2020年人类每天会产生惊人的44泽字节数据,相当于110万亿张DVD,而其中一大部分数据都是用户生成的内容(User Generated Content),比如购物网站的评价,推特、微博的内容,电子邮件,短信微信发送的消息,网络上的新闻、热搜等等。面对这样海量的数据,只能借助计算机和自然语言处理,才有可能批量的处理数据,从中提取出有价值的信息,并加以利用。

举个实际点的例子,比如一家投资公司想买入lululemon的股票,那么它可以运用自然语言处理来分析公司的财物报表,并且把它的每一项数据都和行业的其它公司做比较,从而得出操作的推荐;为了验证这些数据,还可挖掘其它数据源,从而进行数据的连接。而在买入了lulu的股票之后,又可以通过“社交媒体监听”(social listening)把所有关于这家公司的新闻、推特、博文都筛选出来,再进行消费者文本情感分析(sentiment analysis),从而在全局上掌握市场动态和品牌趋势,对股票的走势进行预判。这些大量数据的处理在以前都是不可能完成。

中国在一些数字化业务上确实走在了世界的前沿,经济的高速发展,从上到下政策的贯彻和落地,使得社会跳跃了一些发展阶段。但纸质办公在其它国家仍然非常普遍,甚至一些领域还有上升趋势。比如在美国买房,几乎全部手续都基于纸质材料:申请表、银行账单、税表、信用记录,收入证明等等,将近500页的资料都需要人工处理,数据录入,验证比对,花费大量的时间和成本,所以光办理一项房屋贷款就要花费1300美金。这样的例子还有很多,比如贴发票报销、医院之间的病人推荐系统等等,都可以通过人工智能和自然语言处理来代劳。

这次COVID-19的疫情,极大地改变了人们生活、工作的方式,也更快地推动了美国传统行业的数字化转型。公司在“节流”的同时,更多地开始思考如何借助人工智能和自然语言处理使得公司业务和运营更加弹性化、更能应对未知的风险。在ToC面向消费者的市场,我们看到越来越多的朋友圈和短视频,以非语言的形态呈现;但在ToB对公的市场,文字是公司运作的基石:合同条款、法律文档、发票收据等等只会越来越多,越来越复杂。自然语言虽是一个传统学科,但很多学术界的最新成果还都没有成功的产品化,很多新兴技术的价值还有待挖掘;在当今的大环境下,未来充满着机遇和挑战,任重而道远。

(图片来自世界经济论坛