AI – 翛遥自在

聊聊写作

一放下笔就又是3年，工作和生活都发生了不少变化；我内心很感激这些改变，因为一切都越来越好。好像唯独对写作没有太多信心，因为写的少反而感觉有些退步。如今工作中写英文邮件恨不得都要用大语言模型润色一下，发领英的帖子也得使用Multi-Agent来反复评价修改。提笔写这篇博客前，我就想是不是也可以用大模型来修改一下，哪怕检查错别字也好；但心里又总觉得怪怪的：一方面，我们说AI不会取代人类的工作，而只会取代不会使用AI工具的人；这给了我们在工作里肆无忌惮地使用AI的理由。但现在切换到需要表达真正自我的时候，如果让AI把整片文章都重新润色一遍，就好似失去了每个人独有的那一份表达和承载的微妙情感。思前想后，我还是决定让这里变成一小片远离AI的净土，哪怕自己的语言透露出笨拙。

最近老婆在整理多年前的博客，发现很多网站都打不开了, 这一点也不出乎意料。长内容，无论从作者还是读者的角度，都在慢慢地淡出人们的视野。人们摄取信息更高效的方式被视频取代，而播客Podcast也走进了越来越多人的生活。很难想象再过10年、20年后是什么样子，阅读和写作会不会变成一门艺术，一种奢侈，而不在再是生活学习的必需品。不过说来也有趣，大模型都是用人们写的文章训练出来的，如果未来越来越多的内容都出自大模型，或者短视频，那会不会有一天我们的模型都没有人们所写的数据训练，而全部来自机器。

之前一直能坚持写作都是我引以为豪的事情。一来我觉得静下心来把思绪梳理清楚，娓娓道来是我表达的一部分；二来是对自己生活和成长的记录，哪怕若干年后翻看到如今的自己是多么的稚嫩和过度焦虑。过去的三年没有动笔的一个主要原因是正值2022年中我开始做谷歌的大语言模型项目(PaLM, Gemini)。没想到12月底ChatGPT的发布，把项目直接推到了风口浪尖，似乎总是在加班，要不就把不加班的时间分配给家人，写作的优先级也就大大降低了。不过在做大模型的初期，因为模型的质量不如竞品，花了不少精力和Deepmind的工程师一起写模型的训练数据，这是不是也算是一种在这个大环境下特别的写作，尽管都是英文，尽管都是简单的问答。

Deepseek在两个月前大火了一波，我和老婆也没少用。谁要是不开心了，都能先找大模型安抚、疏导情绪，无疑是一个出色的心理咨询师。和其它主流的模型相比，Deepseek的中文表达能力真的非常厉害。要是被问到一些有深度的问题，比如“如何和逝去亲人的悲伤和解”，模型都能显示出极大的同理心，引经据典，通过精妙的比喻让人感受到自己被听见、被看见和被理解。在和朋友聊天的时候说到可能是Deepseek的工程师找了很多文学系的大学生写了很多相关的训练数据，所以模型才能把话都说到心坎里。

有时我会想，如今写作的意义到底是什么，是一种单向的情感输出，还是一扇让人了解自己的窗户，还是留给后代的一部个人的“时间简史”？不管答案是什么样的，这些博客上的文字都成为了各家大模型的一部分，每当有人问模型一个问题的时候，可能就有0.000001%的权重来自我的感受，这似乎也是一种全新的解读和意义吧。

社会的数字化和现代化

信息化、数字化已经不是什么新鲜的话题了，面对不断涌现出的互联网黑话和新兴词汇，人们乐于赋予它们“深奥”的含义，层层递进的关系，甚至总结出了条条是道的方法论。我欣赏方法论对知识体系的梳理和帮助，但在美国互联网行业中除了电子化（Digitalization）以外，几乎很少提及信息化和互联化，也没有把概念强行拔高和上价值，一切还都是从用户出发。早在10几年前人们就开始构想一个全新的数字化社会，可是直到今天为止，西方仍然停留在纸质办公的阶段，尤其是传统行业：政府、采购、医疗、银行等等。这背后的原因有很多，有文化的、有习俗的、有对隐私的要求，使得电子化在美国和欧洲推行起来进展缓慢。

在消费者市场，中国肯定是弯道超车，尤其是移动支付和与生活相关的领域走在了世界的前面。昨天和朋友在Polk Street上吃一家寿司店，服务员让我们扫描桌上的二维码。一阵惊喜，敢想说因为疫情的缘故美国终于要和国内接轨了，但扫码打开的链接还是一个静态网站和一个尴尬的PDF菜单，点菜的工作还要等服务员前来。朋友问，你说要是咱们把国内的点餐系统推到美国，一家餐厅一个月就收100块有人用么？我说很难讲，推行起来估计比较困难。比如，美国的餐厅要收小费，如果没有点餐的过程，那谁还愿意为“服务”买单呢。更重要的是美国人喜欢面对面拉家常，热情地打完招呼之后还会介绍自己：“你好，我叫谁谁谁，今晚会为你们服务”，而国内的服务员多为无名氏，没有人在乎你是谁，你今天过得怎么样。这种人与人的连接是美国和欧洲文化中重要的环节，所以电子化也需要因地制宜。

再看对公市场，大家都知道数据是电子化的直接产物，而掌握数据就能主导市场，所以西方的政府部门和每个终端消费者都对数字化非常谨慎。比如保险公司之间的信息就不会共享，医疗的大数据在多年之后仍然分散在各个机构之中，就连收过路费的电子系统（国内是ETC）都会被大家拿到放大镜下仔细审查，生怕泄露个人隐私。很多大公司都曾尝试介入横向集成的领域，希望打通数据壁垒，最后都以失败告终。如今随着机器学习的盛行，数字化的迫在眉睫，越来越多的传统企业希望借助技术来现代化老旧的技术基础构架，逐渐取代一些人力密集的工种。这就如同10年前铺的两车道水泥路，如今要投入大量资金升级到单向4车道的柏油高速路。而众多的技术公司发现横向难以打通，从而去发掘垂直领域（industry vertical）的商机，因为深度的集成既可以获得更高的利润空间，也同样能形成更稳固的技术保障，使得竞争者很难快速复制并且追赶：比如用AI加快贷款处理分析的速度，用视觉模型检测生产线中的残缺品，或者用图神经网络（graph neural network）减少反洗钱监测中的假阳性（false positive）。面对消费者市场相对单一的目标：增加点击率、留存率等等，对公业务的征程却刚刚起步，大家还都处在摸索阶段，如何把最新的技术、对隐私的保护应用到广阔的传统行业中并不容易。这要求从业者既能熟练地应用互联网技术，还要对垂直领域有深刻的了解。未来的10年，是数据和机器学习的10年，也是影响企业发展的关键10年。

浅谈自然语言处理

“人工智能”或者“机器学习”这个词对于多数人来说应该并不陌生，一来是各路公司把它当做噱头炒作，二来是在中国有很广的应用场景（就连“非诚勿扰”都加入了智能匹配嘉宾的环节）；其实，人工智能的概念非常宽泛，可以细分为多个学科和领域，比如视觉、翻译、语音等等，而我所做的是“自然语言处理（Natural Language Processing）”；用通俗的话来解释就是：让计算机理解人类的语言。网站APP里的搜索引擎、语音助手、聊天机器人等等，都是我们日常生活中的实例。

人类对自然语言的研究可以追溯到18世纪中叶，著名的“图灵测试”就是在1950年发表。虽然在今天看来测试已经不是唯一的标准，但仍然是评判机器是否真正“智能”的条件之一：测试者通过用文本聊天的方式在电脑上和“对方”交流，可以展开任何开放性的话题或者提问，然后让测试者辨别“对方”是真人还是机器。近些年来，随着深度学习（deep learning）的普及以及硬件、运算能力的大幅提升，业界有了不少重大突破，比如谷歌的Duplex电话应答系统。尽管如此，自然语言处理仍是一项重大、复杂的科学难题，因为它包含了语言理解、知识表示推理、语言总结生成等诸多层面；这些步骤就和人类大脑的工作方式一样，环环相扣，密不可分。

人们在一百多年前对自然语言研究是为了有朝一日让计算机可以像人一样思考和表达，而如今我们又给它赋予了一个新的任务：数据挖掘（Data Mining）。自然语言之所以在当下更加重要，是因为数字时代的特有产物：海量数据。根据世界经济论坛一篇文章的介绍，2020年人类每天会产生惊人的44泽字节数据，相当于110万亿张DVD，而其中一大部分数据都是用户生成的内容（User Generated Content），比如购物网站的评价，推特、微博的内容，电子邮件，短信微信发送的消息，网络上的新闻、热搜等等。面对这样海量的数据，只能借助计算机和自然语言处理，才有可能批量的处理数据，从中提取出有价值的信息，并加以利用。

举个实际点的例子，比如一家投资公司想买入lululemon的股票，那么它可以运用自然语言处理来分析公司的财物报表，并且把它的每一项数据都和行业的其它公司做比较，从而得出操作的推荐；为了验证这些数据，还可挖掘其它数据源，从而进行数据的连接。而在买入了lulu的股票之后，又可以通过“社交媒体监听”（social listening）把所有关于这家公司的新闻、推特、博文都筛选出来，再进行消费者文本情感分析（sentiment analysis），从而在全局上掌握市场动态和品牌趋势，对股票的走势进行预判。这些大量数据的处理在以前都是不可能完成。

中国在一些数字化业务上确实走在了世界的前沿，经济的高速发展，从上到下政策的贯彻和落地，使得社会跳跃了一些发展阶段。但纸质办公在其它国家仍然非常普遍，甚至一些领域还有上升趋势。比如在美国买房，几乎全部手续都基于纸质材料：申请表、银行账单、税表、信用记录，收入证明等等，将近500页的资料都需要人工处理，数据录入，验证比对，花费大量的时间和成本，所以光办理一项房屋贷款就要花费1300美金。这样的例子还有很多，比如贴发票报销、医院之间的病人推荐系统等等，都可以通过人工智能和自然语言处理来代劳。

这次COVID-19的疫情，极大地改变了人们生活、工作的方式，也更快地推动了美国传统行业的数字化转型。公司在“节流”的同时，更多地开始思考如何借助人工智能和自然语言处理使得公司业务和运营更加弹性化、更能应对未知的风险。在ToC面向消费者的市场，我们看到越来越多的朋友圈和短视频，以非语言的形态呈现；但在ToB对公的市场，文字是公司运作的基石：合同条款、法律文档、发票收据等等只会越来越多，越来越复杂。自然语言虽是一个传统学科，但很多学术界的最新成果还都没有成功的产品化，很多新兴技术的价值还有待挖掘；在当今的大环境下，未来充满着机遇和挑战，任重而道远。

(图片来自世界经济论坛）