2015-01-17 | 老庄日记知识库

转载地址：https://www.geekpark.net/news/212152

摘要机器学习应用扮演的不仅仅是一个助理的角色，而更像是世界共享的一个大脑，是网络空间的上帝，俯瞰观察所有用户。

2011 年底，张一鸣强烈感受到了移动互联网时代来临了，人类的活动痕迹越来越多出现在移动互联网上，物理世界和网络世界的连接变得更紧密。

云存储技术也已成熟。张一鸣发现移动互联网上有大量业务需求（移动互联网提高了效率）。

于是，2012 年大年初七，他在知春路上的一个还没营业的咖啡馆里，给他的投资人讲了他的想法。

这样的场景通常少不了餐巾纸，张一鸣拿起其中的一张，在上边画了他的全部构思……

不需要过多地介绍 2014 年从产品上和商业上都大获成功的今日头条 App，这也不是张一鸣今天演讲的主题。

他认为，手机是人的外设，越来越多的智能硬件是手机的外设。它们的同时具备本地运算处理能力和联网能力，提高了人类行为的效率。

在手机上做一款推荐搜索信息引擎，再合适不过了。

张一鸣说，他发现在今天，通过书籍获得知识和信息已不是最有效的方式，而是通过「系统」学习用户行为，并且存储智慧。「例如在百度指数上得到春运的情况，完全是由机器得出的，而不是一个学者去查年检。」张一鸣举例。

机器学习在今日头条上的应用，可以简单定义为：一类自我成长系统的出现。

机器从感知——理解——判断，自动完成信息的检索到推荐分发。

今日头条 App 通过一系列用户行为来得到用户特征模型。例如：动作：点击、停留、滑动、顶踩、评论、分享；环境：地理位置，时间环境，网络制式，天气，节假日；社交媒体：关系链，发言。等等几百种特征模型。

「系统」会自我成长。张一鸣把它形容为：越多人用越长时间，App 越好用。时间越长，用户越多行为记录在系统中，系统就对他越理解，也就是用户画像越清晰。今日头条现在已有超过 2000 万日活跃用户，每天平均使用 6-7 次，每次 6-7 分钟；每天获取 100 亿条日志、750 亿条特征组合（330 亿条被使用）。庞大用户使用行为数据，支持背后的这个「系统」，获得的是越来越清晰的「群像」。

张一鸣说，他现在越来越觉得，机器学习应用扮演的不仅仅是一个助理的角色，而更像是世界共享的一个大脑，是网络空间的上帝，俯瞰观察所有用户。机器学习应用目前的智商未必高，但是年长（时间积累，且不会忘记）、见多识广（观察庞大人群）、不知疲倦（每时每刻输入、迭代数据），大规模抹平信息鸿沟，减轻人脑的负荷。

他预测，在机器学习领域内，短期内不会有一个能和人类智商相比的「通用型大脑」出现，但在搜索、阅读、导航、交易、天气预测等领域已经或将会出现垂直的「上帝应用」，效果优于人脑。

「两个新出生的婴儿，随着生活阅历不同，智商差别会发生非常大的变化。但系统和个人不同，一个系统能通过千万上亿月活用户，积累全面的知识。」张一鸣解释机器学习的优势。

2014 年是今日头条 App 迅猛发展，机器学习能力也到达了新的高度。「去年哪件事最快被人遗忘？哪个城市的人最喜欢哪个明星？1 月 20 号，欢迎参加今日头条年度算数发布会。」张一鸣最后打了个吸引人的广告。张一鸣

在上午的2015年极客公园创新大会中，今日头条CEO张一鸣作了主旨演讲《机器学习能带来更有趣的世界吗》。他基于今日头条在使用机器学习在推荐引擎上的实践，分享了机器学习在信息获取上，给产品带来的价值。

张一鸣指出，今日头条最早不是基于机器学习的，是基于策略的；后来又使用了一些高级特征，少量的组合；2014年下半年，又进行了改进，用了海量的高级特征和精细化特征。

张一鸣称，今日头条每天日志函数在100亿的规模，这是去年三个月左右的数据。最后真正被使用的特征也有300多亿。过去一年中，今日头条通过增加特征的组合，优化模型，机器的智商水平有了80、90%的提高。

以下为张一鸣演讲全文：

大家好！很高兴能跟大家再次分享今日头条在机器学习上的一些实践。

最早，我们在创业之初的时候，在招机器学习的工程师，很多包括猎头都问我们，你们不是做媒体的嘛，为什么要招机器学习的工程师？你们不是做一个APP的嘛，为什么需要这么多人？我当时很想告诉他们，机器学习能够给资讯的阅读、信息的获取，带来很多很大的价值，发生很多有趣的事情。

我现在可以跟大家分享一下，在我们过去使用机器学习，在信息获取上，给这个产品带来的价值。

首先，我们回顾一下，其实刚刚前面几位演讲者都回顾了很多机器学习使用的场景和技术背景，我下面也从我们角度给大家分享一下。大概在2011年底、2012年初，当时我强烈的感受到，移动互联网的出现使物理世界在网络世界有了更多数字投影。比如说，微博的出现，让很多公共机构和知名名人，开始有了网络的ID。非常多的，无论是照片、文字、UGC内容，还用用户轨迹、LBS位置，在网络上有了投影。

同时，云端开始能够处理海量数据，在更早之前我们说日志分析，只是统计一下各种总数指标，但是到2010年之后，越来越多海量云存储、云计算诞生了，同时在云端出现了强烈的技术需求，具备了技术条件我认为还不够，必须要有强烈的业务需求才能带来技术在产品上的应用。

当然，我看前几位演讲者都讲到过，手机上有越来越多的传感器，这是第一，第二，越来越多的智能硬件其实是手机的外设，手机是人的外设，越来越多的智能硬件是手机的外设，手机上的传感器也是手机的IO能力，当然这可能不止手机，还有智能手表。手机又本身具备本地的云算处理能力、联网能力，所以它就成为了物理世界信息投影到网络世界的一个通道。当然还有别的设备，无论是Google眼镜也好，汽车上装的MBI设备也好，MBI把汽车情况投影到数字世界，特斯拉、宝马也是。

所以，有一个现象是，过去是依靠人来总结知识。比如说，在不同的历史阶段都有一些大家，把各领域知识汇聚成一本经典著作。现在我发现，可能通过书籍来汇聚知识，不是最有效或者容量最大的方式了，而是通过系统学习用户行为存储智慧。比如说，我们希望查过去几年春运的变化情况，我们其实可以在百度指数上查到，百度指数上可以查到北京到深圳、北京到南京不同的查询词，通过这些记录，我们可能比各种年鉴、书籍，能够更详细的得到历年春运的交通情况，这个知识的沉淀，并不是通过有一位学者去收集归纳分析过去几年发生的情况写成书，而是通过用户行为。我发现通过用户行为从广大用户中吸取知识、存储智慧开始出现，我觉得这可能是未来存储智慧的主要方式。

首先是感知，第二是理解，无论是查询也好、点击也好、收藏也好，通过这些了解用户的意图。系统感知理解了这个知识之后，能够对新的动作产生判断，具备感知理解判断的系统，它会有自我成长的特质。

我以今日头条为例，再来解释一下自我成长。首先，今日头条的推荐系统，用户用的越久会越好用，系统感知了越多他的行为它会越理解。另外，越多人用它会越理解，因为不同的人之间有共性的东西，比如同事都是在北京进行IT创业的男士，他对机器学习和风投都感兴趣，越多人用，他们之间能够共享共性的东西就越多，所以越好用。这两个加起来会出现什么情形呢？越多人用越长时间，越好用。

这里我想做个比喻，就像两个新出生的婴儿，他们随着生活阅历的不同，他们的智商情况会差别非常大，哪怕他们的基因物质条件相同，但他们每天收集的信息不一样，最终积累的智慧就不一样。但系统跟个人不同的是，它不是从个人视角积累这些数据，因为一个系统可以通过上亿活跃用户获取海量数据，所以它是全局视角看每个用户的行为。

我具体介绍一下，今日头条在使用机器学习在推荐引擎上的实践。

在过去，我们看报纸、看平媒，是没办法获取用户行为的，也就是说通过阅读报纸，主编或者总编室，他不能得到这个用户数据，他可能只能通过对用户的访谈、调查，一种非在线的方式收集数据，这种信息的感知水平跟移动APP差别是非常大的。

我们再看一下移动APP，我们想象一下，当一个人地铁中使用今日头条的时候，不仅是他在使用今日头条，他在观察阅读数据，其实今日头条后面的系统也在观察他，观察他每一步的滑动，是否很快的滑过了标题还是有所停留，认真的阅读了还是粗略的阅读了，是否参与朋友圈讨论？这些行为都会被系统感知到，系统再做实时调整。

我跟一些媒体人交流也是，他们很希望获得不同用户的反馈，但他们只能通过读者来信，读者来信的数量是多少呢？如果一期杂志或者一期报纸有一千封读者来信就是很高兴的事情了，但一个在线的APP，每秒钟的APP用户反馈都可能是几千、几万的，所以这是不同量级的数据获取。

我们获取到这些数据，怎么使用呢？我们大概分成几类特征：第一类是他的动作特征，他的点击、停留、滑动、顶踩、评论、分享，这些是最主要的数据。其次是他的环境，他是在WiFi还是3G环境，他的GPS是在北京还是在上海，他是离开他的常驻地还是在旅行状态，甚至包括白天还是晚上，包括今天的天气，是否是节假日，都可以作为使用特征。第三是他的社交数据，今日头条一直都是鼓励用户用社交登录，将近有一半用户登录今日头条。比如他用微博登录之后，我们可以获取他的微博身份，这些数据都会成为各种特征被系统所学习到。更重要的是，系统将不仅使用这种单一特征，还会将这些特征组合，看不同特征情况下用户有什么样的兴趣爱好。

所以，我们最早不是基于机器学习的，是基于策略的，我们用人的知识，比如我们认为，北京人肯定喜欢多看北京的本地行为，上海喜欢看上海的，这些知识是人工感知理解判断得到的，并不是系统得到的。

后来我们使用了一些高级特征，少量的组合，可能会包括，他是不是一个当地居民，是不是一个IT的重度用户，他使用的手机价格是多少，可能几十上百种的高级特征会进行组合，来进行推荐。

去年下半年，我们又进行了改进，用了海量的高级特征和精细化特征。精细化特征，他过去对某篇文章或某个明星的点击行为，对他现在阅读有什么影响。

这也带来了服务器非常大的压力，我们认为会有更丰富的特征，并且不仅是一种模型，刚才也提到了，无论是信息模型、神经网络，不仅是一种模型，可能是用模型组合来进行行为的理解和判断。

通过使用推荐引擎，我们其实在诞生之初，这个领域已经是一片红海了，通过推荐引擎的技术，我们在过去两年超越了几个互联网巨头，达到每天有两千万用户在使用今日头条。

并且，每天每个用户使用6-7次，每次6-7分钟，所有用户加起来有7亿分钟的使用时长。如果一个人看的话，相当于从唐朝阅读到清朝的跨度。

这么多用户每天使用的话能产生多少数据呢？我们每天日志函数在100亿的规模，这是去年三个月左右的数据。最后真正被使用的特征也有300多亿。

这幅图是我们内部的一个指标，用来衡量学习的效果。过去一年中，我们通过增加特征的组合，优化模型，大概能提高80、90%的指标提高。简单来说，我们可以认为机器的智商水平有了80、90%的提高。

所以我理解，类似今日头条这种推荐引擎系统，它不仅是一个个人助理角色，因为我们很多时候想到机器学习的时候都会想到人工智能，想到人工智能都会想到机器人，想到机器人都会想到它可能替代一个人，其实它不是替代人，而是更像向整个世界贡献资讯，今日头条每天观察两千万用户行为、一百万条日志，不只是观察一个人，所以更有像上帝一样俯视的视角，爱好的变化，新兴的资讯在不同人之间受欢迎的程度。我其实在做这个产品过程中的感觉是，系统有时有上帝的视角，能够俯视观察所有用户。

所以我觉得，机器学习短期内是看不到有机会跟人类智商相比较的系统的，但是有机会在各个垂直领域，出现可能比平均人类能力更好的判断，比如说在阅读、导航，天气预报就不用说了，因为人根本就无法对天气各种特征做出预测，跟人生活相关的各个领域，比如导航，机器对交通信号、历史人流情况做出判断，比人做出的判断更靠谱，这已然已经出现了。

比如今日头条比你的助理，更能理解你喜欢什么，这也是很可能达到的，或者已然达到的现实。因为机器的智商未必高，但是抵不过它年长和见多识广、不知疲倦。所以我觉得，通过机器连接众多设备，观察众多设备上产生的行为，形成机器智慧之后，它能够大规模抹平信息的鸿沟，减轻人的负担。

以前信息整理收集能力强的人，有更好的信息获取能力，它在信息社会有更多优势。比如说一个对交通经验多的人，能够判断出更好的路线，现在有了基于机器学习系统之后，机器能够指引人更有效的获取信息，更有效的交通出行，所以减轻了人脑的负荷。

机器还知道什么呢？比如说今日头条的系统，在过去一年中，它从这么多用户行为中还了解了什么呢？它知道了哪些人所不知道的知识点呢？比如说，过去一年中哪个事件被人最快的遗忘了？哪个城市的人最喜欢哪个明星，其实这些机器都能知道。想知道这个答案的话，我这里做个广告，20号下午我们会发布一个算数的年度发布会，在那个会上我们会把一些机器学到的东西，以算数的主题发布出来，到时候希望大家参加。

谢谢大家！