按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
本来,这一趟来多伦多大学,尤其是只去密西沙加校区,是为了挖杰夫。辛顿教授。因为杰夫。辛顿发明了“深度学习算法”和“卷积神经网络”,开创了后世三十多年的人工智能时代。
尽管后来又有无数新的算法和模式堆叠修饰到了人工智能这棵大树上,但杰夫辛顿好歹是为人类的最初可执行性指明了方向。
而按照林志凌的情报,杰夫辛顿如今还在密西沙加校区,是个跨圈的票友级别的教授。这厮当年搞心理学出身的,半路出家改搞计算机,却偏偏利用跨圈的综合才能硬生生杀出一条独辟蹊径的路数来。
史上,杰夫辛顿要到2004年底才被“加拿大先进项目研究所”(cifar)所重视,并从基金会里拨出一部分款项支持他的项目,并且后来陆续提高到了一年100万美元。直到2006年底辛顿遇到了他的贵人他的阶段性成果被谷歌公司看上了,然后一下子上千万美金地砸,立刻让研究速度突飞勐进。他的另一个助手、副教授则被扎克伯格的facebook挖走。这一格局才奠定了后来谷歌和fb双雄在人工智能领域的先发优势。
因为杰夫辛顿对人工智能的巨大贡献,这些细节都被记在了史书里,所以顾诚这个穿越客都知道。
顾诚一直以为他知道的史,就是史的全部了。
然而,今天看了多伦多校方发来的资料之后,顾诚才发现,原来多伦多系之所以能培养出杰夫辛顿这样的大牛,也是有其必然性的,尤其是基础的学术土壤和氛围上,积累非常好。
比如,目前林志凌手头的便笺上提到的史蒂芬。库克教授,就属于那个“虽然没开成肉联厂,但是至少养了一群猪”的角色。他对“计算复杂性理论”和“np穷尽理论”的贡献,才促成了后来多伦多系在人工智能领域的百家争鸣。
“志凌姐,我说你写,就这样回复此次我方考察准备讨论的议题好了:包括神经网络算法、遗传算法等模式在内的np完全性模型衍生……”
顾诚字斟句酌地说了一些在林志凌眼里像天书的内容,林志凌打完字之后还有点儿不敢相信,让顾诚亲自看了一遍,才把邮件回复了出去。
不一会儿,多伦多大学校办那边就收到了情况,然后第一时间由埃德蒙副校长转给了史蒂芬。库克教授。
“这家伙还懂这些议题?他有资格讨论么?”库克教授看得一愣,年近七旬的花白脑袋上,头发都被忽悠得一抖一抖。(未完待续。。)
第104章 每个领域都有天下第一
库克教授的主要研究方向“计算复杂性理论”,这种专业术语大多数人肯定听不懂,
用两句人话翻译一下,大致就是这样的:
首先,用一台电脑来假设人脑面对问题时的处理模型。比如,当一个人走进一个满是人群的礼堂时,想知道“礼堂里有没有我认识的人”这个问题的答案,那么他就得一步步搜寻,从头到尾一个个认,如果全部人看完都没有一个认识的人,才能得出“礼堂里没有我认识的人”。而只要找到一个认识的人,就能下“这里有我认识的人”的判断。
所以,常识一般认为,“从科学严谨的角度而言,证明一件事情比证伪一件事情要耗费更多的判断/计算资源,因为证伪只需要找到一个反例就可以结束论证、不再继续往下耗费计算资源。而证明需要推翻所有反例”。
可是实际情况下,人脑在“不刻意追求绝对科学严谨”的前提下,做很多大致粗略的判断时,要比电脑快得多。
比如让人看一张照片,判断照片上的东西是不是“猫”,人一眼就判断出了,而不需要去验证“图片上这个疑似猫的生物是否有xxxxx等生物学上的特征”。
换句话说,人类懂得如何抓大放小、用“模糊算法”尽快得到一个勉强可用、但不太严谨的结论。
而1980年代以前,人类根本就不知道如何让计算机“不严谨”。
所以计算机在求解一切问题时都是用严谨到爆的暴力算法硬扛的,导致很多因为分支可能性多到天量级别而无法穷尽的问题,计算机就没法解决。
比如围棋。因为哪怕以2010年代的计算机硬件运算速度,如果要暴力算法“科学严谨”地穷究一切可能性,全世界的计算机加起来分布式运算都算不动。所以在那种思想指导下,人类只能满足于“用暴力算法攻克国际象棋之类穷尽运算量也不大的脑力运动”。而平行时空的“阿尔法狗”干掉那么多高手,就绝对不能靠近乎低能儿蛮干的暴力算法。
斯蒂芬。库克的毕生研究,就是在解决“如何让计算机在资源不允许其彻底严谨的前提下、学会像人脑一样抓大放小、用有限的计算资源得到一个相对准确的大概结果”。
顾诚觉得,或许多伦多大学计算机系里,在库克麾下,藏着更多从不同角度试探这一领域的人才。而杰夫辛顿有可能只是因为历史的选择而恰好最早在人工智能领域出头引起了重视。
但这绝不代表这一体系内,其他分支的人才就没有价值了。
如果可以折服史蒂芬。库克教授,对于顾诚的全盘、系统挖人大计,显然是很有帮助的。
……
下午3点,密西沙加校区,神经网络实验室。
顾诚见到了早已收拾妥当、一脸局促的杰夫。辛顿教授。
还有成名天下垂20载、刚刚从圣乔治主校区风尘仆仆赶来的史蒂芬。库克教授。
一番简单的客套之后,顾诚说出了此行的主要来意,首先向杰夫辛顿发出了延揽的邀约,而且出价不菲。
“辛顿教授,我可以为你成立一个基于‘深度学习算法’的研究所,你个人可以得到200万美元的年薪,以及每年1000万美元的研究经费,合同期至少5年。你的助手和带的研究生,我也可以给予最优厚的条件。唯一的问题是,你可能会终生失去在学术界的地位。你的论文只有很少一部分有发表的潜力,而且还得签保密协议。你自己看着办吧。”
杰夫。辛顿有些尴尬,毕竟资格比他老20年的学界泰斗史蒂芬。库克就坐在旁边。顾诚这样直截了当地谈钱,实在有辱斯文。
“到企业去做事,我们从来是不反对的,学术应该跟产业界结合。不过,就不知道一个明明只是做社交裹挟和游戏攀比的公司,能有什么课题让人拿出可以上ieee系列期刊的成果呢。”
库克教授直接就点出了顾诚的短板。
别的产业界大牛,无论微软还是谷歌,好歹有一水儿的顶级大学研究所支撑。顾诚虽然也是搞互联网的,但他的技术含量是最低的那一型。
就像后世bat三巨头当中,腾云是技术含量最低的一个。
“你提到了神经网络算法这个拟研究方向,但我看不出来这和你的产业有什么结合。让我们多伦多大学的教授去做那种看不到学术前景的花里胡哨东西,有违本校的学风。”
库克教授也不管自己只是个所长,直接就盖棺定论了。
所谓“神经网络式算法”,库克教授十几年前就有涉猎,相比于80年代以来的其他“np穷尽理论”而言,其最大的特点是“没有运算核心”。
用人体来举例,人作为一个生物个体而言,是有中枢神经的绝大多数机体行动,都是大脑控制肢体,眼口耳鼻手足感知到了外部信号之后先要通过反射弧传递到大脑(部分最低级的反射,至少也要到延髓/脊髓处理)等大脑作出处理指令之后,手足才会作出反应。
但是如果把大脑单独作为一个独立个体解剖开来看,大脑内部上千亿个神经元是平等的。并不存在“某一小撮神经元高于其他周边神经元、从而在处理信息时先由这一撮神经元预处理、预处理完之后再交给下一撮神经元处理”这样的先后顺序。
(神经网络当然还有其他很多基础特点,这里仅仅讨论和“遗传算法/退火算法”的主要区别,所以不多赘述了。否则能水几万字,大家还看不懂。)
当年“神经网络”的概念被提出时,就是为了探讨一种让电脑高效处理类似于“找到礼堂里到底有没有我认识的人”问题的新方法:如果可以有多个电脑,自然随机地分配任务,并行从多个点开始用就近算法寻找,那么自然可以在“单核cpu”性能比较弱的情况下,通过堆砌cpu数量加快问题的解决速度。
但这个概念并没有“节约计算资源”,因为理论上它只是把“1台电脑10小时工作量”变成了“10台电脑1小时的工作量”而已。而且这种最原始的“神经网络”也依然没法解决那些“似是而非”的模糊问题他们只能回答“有我认识的人/没有我认识的人”这种非此即彼的问题。
库克点名了在这个领域让顾诚对其应用模型说出个子丑寅卯来,顾诚自然不能避战。
“我拜读过辛顿教授对于神经网络的最新模型假说,卷积神经网络,以及与之配套的学习型算法。我认为这个东西可以和互联网的自动识别/索引工具相结合。至于具体的应用场景么……那就属于商业机密了,恕我无可奉告。”
“卷积神经网络的新用法?”
史蒂芬。库克教授一愣,但很快冷静下来,他可不是一个概念就能忽悠住的。
“看来,顾先生要论述的重点,就在于‘卷积’上面了?”
“没错,如果没有‘卷积’,仅有‘神经网络’,我们依然没法讨论近似于人脑判断的模糊问题。”顾诚一副成竹在胸的样子,似乎对对方的反应早有预判。
他打开电脑,接上投影仪,屏幕上出现了一张猫的图片。
“我用图上这只猫举例子尽管这只猫一只耳朵竖着一只耳朵折了,眼珠瞳孔也有点不正常,尾巴还特别短,毛色肮脏还和照片的背景色非常接近,但我作为一个人类,还是一眼就认出了这确实是一只猫。
现在,我用我根据辛顿教授的阀值思想编写的自学程序,用机器对这只猫是否是猫进行初次预判。在这个算法里,我们预构了30个组合特征量,比如‘猫眼’、‘猫耳’‘猫毛’、‘猫尾’……然后用三十个神经元单位的处理资源,分别针对每一个组合特征量进行预判,然后分别给出结果。
在这三十个神经元单位内部,我们再根据‘本图猫眼与本神经元见过的猫眼’之间的像素相似度作出判断,给出一个积值,从而得到‘这有85%概率是一只猫眼’或者‘有70%概率是一只猫耳’之类的参考量。最后,把这30个组合特征量按照默认1:1的权重进行组合,最终平均分高于60分就判定‘这是一只猫’。”
“那成功率肯定很可怜。”库克教授耸耸肩,一脸的悲悯。
“当然很可怜,因为我的实验才开始呢做到这一步,并不是要让机器判断正确,而是在机器判断完之后,让人眼再复查一遍。如果机器和人的判断结果一致,那么就给目前的特征量分组方式和每个特征量的权重比例数组加1分。
然后,再判断下一次。如果还对,再加一分。直到判断错了,然后就自动对现有权重比例数组作出调整:比如,此前判断正确的两次‘平均分60分’的结果中,‘猫眼’得分分别是75和80分,而‘猫耳’得分是45和40分。而判断错误的那一次‘平均分60分’的结果中,‘猫眼’是50分‘猫耳’是70分。那么,我们就可以得出一个结论:决定猫是否长得像猫的所有特征变量中,‘猫眼’是比‘猫耳’更关键的变量,在计算综合分的时候应该提升其权重。
最后,按照这个逻辑让这套算法看一百张猫图,一千张,一万张……算法自然会总结出一套‘即使不全对,但正确概率越来越高的判断权重’。”
人类的小孩儿,在3岁的时候学习认各种东西,其实大脑里就是这么算的。没什么非坚持不可的特征,看个几百只猫,自然而然就调整各个特征权重,知道什么是猫了。
没有任何一个变量,拥有“一票否决”的权力。充其量,只是其在卷积神经网络中的“积分量”比较高而已。正是因为如此,人类才可以在看到一只双眼彻底被挖掉的猫时,依然认出这是一只猫。
……
顾诚的整体论述,自然是非常冗长的,难以一一赘述。
其中很多关窍,说透了之后也完全通俗易懂,根本没什么逼格。
但是顾诚至少为“如果做不到全对,就没有商业价值”的卷积神经网络,提供了一种“就算现在做得还不太好,也能在一两年内就取得阶段性商业变现可能性”的路径。
史蒂芬。库克教授与之交谈良久,最后默然不知如