如果把大学四年划分成春夏秋冬四季,代表收获的秋天是对我的大三恰如其分的比喻。

这一年的上半学年,在ACM集训队训练两年多后,我和柏宇、郝进组成的队伍终于开始了现场区域赛的征程。556跑遍了祖国的大江南北,北至冰城哈尔滨,南至绿城南宁。我们在哈工大的小吃街对着一大盆米线胡吃海塞,拿着一盒越喝越硬的酸奶笑成傻X……

在区域赛过后,日程表上终于出现了一些空白,我开始寻思应该开始一些工程方面的工作。

在郝进的推荐之下,我到旷视面试实习岗位,面试官是一个年轻研究员。在他的带领在,我摘下手套,从寒冷的冬天走进了旷视的办公区域。在那块区域里我看到了高端的升降办公桌,快速敲打着键盘切换着命令行窗口的手,以及下面垫着的清华大学纪念款掌托。在进入玻璃面试间(那时我不知道什么是讨论室)后,我们开始简单聊起来,涉及到的问题其实不难,不过是简单的图论和线性回归问题。然而,unfortunately,我并没能很好的解出任何一个问题。气氛一时变得很凝固,察觉到失败的征兆,我尝试以自己的学习和理解能力来挽回局面。在面试官表示这些能力mean nothing for research之后(I suppose research may only belong to the most original minds),我只能遗憾退场。

在回学校的路上,北风呼啸,我顺路去了五道口。一碗康师傅私房牛肉面(外加一份酱肘花)下肚之后,我感觉温暖了很多。人的痛苦往往在于不能接受现实,接受了自己就是菜这个事实后,我好了很多。痛定思痛,我认为自己主要是lack of preperation,并且从来就没有考试的天赋和运气。

人总是需要往前走,未来总会有你意想不到的事情发生。就像虽然从大一时就跟舍友吹嘘以后一定要去微软或者Google实习,但我从来没有意料到自己能到MSRA实习。

我一向有一个不值一提的优点,就是too young too simple,不容易被一件事情打败。在经历过一次面试后,我居然开始积极寻找微软的实习机会(我不知道为啥是微软,可能其他外企在中国没啥实习机会吧)。后来在国鑫哥的力荐下,我运气很好地通过面试,经过很长的时间等待老板放完圣诞回来,我终于收到了MSRA的greeting letter。就这样,一直到入职之后好久,内心仍有一种不真实的激动感。

在研究院的第一次实习期间主要干的是engineering,维护一个开源在GitHub的项目。那时候我已经听说过诸如神经网络、机器学习等名词,想着在亚研院做的肯定是如此这般的高级玩意儿。然而,to my surprise,这个项目让我充分认知到了什么叫做「人工」智能,就是用多少人工就有多少智能。这个项目是一个基于规则的一般实体抽取工具库,学术上可以叫做generic entity extration,属于自然语言处理的一个基础子任务。简单来说,就是用一堆if语句和正则表达式,识别出一段话中表示数字、时间、电话号码等的部分。说起来并不复杂,但当进入现实场景中,需要考虑到复杂的语境和多国语言时,如何把这些繁多的规则整理好就成了一门叫做engineering的学问。与research强调新知识的获取与突破不同,engineering强调的是可用可靠与可持续性,其中的常态是get your hands dirty,在明白这个道理的过程中,崇尚理想主义的我却渐渐失去了一些热情……这个看似trivial的项目,最终被运用于微软包括Office套件在内的众多应用中。

人工智能上图为2013一篇论文1里关于当时实体抽取实现方法的统计调查,得出的结论见论文标题

没过多少时间,我就熟悉了这个项目,每天都能定时定量完成任务。同时,在周围环境的感染下,我开始了在自然语言处理领域研究的初步探索。从看公开课,读基础的论文开始,我开始慢慢清楚领域下的各个子任务及其recent progress and SOTA。

从零基础开始慢慢理解一个正在快速发展的领域无疑是困难,但同时这个如同把冰融化成水的过程也给予了我初识一个极具魅力的领域的乐趣。语言作为一种伟大的不自觉的创造,一直令我着迷。赋予机器理解语言的能力(某种程度上需要人类真正理解语言),是人类一直以来的梦想。由此,我看到了一个似乎可以追逐一生的目标。为走上一条道路,我突然意识到了pursuing a higher degree的需要,开始认真考虑出国留学的可能性。

在研究院另一大幸事是认识了众多优秀的小伙伴,从他们那里我获得了许多帮助和快乐。

在这一学年,我和李博接任ACM的队长,我尝试在队伍训练和管理上做一些改变,但往往差强人意。期间因为实习和学业,没能投入更多精力,十分遗憾。

PS:其实一直想写一篇实习感受,然而写了一年都没憋出来满意的东西(主要之前的想法是用英文写一个formal一点的,哎呀我这个三流英文水平),正好趁这个机会用一部分篇幅描述第一次实习的体验。

[1] Rule-based Information Extraction is Dead! Long Live Rule-based Information Extraction Systems! - EMNLP 2013 (opens new window)