24年9月找实习面经

感觉不实习心痒痒,因为本身导师不让偷跑实习,所以这次投递优先投远程,然后投深圳的厂。投递的岗位主要是大模型和audio。先后投了三星研究院,第四范式,MS,MSRA,字节,腾讯,百度,IDEA,这里记录一下面试过程。腾讯和字节没有约面,四范笔试没过,其他的都约面了,但确实转纯AI后自己履历太垃了,到处碰壁,有好机会也因为不能线下实习就吹了,准备沉淀到12月再投一波。

三星研究院

感觉比较佛系的一个厂,实习内容主要做降噪和回声消除之类的,面试的时候主要问了论文,实习经历,面经和算法题倒是没有。下午四点开始面试,面了10多分钟。我面完了开一把大乱斗,对面一塔都没掉就oc了(史上最速oc传说)。但沟通后说这边不支持远程实习,于是offer就吹了。

第四范式

四范北京base支持远程实习,进去后的岗位其实啥都行,只要打内部的榜拿到考前的排名就行。投递后过了两天发了笔试链接,当时确实面经没有看多少,基础不牢,概念题有些没填对,然后笔试题最后一道记忆化搜索因为对python声明二次数组不熟悉,算法对了数据没过就没下文了。

MS BingAds

实习的工作是Bing的LLM广告推荐,面试的时候主要问了我字节的实习经历和论文。接着问我对推荐系统有没有了解,我把byte那边的推荐系统科普文档背出来了,他觉得没啥问题。接着编程题是一道ez题和手写softmax,然后问softmax的输入值太小被识别成0了怎么处理,现场推了一遍都过了。之后面试官说过几天约二面。

我很喜欢这个业务,涉及LLM风口,又设计永远都有需求的推荐。但沟通后那边不支持远程,也吹了,最可惜的一集😭。

MSRA DKI

实习工作是做Copliot,也是很好一个业务,支持远程实习。先是问了实习经历,接着问有没有修改模型架构的经验,我这种拼积木选手当然没这个经验,只能说模型里换了哪些积木。算法题本来一开始说做ez,看我秒了后让我做hard(最长有效括号子串),两年前做过的题,现在忘了,半天没做出来被拒了,确实干不过其他的候选人。

MSRA 多模态计算组

发邮件10分钟后约面了,面试官最初觉得我在做audio很match,但我当时audio的基础其实并没有那么牢固。上来问我audio自监督特征,我说了Wav2Vec,Wav2Vec2.0,Hubert,WavLM,然后说了它们之间的区别,面试官觉得不够本质,继续深挖后被问穿了。接着让我讲字节的实习,隔行如隔山,我说了半天,面试官还是不知道黑灰产是什么意思,然后问我有没有检测有关audio的黑灰产,给我整不会了。然后问我一个根本没涉及过的任务,小语种语音翻译怎么做,当时我说大模型微调,但面试官觉得不够具体并且效果不好。这次面试体验算比较差,感觉和面试官不同频,我们双方都不能很好的get到对方的意思,于是也吹了。后面还有MSRA ML组约面,但我说要远程,于是也没下文了(其实应该oc后实习一个月然后转线上)。

百度文心一言

先从方案到应用场景深挖了我的Audio项目,接着问大模型预训练、SFT、RLHF的流程,多模态里模态对齐的方法,SFT除了全量微调还有什么方法。RLHF里面的优化函数有什么物理意义(真不熟RLHF,就没答出来这个)。然后继续问我模型水印的论文,这一部分都答的很好。

算法题环节是树的层次遍历,当时忘了python的队列怎么做了,直接list.insert(0,val),把复杂度弄成平方。后面脑子转过弯来改过来了,但也给面试官整难绷了。md啥时候算法这么菜了。

反问环节了解到这个岗位虽然是算法实习生,并且JD里面有预训练,但实际是给文心一眼预训练组洗数据的,纯tmd面试造火箭,本来就不想去的,面试还给我挂了,更气了😅。

IDEA金融研究院

我自我介绍时表示我从安全跑路来AI的,他说我们正好缺搞隐私的😅。

问了我在Byte实习的工作。然后是介绍Transformer和音频大模型,我都说出来了后说我对大模型不熟悉,tmd讲成啥样才算熟悉。然后给我一个模型训练数据隐私的问题,问我怎么做,我一顿胡扯把他扯信了。最后代码题是手写kmeans。过了两天oc了,但真不想去搞隐私,如果不能纯搞LLM的话就拒掉了。

总结

其实八月末九月初的实习岗位很多的,MSRA那边特别缺人,但那时候想玩,错过了最好的时机。真投的时候MSRA已经没几个位置了,大伙也发现该找实习了所以候选人也很多,难度直线上升。深圳这边的算法岗比较少,找实习不占优势,有好的机会没把握住,没狠下心当精致利己主义者最后落得一个沉淀结局。准备先搞个idea,自己搞一搞预训练和微调至少能丰富下经历不会一下被问穿,尝试申请一下腾讯的犀牛鸟。