人工智能题(人工智能题目及答案解析)
通往算法工程师的进阶之路是崎岖险阻的。《线性代数》《统计学习方法》《机器学习》《模式识别》《深度学习》,以及《颈椎病康复指南》《程序员防脱发指南》,这些书籍将长久地伴随着你的工作生涯。今天给大家分享的是国内排名前20%AI大厂经典面试题总结,资料在下面欢迎领取,没有套路。
一、基本操作
1.你会在时间序列数据集上使用什么交叉验证技术?是用k倍或LOOCV?
都不是。对于时间序列问题,k倍可能会很麻烦,因为第4年或第5年的一些模式有可能跟第3年的不同,而对数据集的重复采样会将分离这些趋势,而我们最终可能只是需要对过去几年的进行验证,这就不能用这种方法了。相反,我们可以采用如下所示的5倍正向链接策略:
fold 1 : training [1], test [2]
fold 2 : training [1 2], test [3]
fold 3 : training [1 2 3], test [4]
fold 4 : training [1 2 3 4], test [5]
fold 5 : training [1 2 3 4 5], test [6]
1,2,3,4,5,6代表的是年份。
2.你是怎么理解偏差方差的平衡的?
从数学的角度来看,任何模型出现的误差可以分为三个部分。以下是这三个部分:
偏差误差在量化平均水平之上,预测值跟实际值相差多远时有用。高偏差误差意味着我们的模型表现不太好,因为没有抓到重要的趋势。而另一方面,方差量化了在同一个观察上进行的预测是如何彼此不同的。高方差模型会过度拟合你的训练集,而在训练集以外的数据上表现很差。
3.给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?
约有32%的数据将不受缺失值的影响。因为,由于数据分布在中位数附近,让我们先假设这是一个正态分布。我们知道,在一个正态分布中,约有68%的数据位于跟平均数(或众数、中位数)1个标准差范围内,那么剩下的约32%的数据是不受影响的。因此,约有32%的数据将不受缺失值的影响。
4.真阳性率和召回有什么关系?写出方程式。
真阳性率=召回。它们有相同的公式(TP / TP + FN)。
二、项目实战
1.给你一个有1000列和1百万行的训练数据集,这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间,但你的机器内存有限。你会怎么做?(你可以自由做各种实际操作假设。)
你的面试官应该非常了解很难在有限的内存上处理高维的数据。以下是你可以使用的处理方法:
由于我们的RAM很小,首先要关闭机器上正在运行的其他程序,包括网页浏览器等,以确保大部分内存可以使用。
我们可以随机采样数据集。这意味着,我们可以创建一个较小的数据集,比如有1000个变量和30万行,然后做计算。
为了降低维度,我们可以把数值变量和分类变量分开,同时删掉相关联的变量。对于数值变量,我们将使用相关性分析;对于分类变量,我们可以用卡方检验。
另外,我们还可以使用PCA(主成分分析),并挑选可以解释在数据集中有最大偏差的成分。
互联网小常识:10Gbps光以太网的优势:a、以太网与DWDM的技术已经非常成熟,成本很低。b、10Mpbs-10Gps都已经标准化,100Gbps正在研究,可以满足不同层次的需求。c、采用统一的技术方便管理和人员培训。
利用在线学习算法,如VowpalWabbit(在Python中可用)是一个不错的选择。
利用Stochastic GradientDescent(随机梯度下降法)建立线性模型也很有帮助。
我们也可以用我们对业务的理解来估计各预测变量对响应变量的影响的大小。但是,这是一个主观的方法,如果没有找出有用的预测变量可能会导致信息的显著丢失。
2.如何确定 LDA (隐狄利克雷模型) 中主题的个数
在LDA中,主题的个数K 是一个预先指定的超参数。对于模型超参数的选择,实践中的做法一般是将全部数据集分成训练集、验证集、和测试集3 部分,然后利用验证集对超参数进行选择。例如,在确定LDA 的主题个数时,我们可以随机选取60% 的文档组成训练集,另外20% 的文档组成验证集,剩下20% 的文档组成测试集。在训练时,尝试多组超参数的取值,并在验证集上检验哪一组超参数所对应的模型取得了最好的效果。最终,在验证集上效果最好的一组超参数和其对应的模型将被选定,并在测试集上进行测试。
为了衡量LDA 模型在验证集和测试集上的效果,需要寻找一个合适的评估指标。一个常用的评估指标是困惑度(perplexity)。在文档集合D 上,模型的困惑度被定义为
其中 M 为文档的总数,wd 为文档 d 中单词所组成的词袋向量,p(wd) 为模型所预测的文档d 的生成概率,Nd 为文档d 中单词的总数。
一开始,随着主题个数的增多,模型在训练集和验证集的困惑度呈下降趋势,但是当主题数目足够大的时候,会出现过拟合,导致困惑度指标在训练集上继续下降但在验证集上反而增长。这时,可以取验证集的困惑度极小值点所对应的主题个数作为超参数。在实践中,困惑度的极小值点可能出现在主题数目非常大的时候,然而实际应用并不能承受如此大的主题数目,这时就需要在实际应用中合理的主题数目范围内进行选择,比如选择合理范围内困惑度的下降明显变慢(拐点)的时候。
另外一种方法是在LDA 基础之上融入分层狄利克雷过程(Hierarchical Dirichlet Process,HDP),构成一种非参数主题模型HDP-LDA。非参数主题模型的好处是不需要预先指定主题的个数,模型可以随着文档数目的变化而自动对主题个数进行调整;它的缺点是在LDA 基础上融入HDP 之后使得整个概率图模型更加复杂,训练速度也更加缓慢,因此在实际应用中还是经常采用第一种方法确定合适的主题数目。
下面是小编整理的一些人工智能方面的资料,需要的可以私信回复资料就可以领取链接了,看头条好像不能放链接,就辛苦一下大家了。(它的这个推荐机制和审核我也很蛋疼。)
三、面试技巧才是王道
互联网小常识:安装DNS服务时,根DNS服务器会被自动加到系统中。使用”nslookup“对DNS服务器进行测试,如果仅测试域名到地址的转换功能使用ping域名命令即可。
1. 如何在面试中引起注意
老实说,这一步最重要。让社会招聘变得如此艰难和疲惫的原因是如何让招聘人员在收到的众多申请中仔细查看你的个人资料。与公司内部人员建立联系可以让你很容易地获得推荐,但一般而言,这一步可细分为三个关键步骤:
1)做好监管准备:即准备好领英档案、Github 档案、个人网站以及一份精心打造的简历等材料。首先,你的简历应该非常整洁和精炼,因为面试官会通过你的简历来了解你,并且会根据简历提出面试问题,所以简历尤为重要!
2)这个要点是你的 GitHub 资料。很多人仅仅因为它不像 LinkedIn 那样具备「谁看过你的资料」选项,而低估了它的重要性。人们真的会看你的 GitHub,因为这是验证你 CV 中提及项目的唯一方式,鉴于人们现在在自己的职业资料中添加了很多与各种流行词相关的噪声。尤其是对于数据科学来说,开源意味着把使用的很多工具、实现的不同算法、各种学习资源都开放出来了。
3)这是大部分人缺少的,即在招聘网站上展示自己的经历和个人项目。制作个人职业资料表示你非常严肃地考虑进入某领域,在真实性上加了很多分。此外,履历(CV)通常会有空间限制,可能会缺失一些重要细节。你可以在个人职业资料中深入介绍这些细节,推荐对项目/思路进行某种形式的可视化或其他展示。创建一份职业资料非常简单,有很多免费平台,通过拖放功能就可以实现这一过程。我个人使用 Weebly,这是个广泛使用的工具。
2.如何赢得面试
很多同学在面试的时候会非常紧张,以至于将事先的面试准备忘的一干二净,这就是面试的时候心态没有摆好,你要知道,尽管对于你来说面试官是陌生人,但对于他/她来说你也是陌生人。所以他们可能和你一样紧张。
把面试看作是你和面试官之间的对话,这点非常重要。你们俩都在寻找对双方都有利的结果(mutual fit)——你在寻找一个优秀的工作场所,而面试官在寻找一个优秀的共事者(比如你)。所以,确保你对自己感觉良好,同时保证对话的开场令人愉悦。要做到这一点,最简单的方法就是微笑。
面试主要有两种类型——一种是面试官带着准备好的问题来面试,不管你的个人资料如何,他/她都会问你这些问题,这种情况下就是公司已经确定需要什么样的人,但是他在看到你的简历描述之后给了你面试机会,说明是对你的项目经验很满意的,所以只要将他的问题结合到项目进行阐述,说明自己的项目优势就行了
另一种面试基于你的简历,通常情况下这种面试官他的技术底蕴可能还不如你,你只需要吧他问你的东西详细的描述给他听,确保他能懂的话,基本上就能征服他了。
最后
当然,面试是存在一些技巧,但是那些技巧仅限于如何更好的展示自己的优点,而不是学会如何欺骗面试官。千万不要听一些培训机构说的去唬面试官,这是很蠢的。哪怕你唬住了,后面你还得工作,不行的话还是得被辞退,而且会被这个公司列为黑名单,并且公司的合作单位也会收到你的相关信息,人工智能圈子就这么大所以不要自误。
互联网小常识:网桥最主要面临的问题是帧转发率低与广播风暴,影响其性能的主要参数是:帧转发率与帧过滤率。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186