“老司机”划重点!搞定这120个真实面试问题,杀进数据科学圈

更新日期:2019-03-13
大数据文摘


5.你会如何向一组管理人员解释为什么数据很重要?


数据分析

1.给定一个数据集,分析这个数据集并告诉我你可以从中了解到什。


2.什么是R2?可能比R2更好的指标有哪些,为什么?

答:拟合良好,是由该回归/总方差解释的那部分方差;你添加的预测变量越多,R^2越大;因而使用因自由度调整的R ^ 2;或着训练误差指标。


3.什么是维度灾难?

  • 高维度使得聚类变得困难,因为拥有大量维度意味着彼此相差很大。例如,为了覆盖一小部分数据,随着变量数量的增加,我们需要处理每个范围广泛的变量;

  • 所有样本都靠近样本的边缘。这非常糟糕,因为在训练样本的边缘附近做出预测要更加困难;

  • 随着维度 p的增加,采样密度呈指数下降,因此在没有更多的数据量的情况下,该数据会变得更加稀疏;我们应该进行PCA分析以降低维度。


  • 4.更多的数据就总是更好么?

  • 从统计来说,它取决于你的数据的质量,如果您的数据有偏差,获取再多数据也毫无用处;它取决于你的模型。如果你的模型能够承受高偏差,获取更多数据不会太过明显地提高你的测试结果。你需要添加更多特征,或者做别的处理。从实战来说,也需要在拥有更多数据和额外存储,计算能力以及所需内存之间进行权衡。因此,始终要考虑拥有更多数据的成本。


  • 5.分析数据之前绘制图表有什么好处?

  • 数据集会有错误。你不会找到全部的错误,但你或许能够找到其中的一些。比如那个212岁的男人以及那个9英尺高的女;变量会有偏度,异常值等。算术平均值可能用不了,这也意味着标准差用不了;变量可以是多峰的!如果变量是多峰的,那么任何基于其的均值或着中位数的都是可疑的。

  • 模型预测(19个问题)


    1.给定一个数据集,分析这个数据集并给出一个可以预测这个响应变量的模型。

  • 由拟合简单的模型(多元回归,逻辑回归)开始,相应地选取一些特征,然后尝试一些复杂的模型。要始终将数据集拆分为训练集,验证集和测试集并使用交叉验证来观察模型的表现;确定问题是分类问题还是回归问题;倾向于选用运行快速可以轻松解释的简单模型;提及交叉验证作为评估模型的一种方法;绘制图表且将数据可视化。


  • 2.如果测试数据的分布与训练数据的分布明显不同,可能会出现什么问题?

  • 训练时具有高精度的模型在测试时可能具有较低的精度。在没有进一步了解的情况下,很难知道哪个数据集代表了总体的数据,因而很难测量算法的泛化程度;

  • 这应该可以通过重复划分训练集和测试集来缓解(如交叉验证);

  • 当数据分布发生变化时,称为数据集漂移。 如果训练数据和测试数据的分布不同,分类器可能会过度拟合训练数据。


  • 3.有什么方法可以让我的模型对异常值的鲁棒性更高?

  • 我们可以使用L1或L2等正则化方法来减少方差(增加偏倚)。

  • 算法的改变:1.使用基于树的方法来代替回归方法,因为它们更能忍受异常值。2.对于统计检验,使用非参数检验来代替参数检验。3.使用稳健的误差指标,如MAE或Huber Loss,来代替MSE。

  • 数据的改变:1.对数据进行winsorize处理2.转换数据(如进行对数处理)3.只有在你确定它们是不值得预测的异常值时才删除它们


  • 4.与最小化误差值的模型相比,在最小化误差平方的模型中,你认为有哪些差异?每个误差指标分别在哪种情况下合适?

  • MSE对异常值更加严格。在这个意义上MAE鲁棒性更好,但也更难以拟合模型,因为它无法在数值上进行优化。因此,当模型的可变性较小且在计算上容易拟合时,我们应该使用MAE,否则应该使用MSE。

  • MSE:更容易计算梯度

  • MAE:计算梯度需要线性编程MAE对异常值更加稳健。

  • 如果较大错误造成的后果很严重,使用MSEMSE相当于最大化高斯随机变量的可能性。


  • 5.你会什么误差指标来评估二分类器的好坏?如果类别不平衡怎么办?如果超过2组怎么办?

  • 准确性:你正确预测的情况的比例。优点:直观,易于解释,缺点:当类标签不平衡且数据信号较弱时效果不。

  • AUROC:在x轴上绘制fpr,在y轴上绘制tpr以获得不同的阈值。给定随机正例和随机负例,AUC是你能可以识别类别的概率。优点:在测试分类能力时效果很好,缺点:不能将预测解释为概率(因为AUC由排名决定),因此无法解释模型的不确定性。

  • logloss/deviance:优点:基于概率的误差度量,缺点:对假阳性,假阴性非常敏感。当有超过2组时,我们可以使用k个二分类并将它们添加到logloss中。 像AUC这样的一些指标仅适用于二分类情况。

  • 概率


    1.阿米巴虫波波生0个、1个或2个小阿米巴虫的概率分别是25%、25%以及50%。这些小阿米巴虫们的繁殖能力也都一样。请问波波的后代灭绝的概率是多少?

  • p=1/4+1/4p+1/2p^2 => p=1/2


  • 2.任何15分钟时间段内,你看到至少一颗流星的概率是20%。请问在一小时内你看到至少一颗流星的概率是多少?

  • l  1-(0.8)^4。 或者我们用泊松过程也可以解。


  • 3.仅使用一枚色子,你如何生成一个1-7内随机数?

  • 丢三次色子:每一次丢的都是结果的第n位

  • 每次丢色子时,如果值为1-3,则记录0,否则记录1。结果会位于0(000)与7(111)之间,均匀分布(因为这三次抛掷互相独立)。如果得到0则重复抛掷:该过程会终止于均匀分布的值。


  • 4.有一个数据集包含来自两个正态分布的数值。两个分布的标准差相同。来自两个分布的数据点个数相同。请问如果想要该数据集呈双峰分布,两个分布的均值应当至少差多少?

  • 多于两个标准差


  • 5.提供已知正态分布的样本值,请问你能如何模拟一个均匀分布的样本值?

  • 将值代入同一随机变量的累计分布函数

  • 6.一对夫妻告诉你他们有两个小孩,其中至少有一个是女孩。请问他们拥有两个女儿的概率是多少?

  • 1/3

  • 产品指标


    1.对于一个广告驱动的消费者产品(比如Buzzfeed,YouTube,Google搜索等),什么可以称为好的成功衡量指标?服务驱动的消费者产品(比如优步,Flickr,Venmo等)呢?

  • 广告驱动:页面浏览量与每日活跃量,点击率,每次点击成本

  • 服务驱动:购买量,转化率

  • 2.对于一个效率工具(比如印象笔记,Asana,Google文档等),什么可以称为好的成功衡量指标?线上课程平台(比如edX,Coursera,Udacity等)呢?

  • 效率工具:付费订阅用户数

  • 线上课程平台:付费订阅用户数,课程完成率

  • 3.对于一个电商产品(比如Etsy,Groupon,Birchbox等),什么可以称为好的成功衡量指标?订阅产品(比如Netflix,Birchbox,Hulu等)呢?付费订阅(比如OKCupid,领英,Spotify等)呢?

  • 电商产品:购买量,转化率,时/日/周/月/季/年销售额,售出产品成本,存货量,网站流量,净回头客量,客服电话量,平均解决问题时长

  • 订阅产品:流失量,(不知道接下来这几个都是啥)

  • 付费订阅:(无解答)

  • 4.对于高度依赖于用户投入与交互的消费者产品(比如Snapchat,Pinterest,Facebook等),什么可以称为好的成功衡量指标?通讯产品(比如GroupMe,Hangouts,Snapchat等)呢?

  • 高度依赖于用户投入与交互的消费者产品:user AU ratios,分类型邮件汇总,分类型推送通知汇总,复活率。

  • 通讯产品:(无解答)

  • 5.对于拥有app内购服务的产品(比如Zynga,愤怒的小鸟以及许多其他游戏),什么可以称为好的成功衡量指标?

  • 用户/付费用户平均营收

  • 编程(14题)


    1.编写一个函数,计算2n个用户所有可能分配向量,其中n个用户为控制组,n个用户为治疗组。

  • 递归编程

  • 2.提供一个包含推特消息的列表,求十个最常用的的标签。

  • 在字典中存储所有标签然后求前十值

  • 3.在给定时间内写出算法求解背包问题的最佳近似解。

  • 贪婪算法

  • 4.在给定时间内写出算法求解旅行商问题的最佳近似解。

  • 贪婪算法


  • 5.你将得到一个大小为n的数据集,但你无法提前知道n具体有多大。写出一个占据O(k)的算法来随机抽取k个元素。

  • 水塘抽样

  • 统计推论(15题)


    1.AB测试中你如何确认客户流分组完全随机?

  • 画出多个A组与B组变量的分布,确保他们都拥有一致的形状。再保险一点,我们可以做一个排列检验来看分布是否相同。

  • MANOVA来比较不同的均值。

  • 2.AA测试(两组完全一致)的好处有什么?

  • 检查抽样算法随机性

  • 3.在AB测试中,允许一组用户知道另一组是什么样子有什么危害?

  • 用户可能无法与未知其他选项时行为一致。实际上你是在添加一个关于是否允许用户窥探其它选项的变量——该变量并不随机。

  • 4.如果某个博客报道了你的实验组会有什么影响呢?

  • 与前问相同。这一问题可能会在更大范围内发生。

  • 5.你如何设计一个允许用户自行选择是否加入的AB测试。

    最后,祝大家求职顺利~

    github地址:

    https://github.com/kojino/120-Data-Science-Interview-Questions

    实习/全职编辑记者招聘ing

    加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


    志愿者介绍

    后台回复志愿者”加入我们


    点「好看」的人都变好看了哦


    今日推荐
    ----------------------------------------
    友情链接:乐自夫 易颜轮回 乾坤兽王 浙视互联9cdvd 梁苏记 花街大姐大 明明知道相思苦简谱 闵国器 濑明樱 强强论坛 祖国祖国多美丽简谱 杨修雯 李战宇 李郑贤 瓶子丹 于超杰 双恋迷情 柳下挥照片 陪游神仙道 何耀深 竹林卫东来福在哪里 阳光快车道京京 豪门霸王妻 q版cs1 血海深仇 江新蓉 于波是于承惠的儿子 夜访派瑞丝 牧野田彩qvod 雷凯恩 mrsos 日新月异造句 千寻问情 强卫的父亲 女子走近后泪奔 秦小璇 棋牌游戏u趣 休狐 巨蛋网 星无火 星域刀锋 李德裕劾僧 金庸隐徒风笑天 极乐红粉天 针孔摄像头wn983 铭天传奇 女处长的厕奴 瞿麟曼 paceman怎么读 神探贝拉米