Python机器学习Kaggle案例实战

2017-5-15 10:02| 发布者: 仙豆| 查看: 162869| 评论: 0|原作者: cruiser

快速报名入口

普班报名：【普班】Python机器学习Kaggle案例实战（第35期） (2026/03/03开课)

本课程是《机器学习》《Python机器学习》课程的姐妹篇，旨在加强学员的实际训练，以案例作为基本讲解单元，围绕案例讲解分析思路，特征和模型选择，编写代码等。
本课程的受众主要是没有经过专业训练的IT专业人员，他们可能是程序员，运维，IT系统架构师等等，也适合没有经过科班训练的数据分析师。数据分析是一个业务+算法+IT的交叉领域，同时熟悉这三方面知识的人，可以玩转大数据，产生无穷无尽的花样，产生巨大的价值。但很无奈的情况是这种人才太少，IT人员即使熟悉本公司的业务，但同时又熟悉算法的人极少。一般只能做一些简单的维度统计，指标计算等等，如果说到开发更高智能的系统，知识上鞭长莫及。本课程的目标，正是要打破知识的鸿沟，向IT人员普及算法知识，并把这些知识用于实际项目，把中国的机器学习应用能力提高一个台阶。
每期班的学员都会被加入到一个微信群，除了平时的问题解答外，还会另外安排约5次固定时间微课思路分享和答疑，与10次讲授共计学习时间约十几周左右。

Kaggle简介：
Kaggle创立于2010，是一个专注于举办数据科学周边的线上竞赛的网站。它吸引了大量数据科学家、机器学习开发者的参与，为各类现实中的商业难题开发基于数据的算法解决方案。竞赛的获胜者、领先者，在收获对方公司提供的优厚报酬之外，还将引起业内科技巨头的注意，获得各路 HR 青睐，为自己的职业道路铺上红地毯。
Kaggle 是当今较大的数据科学家、机器学习开发者社区，其行业地位独一无二。
课程目标：
课程从已完结的竞赛中选取了10个比较有代表性的案例，通过分析优胜参赛者的解决思路和方法，从中学习问题的解决思路、数据的预处理方法，各种机器学习、深度学习等领域中的优秀算法，让学员可以将这些方法解决各种实际数据分析问题。

课程大纲：

第一课：Crowdflower Search Results Relevance
案例介绍：预测来自电子商务站点的搜索结果的准确性，将搜索得到的网页按相关性排序
获奖者所用方法：通过ensemble learning整合多个模型的结果
涉及算法：Ensemble learning

第二课：Santander Product Recommendation
案例介绍：根据银行客户1.5年内的行为数据，预测用户会下一步会投资的新产品
获奖者所用方法：通过XGBoost构建了多个基本模型，然后将基本模型整合为一个总模型
涉及算法：XGBoost

第三课：TalkingData Mobile User Demographics
案例介绍：根据用户的手机应用下载和使用行为来预测用户的人口统计数据（年龄、性别等）
获奖者所用方法：先预测性别的概率；使用性别的预测值作为额外的特征加入到模型中，预测年龄；通过条件概率得到两个目标变量的预测概率
涉及算法：两段预测，XGBoost

第四课：Facebook V: Predicting Check Ins
案例介绍：预测用户会在哪个地方登陆Facebook
获奖者所用方法：特征选择：数据块的最近邻计算；模型构建：基于XGBoost的两步模型
涉及算法：XGboost

第五课：Avito Duplicate Ads Detection
案例介绍：为了避免卖家发布各种经过少量改动的广告导致买家难以分辨，参赛者需要设计一个模型，自动识别配对中的广告是否同一个广告
获奖者所用方法：特征选择：采用了FTIM方法测试特征的不稳定性，提出过度拟合的特征。通过XGBoost和Keras构建一层模型；然后通过底层模型构建XGBoost 和随机森林，最终综合两者结果得到最终结果
涉及算法：FTIM；元模型

第六课：Outbrain Click Prediction
案例介绍：在一组针对用户推荐内容中，预测用户点击每个链接的可能，将这些推荐内容按照点击可能的大小排序
获奖者所用方法：两步元模型：通过LibFFM构建第一层模型，再使用XGBoost和Keras构建第二层模型
涉及算法：LibFFM；XGBoost；Keras框架

第七课：Click-Through Rate Prediction
案例介绍：预测某个广告是否会被点击
获奖者所用方法：将数据拆分成不同的子集，构建不同的子模型，再整合
涉及算法：LIBFFM

第八课：Avito Context Ad Clicks
案例介绍：预测俄罗斯较大的一般分类网站的用户在浏览网站时，是否点击上下文广告
获奖者所用方法：预处理：散列技巧和消极的抽样。学习方法：FFM、FM和XGBoost。
涉及算法：FFM；FM；XGboost

第九课：Rossmann Store Sales
案例介绍：预测Rossmann公司各个门店的6周销售量
获奖者所用方法：分类特征的处理：创建了一种 Entity Embedding（实体嵌入）的方法去代表在多维空间中的分类特征。
涉及算法：Entity Embedding；神经网络

第十课：Amazon - Employee Access Challenge
案例介绍：根据员工的职业角色，预测员工的访问需求
获奖者所用方法：11个模型的线性组合：使用不同特征训练的GBM模型，GLNNET模型，随机森林模型，logistic回归模型
涉及算法：GBM模型，GLNNET模型，随机森林模型，logistic回归模型

授课时间：

课程将于2026年03月03日开课，课程持续时间大约为15周

授课对象：

对机器学习有兴趣的朋友，特别适合想学习算法的IT专业人员或非科班出身的数据分析人员。较好能有一些线性代数，统计等数学基本知识，没有也无妨，可以在课程期间快速补强。

收获预期：
能独立完成某些特定场景的分析工作，胜任数据分析师，机器学习程序员等流行职位的技术要求

授课讲师：
tigerfish，知名数据库网站ITPUB创始人，知名数据分析网站炼数成金创始人。数据库专家，数据分析专家，有丰富的IT领域、数学领域的知识经验。他将带领他的数据分析团队完成整个授课工作。他将负责大部分算法讲解和思路分析部分。

何翠仪，毕业于中山大学统计学专业，炼数成金专职讲师。
在炼数成金上开设了多门关于数据分析与数据挖掘相关的课程，如《大数据的统计学基础》、《大数据的矩阵基础》《金融时间序列分析》等，也曾到不同的公司开展R语言与数据分析的相关培训。对数据分析有深刻认识，曾与不同领域公司合作，参与到多个数据分析的项目中，如华为、广州地铁等

课程试听：

新颖的课程收费形式：“逆向收费”约等于免费学习，仅收取100元固定收费+300元暂存学费，学习圆满则全额奖励返还给学员！

特别说明如下：
本门课程本来打算完全免费，某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动，为了防止一些朋友在学习途中半途而废，浪费了讲师的付出，为此我们计划模仿某些健身课程，使用“逆向收费”的方法。
在报名时每位报名者收取400元，其中100元为固定收费，另外300是暂存学费，即如果学员能完成全部课程要求，包括完成全部的书面和互动作业（每周不超过2小时），则300元全款退回。如果学员未能坚持到完全所有的学习计划任务，则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力！

课程授课方式：
1、学习方式：老师发布教学资料、教材，幻灯片和视频，学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、学习作业：老师每周布置书面及互动作业，学员需按时按质完成作业。
3、老师辅导：根据作业批改中发现的问题，针对性给予辅导，帮助大家掌握知识。
4、结业测验：通过测验，完成学业。

附图：炼数成金大数据课程地图

[attach]176898[/attach]

您是否对此课程还有疑问，那么请点击进入 FAQ，您的问题将基本得到解答

全国统一咨询热线 136 1033 4399

课程现开始接受报名，报名方式
网上报名请点击：Python机器学习Kaggle案例实战
咨询Email ：edu01@dataguru.cn，edu02@dataguru.cn
课程入门讨论咨询群：303917420（群内有培训公开课视频供大家免费观看）

咨询QQ： 2222010060 (上班时间在线）

技术热点、 行业资讯，培训课程信息，尽在炼数成金官方微信，低成本传递高端知识！技术成就梦想！欢迎关注！
打开微信，使用扫一扫功能，即刻关注炼数成金官方微信账户，不容错过的精彩，期待您的体验！！！

快速报名入口

普班报名：【普班】Python机器学习Kaggle案例实战（第35期） (2026/03/03开课)

快班报名：【快班】Python机器学习Kaggle案例实战 (随报随学)

分享到新浪微博收藏邀请

上一篇：Elink 讲师简介下一篇：《敏捷Agile快速入门》

Python机器学习Kaggle案例实战

即将开课

热门文章