【鲸析课堂】Data Science From Zero To Hero

日志
修改日期2022年4月29日
详情
(1)新增R语言的学习内容分享
(2)补充Python分享
(3)新增Git学习分享
(4)新增Data Collection分享
修改日期2022年5月6日
详情
新增SQL70题精选全部内容
🥰欢迎转发

👉点击返回主页

 

Find Me 联系鲸鲸

 


Intro 课程介绍

 

大家好,我是知识渊博、爱好小酌、嗓音独特,还挺幽默的鲸鲸!

首先,我想说鲸鲸不是专家,鲸析也不是个神奇的数据人才基地。

鲸析的文化是

「终身学习,追求真实的快乐,那便是恒久的努力!」

我会在这里分享我的经验、以及从中获得的理解(understanding)和见解(insight)给支持我的粉丝们,所以如果你觉得有用,请帮鲸鲸分享!

鲸鲸本科是【数学与应用数学】专业,没有一点Python 和 R 的基础,但是一个月速成Python什么的,绝不可能,要想真正用Python 做数据分析、数据科学,并且用这个来吃饭的话,请做一个以月为周期的学习目标。

从这些资料中,你会充分了解各种机器学习算法、数据科学、数据分析以及实用工具的细节

因此,我建议在学习机器学习或数据科学之前先从【数学&统计】开始。如果你对微积分和积分、线性代数和统计学没有基本的了解,理解各种算法背后的原理是不可能的。

同样,如果对 Python 完全没有了解的话,那可能这篇分享对你用处不大,不必浪费时间。

在此资源中,您将找到我在整个数据科学之旅中创建和发现的资源库,我认为这是尽可能简单地解释概念的最佳资源。

如果你觉得这些东西有用,不妨了解一下鲸析的实战项目。

 

Kaggle DS 端到端数科实战项目【Porto Seguro Safe Driver Prediction】🔥🔥🔥

7个阶段45天带你玩转数据科学!

项目介绍:老司机最痛苦的事就是为高额保险费买单,构建筛选有效因子为车险定价。

项目仓库:关注【鲸析】公众号,后台输入:safe driver prediction 获取公开仓库。

JHU CSSE DA 端到端数分实战项目【Covid-19 Data Analysis & Time Series Prediction】🔥🔥🔥

14天带你玩转数据分析!

项目介绍:奥密克戎肆虐,上海沦陷,对比美国疫情现状,探讨上海到底是否应该动态清零。

项目仓库:关注【鲸析】公众号,后台输入:上海疫情 获取公开仓库。

视频讲解:点击👉 这里


Math & Stats 数学&统计

点击下方图片跳转至【鲸析】数学&统计知识大全 👇👇👇

【鲸析】数学&统计知识大全🔥🔥🔥

 

点击下方图片跳转至【鲸析】CS 229机器学习资料整理 👇👇👇

【鲸析】CS 229机器学习资料整理🔥🔥🔥

实话实说,数学和统计是不得不打好的基础,或许说,这是你能够在这条路走多远的关键,如果只想用数据分析混口饭吃,那么请跳过,看下一章节。

Calculus & Algebra 微积分&线代

当涉及到【概率分布】和【假设检验】时,积分是必不可少的。虽然我不是在说你要成为这方面的 big guy,但是不要忽视。

Statistics

如果你非要让我在统计和上面的内容里面二选一的话,那我建议你直接开始搞统计这一块的内容。

统计相比起来更贴合我们的实际应用情况,也更能和实际的数据分析、数据科学的包(package)结合使用,上手更快,而且并没那么难理解!

推荐一些资料给大家!

请在【鲸析】后台回复:数学统计书单,即可获取下载链接!🔥

Programming Languages 编程语言(SQL/Python/R)

之前所提到的内容是在理论层面我们所需要打好的基础,那么如何将以上所说的内容在实际当中应用,或者说体系化,程序化。我们要借助一些工具。

但是,请不要神化这些工具,认为编程能力才是你从事数据分析、数据科学行业的核心,恰恰相反,你需要借助这些工具辅助你去解决问题。

让我们来看看都需要哪些技术栈吧!

SQL

这个不必多说了,不管你是做da还是ds,你都得掌握sql,一般一个面试官考考你sql就知道你大概的编程水平了,因为编程讲求逻辑,而sql就是一个你只要逻辑没问题就能写出来的东西,所以,你必须要会sql。

鲸析SQL刷题训练营🔥🔥🔥

挑战7天刷透LeetCode数据库精选70题

如何找到题目https://youtu.be/im1fOBOxmuk

鲸析独家题解(持续更新)

其他学习资料

刷题

Python

python这里我们只谈论与数据分析、数据科学相关的部分,因为python过于强大,这里不会涉及过于广泛。如果是作da的话,numpy/pandas/matplotlib就可以了,ds的话就需要更多sklearn/seaborn/scipy甚至更多机器学习、深度学习框架Tensorflow/pytorch等内容。

推荐大家关注我的github账号!

🔗 https://github.com/datoujinggzj🔥🔥🔥

里面有很多python在数据分析、数据科学里的辅助学习资料(notebook)。

请关注我的公众号:鲸析

在【鲸析课堂】中可以找到Numpy和Pandas的相关教程哦!

鲸析Python Data Science Crash Course🔥🔥🔥

点击关注公众号【鲸析】获取更多资料!
模块链接
👉Python基础
👉Numpy基础
👉Pandas基础
👉Matplotlib基础
👉Seaborn基础
👉Plotly基础
👉Sklearn基础

资源分享

这本书是DS入门书吧,学习数分的伙伴既然要学Python就直接干这本书,不要再问我只学SQL能不能找到工作了,能!但是绝不是你会满意的工作。

如果你觉得书难啃,那就来视频的,这个视频对Python数据分析4大金刚

Numpy, Pandas, Matplotlib, Seaborn

梳理的还是比较详细,推荐!

其他资料


R语言

我研究生阶段教授一直让我们用R语言,我也是对R有着深深的情节吧,R语言对我来说,在统计方面尤其是各种检验是很好用的,还有就是时间序列方面,我觉得也要比Python更成熟一些,其他的方面R语言就显得相形见绌了。

资源分享

如果你是美研的同学,R语言基本0基础的,那我推荐这一本,主要精进一下 Tidyverseggplot2

这本书更偏data science,里面会给出很多实例,属于进阶版本!

最喜欢这一本,时间序列讲的很透彻!

这一本跟data science那一本差不多,更偏模型算法一点!

视频分享

播放列表:https://www.youtube.com/c/RProgramming101/playlists

这个真的不错,我是真的喜欢看老外做的视频,没有崇洋媚外的意思,但是能看英文原版的就别看中文翻译版的,看着难受,我觉得有些概念也理解不上去,所以英语要学学好!


Git

大家都应该知道git是干嘛的吧!如果不知道看下面👇👇👇

Git is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency.

Git is easy to learn and has a tiny footprint with lightning fast performance. It outclasses SCM tools like Subversion, CVS, Perforce, and ClearCase with features like cheap local branching, convenient staging areas, and multiple workflows.

直接上链接:https://git-scm.com/book/zh/v2


那么可能你还是不懂我们为什么要了解,甚至掌握git,简单来说,git是用来做版本控制的,github 就是用于广大开发者开源自己的代码的网站,托管代码的。

GitHub Cheatsheet

视频教程

Data Collection

在我们对一个实际问题有了初步的构想时,我们要去寻找满足我们需求的数据源。

所以,数据获取并不是数据分析的第一步。提出问题假设,开展项目提案才是第一步。

那么,缺乏business insights,不知道该如何提问该咋办,关注我,我来告诉你!

数据源推荐

明确目标并梳理业务逻辑之后,我们需要寻找并获取数据。

点击这里获取!

还有推荐一个超级好用的爬虫神器,什么?你说你不会编程也不想学爬虫,太难了,我就知道你会这么说,我推荐的这个不需要一行代码就可以爬取数据,只需要傻瓜式点点点操作即可!还不快冲?附上我的教学视频!

还没关注我的YouTube频道?

速来关注一波!点击这里关注我哦😎

Data Preparation

Feature Engineering

Data Modelling

Data Science Projects

Interview Resources

Courses & Cheat Sheets

Favorite Channels