日志 |
---|
修改日期:2022年4月29日 |
详情 (1)新增R语言的学习内容分享 (2)补充Python分享 (3)新增Git学习分享 (4)新增Data Collection分享 |
修改日期:2022年5月6日 |
详情 新增SQL70题精选全部内容 |
🥰欢迎转发 |
【鲸析课堂】Data Science From Zero To HeroFind Me 联系鲸鲸Intro 课程介绍Kaggle DS 端到端数科实战项目【Porto Seguro Safe Driver Prediction】🔥🔥🔥JHU CSSE DA 端到端数分实战项目【Covid-19 Data Analysis & Time Series Prediction】🔥🔥🔥Math & Stats 数学&统计【鲸析】数学&统计知识大全🔥🔥🔥【鲸析】CS 229机器学习资料整理🔥🔥🔥Calculus & Algebra 微积分&线代StatisticsProgramming Languages 编程语言(SQL/Python/R)SQL鲸析SQL刷题训练营🔥🔥🔥其他学习资料刷题Python鲸析Python Data Science Crash Course🔥🔥🔥资源分享其他资料R语言资源分享视频分享GitGitHub Cheatsheet视频教程Data Collection数据源推荐Data PreparationFeature EngineeringData ModellingData Science ProjectsInterview ResourcesCourses & Cheat Sheets Favorite Channels
大家好,我是知识渊博、爱好小酌、嗓音独特,还挺幽默的鲸鲸!
首先,我想说鲸鲸不是专家,鲸析也不是个神奇的数据人才基地。
鲸析的文化是
我会在这里分享我的经验、以及从中获得的理解(understanding)和见解(insight)给支持我的粉丝们,所以如果你觉得有用,请帮鲸鲸分享!
鲸鲸本科是【数学与应用数学】专业,没有一点Python 和 R 的基础,但是一个月速成Python什么的,绝不可能,要想真正用Python 做数据分析、数据科学,并且用这个来吃饭的话,请做一个以月为周期的学习目标。
从这些资料中,你会充分了解各种机器学习算法、数据科学、数据分析以及实用工具的细节。
因此,我建议在学习机器学习或数据科学之前先从【数学&统计】开始。如果你对微积分和积分、线性代数和统计学没有基本的了解,理解各种算法背后的原理是不可能的。
同样,如果对 Python 完全没有了解的话,那可能这篇分享对你用处不大,不必浪费时间。
在此资源中,您将找到我在整个数据科学之旅中创建和发现的资源库,我认为这是尽可能简单地解释概念的最佳资源。
如果你觉得这些东西有用,不妨了解一下鲸析的实战项目。
7个阶段45天带你玩转数据科学!
项目介绍:老司机最痛苦的事就是为高额保险费买单,构建筛选有效因子为车险定价。
项目仓库:关注【鲸析】公众号,后台输入:safe driver prediction 获取公开仓库。
14天带你玩转数据分析!
项目介绍:奥密克戎肆虐,上海沦陷,对比美国疫情现状,探讨上海到底是否应该动态清零。
项目仓库:关注【鲸析】公众号,后台输入:上海疫情 获取公开仓库。
视频讲解:点击👉 这里!
点击下方图片跳转至【鲸析】数学&统计知识大全 👇👇👇
点击下方图片跳转至【鲸析】CS 229机器学习资料整理 👇👇👇
实话实说,数学和统计是不得不打好的基础,或许说,这是你能够在这条路走多远的关键,如果只想用数据分析混口饭吃,那么请跳过,看下一章节。
当涉及到【概率分布】和【假设检验】时,积分是必不可少的。虽然我不是在说你要成为这方面的 big guy,但是不要忽视。
如果你非要让我在统计和上面的内容里面二选一的话,那我建议你直接开始搞统计这一块的内容。
统计相比起来更贴合我们的实际应用情况,也更能和实际的数据分析、数据科学的包(package)结合使用,上手更快,而且并没那么难理解!
推荐一些资料给大家!
请在【鲸析】后台回复:数学统计书单,即可获取下载链接!🔥
之前所提到的内容是在理论层面我们所需要打好的基础,那么如何将以上所说的内容在实际当中应用,或者说体系化,程序化。我们要借助一些工具。
但是,请不要神化这些工具,认为编程能力才是你从事数据分析、数据科学行业的核心,恰恰相反,你需要借助这些工具辅助你去解决问题。
让我们来看看都需要哪些技术栈吧!
这个不必多说了,不管你是做da还是ds,你都得掌握sql,一般一个面试官考考你sql就知道你大概的编程水平了,因为编程讲求逻辑,而sql就是一个你只要逻辑没问题就能写出来的东西,所以,你必须要会sql。
挑战7天刷透LeetCode数据库精选70题
如何找到题目:https://youtu.be/im1fOBOxmuk
鲸析独家题解(持续更新)
python这里我们只谈论与数据分析、数据科学相关的部分,因为python过于强大,这里不会涉及过于广泛。如果是作da的话,numpy/pandas/matplotlib就可以了,ds的话就需要更多sklearn/seaborn/scipy甚至更多机器学习、深度学习框架Tensorflow/pytorch等内容。
推荐大家关注我的github账号!
🔗 https://github.com/datoujinggzj🔥🔥🔥
里面有很多python在数据分析、数据科学里的辅助学习资料(notebook)。
请关注我的公众号:鲸析
在【鲸析课堂】中可以找到Numpy和Pandas的相关教程哦!
这本书是DS入门书吧,学习数分的伙伴既然要学Python就直接干这本书,不要再问我只学SQL能不能找到工作了,能!但是绝不是你会满意的工作。
如果你觉得书难啃,那就来视频的,这个视频对Python数据分析4大金刚
Numpy, Pandas, Matplotlib, Seaborn
梳理的还是比较详细,推荐!
我研究生阶段教授一直让我们用R语言,我也是对R有着深深的情节吧,R语言对我来说,在统计方面尤其是各种检验是很好用的,还有就是时间序列方面,我觉得也要比Python更成熟一些,其他的方面R语言就显得相形见绌了。
如果你是美研的同学,R语言基本0基础的,那我推荐这一本,主要精进一下 Tidyverse 和 ggplot2。
这本书更偏data science,里面会给出很多实例,属于进阶版本!
最喜欢这一本,时间序列讲的很透彻!
这一本跟data science那一本差不多,更偏模型算法一点!
播放列表:https://www.youtube.com/c/RProgramming101/playlists
这个真的不错,我是真的喜欢看老外做的视频,没有崇洋媚外的意思,但是能看英文原版的就别看中文翻译版的,看着难受,我觉得有些概念也理解不上去,所以英语要学学好!
大家都应该知道git是干嘛的吧!如果不知道看下面👇👇👇
Git is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency.
Git is easy to learn and has a tiny footprint with lightning fast performance. It outclasses SCM tools like Subversion, CVS, Perforce, and ClearCase with features like cheap local branching, convenient staging areas, and multiple workflows.
直接上链接:https://git-scm.com/book/zh/v2
那么可能你还是不懂我们为什么要了解,甚至掌握git,简单来说,git是用来做版本控制的,github 就是用于广大开发者开源自己的代码的网站,托管代码的。
在我们对一个实际问题有了初步的构想时,我们要去寻找满足我们需求的数据源。
所以,数据获取并不是数据分析的第一步。提出问题假设,开展项目提案才是第一步。
那么,缺乏business insights,不知道该如何提问该咋办,关注我,我来告诉你!
明确目标并梳理业务逻辑之后,我们需要寻找并获取数据。
点击这里获取!
还有推荐一个超级好用的爬虫神器,什么?你说你不会编程也不想学爬虫,太难了,我就知道你会这么说,我推荐的这个不需要一行代码就可以爬取数据,只需要傻瓜式点点点操作即可!还不快冲?附上我的教学视频!
还没关注我的YouTube频道?
速来关注一波!点击这里关注我哦😎