整理一个大数据、数据分析、机器学习等的GitHub项目 Coding-Now

Coding Now

初衷

一是平时看的一些自己认为不错的文章总是很难整理,所以打算开一个项目管理这些,也可以分享给大家;二是记录自己平时所学的一些笔记,一些经历,以供将来翻阅;三是想系统地进阶学习一番,记录这个项目也是想激励自己;四是分享一些平时看的电子书啊、视频等等

GitHub及Git使用

1546841656292

原文链接:https://paulmillr.com/posts/simple-description-of-popular-software-licenses/

Linux系统下开发环境搭建

Linux命令及Shell脚本学习笔记

爬虫篇(Python)

爬虫这一块我也没多少可以说的,距离我上次写爬虫程序都有一年多了。谈谈感想吧,别听什么培训机构诳你什么爬虫工程师有前途啥的,当然学好学精爬虫也能拿到高薪,但这一行也有不少人了,精通的自然不用说。而且现在有很多像八爪鱼、火车头这些可以定制的爬虫软件,还有一些自学习的爬虫框架。所以我觉得爬虫这一块只要稍微学下,了解下即可

我建议如果是python的话,了解urllib(http请求),requests(http请求),lxml(文本解析),Scrapy(爬虫框架),多线程爬虫就可以了

原来也在csdn上写过一些scrapy的文章,当然学习一门语言官方文档才是最重要的(scrapy也有中文的)

数据分析篇

机器学习及深度学习篇

机器学习网站及教程

GitHub上相关项目推荐

数据分析竞赛

大数据篇

大数据开发环境安装配置

以下出自我在csdn上的一些文章,https://blog.csdn.net/lzw2016/

Hadoop系列

  • Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构

  • Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析

  • Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算 【不准备学,计划Hive代替Pig

  • Apache HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群

  • Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

  • Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。【不打算学,计划利用SparkMLLib代替

  • Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务

  • Apache Flume: 是一个分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输

  • 等等,当然不可能全学的

Spark系列

实战项目

推荐系统

算法篇

eBook和视频资源

只推荐我看过的,且个人觉得不错的

Python

视频资源 点这里—>eBook/Python

  • Python3数据分析与挖掘(某课网)
  • python分布式爬虫打造搜索引擎【完整版 某课网】
  • Python升级3.6 强力Django+Xadmin打造在线教育平台

电子书推荐,下面给了几个可以下载电子书的网站,都能找得到的

  • 入门
    • 《Python基本教程》,貌似出第三版了
    • 《Python核心编程》
    • 《Python CookBook》
  • 爬虫
    • 《Python网络数据采集》
    • 也有人推荐崔庆才的书,我只看过他的博客觉得挺不错的,书想比也可以吧
    • 我更推荐看博客,爬虫这一块更新太快了,书跟不上步伐
  • 数据分析
    • 《用Python进行数据分析》足以
  • 机器学习和深度学习
    • 《机器学习实战》
    • 我看的更多的是官方文档和博客,反正不推荐看国人写的书(好多都是骗钱的,我原来看过一本封面画了个鹦鹉的,叫什么一步一步什么走向机器学习之类的,就是把sklearn文档翻译了一遍加了几个案例,烂)

      Java系列

Hadoop系列

Spark系列

视频资源 点这里—>eBook/Spark系列

  • Spark 2.0从入门到精通245讲 【墙推

  • 01-基于Spark2.x新闻网大数据实时分析可视化系统项目

  • 02-Spark离线和实时电影推荐系统直播回放(视频+文档+代码)
  • 03-Spark项目实战:爱奇艺用户行为实时分析系统
  • 04-Spark企业级实战项目:道路交通实时流量监控预测系统
  • 05-Spark企业级实战项目:知名手机厂商用户行为实时分析系统
  • 06-Spark大型项目实战:电商用户行为分析大数据平台

以上来源于大数据学习资源群的分享

算法系列

数据库

计算机网络

基础书籍

常用网站收纳

工具

搜索

翻译

文档编辑

制图、图床

插件

觉得有帮助的话,不妨加个鸡腿,O(∩_∩)O哈哈~