virtual导入hadoop集群
virtualbox导入Hadoop集群 导出虚拟电脑,导出默认为.ova格式 选择要导出的虚拟机 导入虚拟电脑,选择路径,直接指向第一步导出的.ova格式文件 启动hadoop集群和启动hive都没有问题
go爬虫项目
go爬虫项目爬虫步骤 明确目标(确定在哪个网站搜索) 爬(爬下内容) 取(筛选想要的内容) 处理数据(按照你的想法进行处理) 发送请求 构造客户端 var client http.Client //Client类型代表HTTP客户端。它的零值(DefaultClient)是一个可用的使用DefaultTransport的客户端。 构造get请求 reqList, err := http.NewRequest("GET", URL, nil) //返回值是Request包和一个错误类型的值,Request中包含了请求头,请求体(get请求没有请求体),host值等信息 添加请求头,为了防止浏览器检测到爬虫访问,添加一些请求头来伪造成浏览器访问 req.Header.Set("Connection", "keep-alive") req.Header.Set("Pragma", "no-cache") req.Header.Set("Cache-Control",...
linux环境下元数据库(mysql)的安装
linux环境下元数据库(mysql)的安装解压mysql安装包 将mysql的安装文件移至/root/downloads下 创建文件夹/root/bigdata/mysql 将安装文件解压至/root/bigdata/mysql 升级并安装依赖包root@master:~/bigdata/mysql# sudo apt-get upgrade 如果报错E: 无法获得锁 /var/lib/dpkg/lock-frontend - open (11: 资源暂时不可用) E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-frontend),是否有其他进程正占用它? root@master:~/bigdata/mysql# rm...
go_downloader
go_downloader原理分析 传统的中心模式,user的速度会收到server总带宽的限制,如果下载的client越多,速度会越慢 P2P传输模式,每个参与下载的都是一个peer,可以理解为节点,当有一个peer节点从server下载后,后面下载的client可以从这个已经下载好的peer节点来下载,而不是再次从server中下载,从而减轻了server的压力 面临问题 如何找到有资源的peer,可以通过tracker,类似于pt站 如何让peers协作完成下载,将一个文件分割为很多的pieces,从不同的peers中下载不同的pieces,然后进行一次校验,看和种子文件中的信息是否匹配(是否完整) Torrent File格式 第一个和track相关的是announce,第二个和文件相关的是info announce和url相关 info和文件相关 Bencode协议 plan 创建bencode库用于编解码 基本数据类型 type BType uint8...
Hive的安装和配置
Hive的安装和配置安装Hive 开启hadoop集群 将Hive压缩包解压到/root/bigdata目录下 tar -zxvf apache-hive-3.1.1-bin.tar.gz -C /root/bigdata/ 配置Hive 进入到hive安装目录下的conf目录 root@master:~/bigdata/apache-hive-3.1.1-bin# cd /root/bigdata/apache-hive-3.1.1-bin/conf 新建hite-site.xml文件 root@master:~/bigdata/apache-hive-3.1.1-bin/conf# vim hive-site.xml 添加以下内容 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> ...
GoWeb
搭建服务器package main import ( "fmt" "net/http" ) //创建处理器函数 func handler(w http.ResponseWriter,r*http.Request) { //这里面的参数是不能变的 fmt.Fprintln(w,"Hello world","abc",r.URL.Path,"def") //fprintln函数可以随意拼接自己想要的字符 } func main() { http.HandleFunc("/abc",handler) //定义一个函数类型,就可以把函数作为参数传入,handlerfunc函数当访问根目录时就会自动执行handler函数 //handlerfunc函数会将指定的url拼接到后面,当拼接了指定的url时,会自动执行handler函数 //创建路由 http.ListenAndServe(":8088",nil) //ListenAndServer函数会映射指定的端口,第一个参数就是映射到哪个端口,第二个参数是 ...
Hadoop的HDFS操作
Hadoop的HDFS操作 在本地创建目录 /home/marry ,并在该目录下创建三个空文件,文件名分别为1.txt,2.txt,3.txt ``` root@master:/home# mkdir marry root@master:/home# cd marry root@master:/home/marry# touch 1.txt root@master:/home/marry# touch 2.txt root@master:/home/marry# touch 3.txt 3. 在HDFS上创建目录 /demo/test; /demo/test1 /demo/test2 /demo/test3 /demo/test4 4. ![](https://strongwillpro.oss-cn-beijing.aliyuncs.com/img/实验四2.PNG) 5. ...
Linux集群时间同步
linux集群时间同步 在master,slave1,slave2上安装ntp以及ntpdate 将所有的机器的ntp都关闭掉 使用service ntp status查看三台机器的ntp状态 使用ctrl+c退出当前状态 修改ntp server (仅在master即可) 的/etc/ntp.conf 在/etc/目录下,使用crontab -e命令进入 /etc/ntp.conf 在vim中找到这一段文字,相应的地方注释掉,然后添加红框中的语句 ```bash server 127.127.1.0 fudge 127.127.1.0 stratum 10 13. ![](https://strongwillpro.oss-cn-beijing.aliyuncs.com/img/20221011201002.png) 14. ...
go语言项目及其配置
$GOPATH的工作模式 GOPATH代表当前go语言所有项目所在路径 在$GOPATH目录下,有三个文件夹 bin目录是go语言编译过的所有可执行程序 pkg用来存放默认导入的包,加快导入速度 src存放源码 go modules模式 go mod环境变量 可以通过go env命令来进行查看 GO111MODULE这个环境变量作为gomodules的开关 可以通过以下命令设置 ```bash go env -w GO111MODULE=on ## go proxy 1. 这个环境变量主要是用于go模块代理,其作用是用于使go在后续拉取模块版本时直接通过镜像站点来快速拉取 2. 类似于Linux换源的操作 3. ![](https://strongwillpro.oss-cn-beijing.aliyuncs.com/img/20221008185931.png) 4. ...