一、上傳hive0.11解壓后的文件到linux1、用的版本是shark站點(diǎn)提供的,可能是針對(duì)shark修改了代碼。2、追加mysql、oracle兩個(gè)jdbc驅(qū)動(dòng)包到lib目錄下。二、配置相關(guān)文件1、.bash_profile文件exportHIVE_HOME=/home/kituser/bigdata/hive-0.11.0-binexportHIVE_CONF_DIR=$HIVE_HOME/confexportCLASSPATH=$CLASSPATH
系統(tǒng) 2019-08-12 09:27:02 2571
前言Hive是Hadoop一個(gè)程序接口,Hive讓數(shù)據(jù)分析人員快速上手,Hive使用了類SQL的語(yǔ)法,Hive讓JAVA的世界變得簡(jiǎn)單而輕巧,Hive讓Hadoop普及到了程序員以外的人。從Hive開始,讓分析師們也能玩轉(zhuǎn)大數(shù)據(jù)。1.Hive介紹Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive定義了簡(jiǎn)單的類SQL查詢語(yǔ)
系統(tǒng) 2019-08-29 22:25:21 2568
Hive是facebook貢獻(xiàn)給apache的開源項(xiàng)目,是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive定義了簡(jiǎn)單的類SQL查詢語(yǔ)言,稱為QL,它允許熟悉SQL的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語(yǔ)言也允許熟悉MapReduce開發(fā)者的開發(fā)自定義的mapper和reducer來(lái)處理內(nèi)建的mapper和reducer無(wú)法完成的復(fù)雜的分析工
系統(tǒng) 2019-08-12 09:27:29 2547
第一步:下載hive打開:http://hive.apache.org/releases.html#Download,在頁(yè)面下方可以看到hive與hadoop的版本匹配信息,如下圖:因?yàn)槲乙呀?jīng)安裝的hadoop的版本是1.0.3,所以我選擇下載hive-0.9.0點(diǎn)擊Downloadareleasenow,下載hive-0.9.0.tar.gz第二步:解壓tar-zxvfhive-0.9.0.tar.gz我解壓后的路徑為:/Users/zhangosufe
系統(tǒng) 2019-08-29 22:00:31 2530
由于hive也支持sql,很多人會(huì)把hql跟標(biāo)準(zhǔn)sql進(jìn)行比較,甚至有的時(shí)候會(huì)直接套用。hive不支持事務(wù)也不支持索引,更不支持追加寫,但是對(duì)于一般的sql都是能夠支持的。但是對(duì)于一些子查詢確實(shí)無(wú)法支持的,例如select*fromt_ext_1_bkdoubledeletewheref1=(selectmax(f1)fromt_ext_1_bkdoubledelete)這個(gè)sql在mysql中是能夠支持的,意思是找到val最大的那一行記錄,然后在hive
系統(tǒng) 2019-08-12 09:27:38 2519
hive并發(fā)調(diào)用的運(yùn)行方式-個(gè)人經(jīng)驗(yàn)篇-ggjucheng-博客園前言使用hive,我們很多情況下會(huì)并發(fā)調(diào)用hive程序,將sql任務(wù)轉(zhuǎn)換成mapreuce提交到hadoop集群中,而在本人使用hive的過(guò)程中,發(fā)現(xiàn)并發(fā)調(diào)用hive有幾個(gè)問題,在這個(gè)和大家分享下.正文默認(rèn)安裝hive,hive是使用derby內(nèi)存數(shù)據(jù)庫(kù)保存hive的元數(shù)據(jù),這樣是不可以并發(fā)調(diào)用hive的,需要配置為使用mysql保存hive的元數(shù)據(jù)。運(yùn)行hive,可以有以下訪問方式:1.h
系統(tǒng) 2019-08-12 01:32:57 2512
1、命令行操作(1)打印查詢頭,需要顯示設(shè)置:sethive.cli.print.header=true;(2)加"--",其后的都被認(rèn)為是注釋,但CLI不解析注釋。帶有注釋的文件只能通過(guò)這種方式執(zhí)行:hive-fscript_name(3)-e后跟帶引號(hào)的hive指令或者查詢,-S去掉多余的輸出:hive-S-e"select*FROMmytableLIMIT3">/tmp/myquery(4)遍歷所有分區(qū)的查詢將產(chǎn)生一個(gè)巨大的MapReduce作業(yè),如
系統(tǒng) 2019-08-12 09:26:57 2499
1.安裝hive2.hive實(shí)戰(zhàn)3.hive存儲(chǔ)模型4.深入hql查詢語(yǔ)言5.參考資料及代碼下載<1>.安裝hive下載hive,下載地址http://mirror.bjtu.edu.cn/apache//hive/,解壓該文件:xuqiang@ubuntu:~/hadoop/src/hive$tarzxvfhive-0.7.0-bin.tar.gz設(shè)置環(huán)境變量:xuqiang@ubuntu:~/hadoop/src/hive$cdhive-0.7.0-b
系統(tǒng) 2019-08-12 01:33:29 2463
搜索研發(fā)部官方博客?BlogArchive?相似度計(jì)算常用方法綜述相似度計(jì)算常用方法綜述(2012-7-0509:07:59)標(biāo)簽:主題相似度,向量空間模型,相似度計(jì)算分類:數(shù)據(jù)挖掘引言相似度計(jì)算用于衡量對(duì)象之間的相似程度,在數(shù)據(jù)挖掘、自然語(yǔ)言處理中是一個(gè)基礎(chǔ)性計(jì)算。其中的關(guān)鍵技術(shù)主要是兩個(gè)部分,對(duì)象的特征表示,特征集合之間的相似關(guān)系。在信息檢索、網(wǎng)頁(yè)判重、推薦系統(tǒng)等,都涉及到對(duì)象之間或者對(duì)象和對(duì)象集合的相似性的計(jì)算。而針對(duì)不同的應(yīng)用場(chǎng)景,受限于數(shù)據(jù)規(guī)模、
系統(tǒng) 2019-08-12 01:32:55 2454
在linux的終端運(yùn)行:$HIVE_HOME/bin/hive會(huì)進(jìn)入交互模式;$HIVE_HOME/bin/hive-e或者-f是非交互模式1、非交互模式運(yùn)行HQL語(yǔ)句$HIVE_HOME/bin/hive-e'select*frommovielimit10'會(huì)顯示mapreduce的進(jìn)度,但不會(huì)進(jìn)入hive的交互模式,終于現(xiàn)實(shí)查詢結(jié)果2、非交互模式運(yùn)行HQL語(yǔ)句(-S靜音模式)$HIVE_HOME/bin/hive-S-e'select*frommovi
系統(tǒng) 2019-08-12 01:33:12 2450
Hive是將符合SQL語(yǔ)法的字符串解析生成可以在Hadoop上執(zhí)行的MapReduce的工具。使用Hive盡量按照分布式計(jì)算的一些特點(diǎn)來(lái)設(shè)計(jì)sql,和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)有區(qū)別,所以需要去掉原有關(guān)系型數(shù)據(jù)庫(kù)下開發(fā)的一些固有思維。基本原則:1:盡量盡早地過(guò)濾數(shù)據(jù),減少每個(gè)階段的數(shù)據(jù)量,對(duì)于分區(qū)表要加分區(qū),同時(shí)只選擇需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid<10andA.
系統(tǒng) 2019-08-12 09:26:44 2449
一、控制hive任務(wù)中的map數(shù):1.通常情況下,作業(yè)會(huì)通過(guò)input的目錄產(chǎn)生一個(gè)或者多個(gè)map任務(wù)。主要的決定因素有:input的文件總個(gè)數(shù),input的文件大小,集群設(shè)置的文件塊大小(目前為128M,可在hive中通過(guò)setdfs.block.size;命令查看到,該參數(shù)不能自定義修改);2.舉例:a)假設(shè)input目錄下有1個(gè)文件a,大小為780M,那么hadoop會(huì)將該文件a分隔成7個(gè)塊(6個(gè)128m的塊和1個(gè)12m的塊),從而產(chǎn)生7個(gè)map數(shù)b
系統(tǒng) 2019-08-12 09:27:24 2372
參考:http://blog.csdn.net/qiaochao911/article/details/8613988http://xm-king.iteye.com/blog/1088422HIVE分區(qū),實(shí)際上是通過(guò)一個(gè)路徑來(lái)標(biāo)識(shí)的,而不是在物理數(shù)據(jù)中。比如每天的數(shù)據(jù),可能分區(qū)是pt=20121023這樣,那么路徑中它就會(huì)變成:/hdfs/path/pt=20121023/data_files。通過(guò)路徑來(lái)標(biāo)識(shí)的好處是,如果我們需要取特定分區(qū)的數(shù)據(jù),只需要
系統(tǒng) 2019-08-12 01:55:14 2358
(1)建student&student1表:(hive托管)createtablestudent(idINT,ageINT,nameSTRING)partitionedby(stat_dateSTRING)clusteredby(id)sortedby(age)into4bucketsrowformatdelimitedfieldsterminatedby',';createtablestudentrc(idINT,ageINT,nameSTRING)pa
系統(tǒng) 2019-08-12 09:27:07 2273
6.1SELECT...FROM語(yǔ)句hive>SELECTname,salaryFROMemployees;--普通查詢hive>SELECTe.name,e.salaryFROMemployeese;--也支持別名查詢當(dāng)用戶選擇的列是集合數(shù)據(jù)類型時(shí),Hive會(huì)使用JSON語(yǔ)法應(yīng)用于輸出:hive>SELECTname,subordinatesFROMemployees;顯示JohnDoe["MarySmith","ToddJones"]數(shù)組類型的顯示hi
系統(tǒng) 2019-08-12 09:27:05 2213