爬虫爬取百度搜索结果,python爬虫爬取歌曲

python抓取百度音乐mp3歌曲,目前成功率不是100%,因为我每首歌只抓一遍,没有去判断抓取成功情况和链接速度,

还有我取得歌曲名称的方式也有点不合适,对歌曲名称较长的歌曲来说去搜索来源有时候是搜捕到的,采用准确的歌曲名称后就没有这个问题了。

源代码实现如下:

#-*- coding: UTF-8 -*-

”’

Created on 2012-3-8

@author: tiantian

*** python

”’

import urllib

import re

top500 = ‘***/top/top500.html’

sOngs= []

def main():

divr = ‘<div .*?<ul.*?</ul>.*?<ul.*?</ul>.*?</div>’

mf = urllib.urlopen(top500)

cOntent= mf.read()

cOntent= content.decode(‘gbk’)

cOntent= re.sub(‘n+’,’ ‘,content)

alldiv = re.findall(divr,content)

i =0

for div in alldiv:

ulr = ‘<ul.*?</ul>’

allul = re.findall(ulr,div)

for ul in allul:

lir = ‘<li.*?</li>’

allli = re.findall(lir,ul)

for li in allli:

if i<245:

i = i+1

continue

i = i+1

sOngName= ‘<div >.*?<a.*?>(.*?)</a>.*?</div>’

name = re.findall(songName,li)

sOngAuthor= ‘<div >.*?<a.*?>(.*?)</a>.*?</div>’

author = re.findall(songAuthor,li)

songs.append([name[0],author[0]])

sOngUrl= getSongUrl(name[0],author[0])

try:

urllib.urlretrieve(songUrl,’songs/’+name[0]+’-‘+author[0]+’.mp3′)

# 异常检查并不能判断是否下载成功,需要进行其他判断

print i,name[0],author[0],’下载成功’

except Exception :

print i,name[0],author[0],’没下载成功’

def getSongUrl(songName,authorName):

”’这里由于歌曲名称和作者名称的不完整,可能导致无法得到url,”’

sOngUrl= ‘***/x?op=12&count=1&mtype=1&title=%s$$%s$$$$&url=&listenreelect=0&.r=0.1696378872729838’ % (urllib.quote(songName.encode(‘gbk’)),urllib.quote(authorName.encode(‘gbk’)))

f = urllib.urlopen(songUrl)

c = f.read()

url1 = re.findall(‘<encode>.*?CDATA[(.*?)]].*?</encode>’,c)

url2 = re.findall(‘<decode>.*?CDATA[(.*?)]].*?</decode>’,c)

if len(url1) <1:

return ‘***/unknow.mp3’

try:

return url1[0][:url1[0].rindex(‘/’)+1] + url2[0]

except Exception:

return url1[0]

if __name__ == ‘__main__’:

main()

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023年 3月 18日 下午12:53
下一篇 2023年 3月 18日 下午1:16

相关推荐

  • windows10对游戏的支持

    前几天小编分享了Windows10游戏用户请看过来,希望对你有所帮助(一),为了帮助用户更好地使用Windows10系统,现延续之前的内容,小编现为大家分享Windows10游戏遇…

    2023年 7月 14日
  • 移动联通电信哪家的宽带比较好(联通宽带500兆和电信100m哪个好)

    就目前大家所知,一般人都知道只有三大运营商公司 就是中国电信,联通,移动, 就以往来看,中国电信大部分占领这华南地区,广州,深圳,这些一线城市。而联通呢就占据这华北地区,北京,上海…

    2023年 3月 6日
  • 兴业银行漳州分行行长谢(漳州兴业总行电话)

    为进一步提升兴业银行漳州分行便民惠民利民金融服务水平,让百姓生活更加便利,该行积极践行普惠金融服务,通过打造便民支付场景,优化支付体验,为广大用户提供更有智慧、更有温度的金融服务。…

    互联网 2023年 1月 1日
  • 如何看自己手机微信是否被窥视

    微信自带监控功能您知道吗?有微信的朋友赶紧去查看一下您的微信是否被监控了,是否有人偷偷登录过你的微信呢?微信上这2个开关是否打开了呢?这些第三方应用是否解除权限了呢?这些地方都有可…

    2023年 8月 16日
  • qq无缘无故被永久封,qq被人恶意举报7天不停的封怎么办

    最近,有网友“蔡一风”向记者求助,称自己使用多年的QQ,在没有违 法违规行为的情况下无故被封号,究竟是怎么回事呢? 记者尝试联系了腾讯客服,然而多次拨打腾讯客服电话均未能接通人工客…

    2023年 6月 18日
  • 在手机上开虚拟机的快乐,你永远想不到 知乎

    最近世超发现一个超牛批的 App,装了它就等于装了一部手机,甚至是好几部,而且它还可以开启 root 环境,让手机免 root 直接使用 Xposed 模块。 手机能够用上 Xpo…

    2022年 12月 21日
  • 排版比较好看的ppt免费模板,ppt版式设计二十种排版

    hello,大家好,我是利兄~ 今天给大家分享一个好东西,PPT排版的万能模板。 文章有些长,但都是干货。务必认真看完哦。 PPT设计属于版式设计,里面涉及到很多排版的小知识。要想…

    2023年 8月 19日
  • 中国居民储蓄存款2020年新增

    2022年居民储蓄缘何多增?存款高增能否支撑消费和地产复苏? 日前,央行发布的2022年全年金融数据显示,2022年全年人民币存款增加26.26万亿元,同比多增6.59万亿元。其中…

    互联网 2023年 2月 4日
  • 如何清理ipad里面的垃圾(iphone 12怎么清理app缓存)

    电影《天才枪手》剧照 共888字,阅读约需3分钟; 写在前面: 之前事情多主要还是懒惰,一直没好好写文章,有时候也是发发壁纸混混日子,但是那都是以前。。。 但是以后,我必将洗心革面…

    2023年 3月 2日
  • wifi信号弱教你一招快速解决

    大家好,这里是@实用数码笔记,分享各种实用的数码小技巧,期待您的点赞和关注。 本文字数3600+字,写了六个小时多,[送心]详细地介绍了各种提升WiFi信号,优化网络速度的办法,希…

    2023年 9月 18日