爬虫爬取百度搜索结果,python爬虫爬取歌曲

python抓取百度音乐mp3歌曲,目前成功率不是100%,因为我每首歌只抓一遍,没有去判断抓取成功情况和链接速度,

还有我取得歌曲名称的方式也有点不合适,对歌曲名称较长的歌曲来说去搜索来源有时候是搜捕到的,采用准确的歌曲名称后就没有这个问题了。

源代码实现如下:

#-*- coding: UTF-8 -*-

”’

Created on 2012-3-8

@author: tiantian

*** python

”’

import urllib

import re

top500 = ‘***/top/top500.html’

sOngs= []

def main():

divr = ‘<div .*?<ul.*?</ul>.*?<ul.*?</ul>.*?</div>’

mf = urllib.urlopen(top500)

cOntent= mf.read()

cOntent= content.decode(‘gbk’)

cOntent= re.sub(‘n+’,’ ‘,content)

alldiv = re.findall(divr,content)

i =0

for div in alldiv:

ulr = ‘<ul.*?</ul>’

allul = re.findall(ulr,div)

for ul in allul:

lir = ‘<li.*?</li>’

allli = re.findall(lir,ul)

for li in allli:

if i<245:

i = i+1

continue

i = i+1

sOngName= ‘<div >.*?<a.*?>(.*?)</a>.*?</div>’

name = re.findall(songName,li)

sOngAuthor= ‘<div >.*?<a.*?>(.*?)</a>.*?</div>’

author = re.findall(songAuthor,li)

songs.append([name[0],author[0]])

sOngUrl= getSongUrl(name[0],author[0])

try:

urllib.urlretrieve(songUrl,’songs/’+name[0]+’-‘+author[0]+’.mp3′)

# 异常检查并不能判断是否下载成功,需要进行其他判断

print i,name[0],author[0],’下载成功’

except Exception :

print i,name[0],author[0],’没下载成功’

def getSongUrl(songName,authorName):

”’这里由于歌曲名称和作者名称的不完整,可能导致无法得到url,”’

sOngUrl= ‘***/x?op=12&count=1&mtype=1&title=%s$$%s$$$$&url=&listenreelect=0&.r=0.1696378872729838’ % (urllib.quote(songName.encode(‘gbk’)),urllib.quote(authorName.encode(‘gbk’)))

f = urllib.urlopen(songUrl)

c = f.read()

url1 = re.findall(‘<encode>.*?CDATA[(.*?)]].*?</encode>’,c)

url2 = re.findall(‘<decode>.*?CDATA[(.*?)]].*?</decode>’,c)

if len(url1) <1:

return ‘***/unknow.mp3’

try:

return url1[0][:url1[0].rindex(‘/’)+1] + url2[0]

except Exception:

return url1[0]

if __name__ == ‘__main__’:

main()

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023年 3月 18日 下午12:53
下一篇 2023年 3月 18日 下午1:16

相关推荐

  • 万能修图技巧彻底拯救你的废片(废片修图教程)

    相信你们都有被直男拍照的经历,各种辣眼的构图和抓拍,简单概括一下就是拍谁都五五开、没有腿!简直就是哈比人!!这样的“矮肥黑”废片,还能抢救一下吗? 首先大家可以看一下对比图 原图是…

    2023年 7月 13日
  • 所以,你还记得你qq的密保问题吗英文

    细碎的时间流逝,岁月的河流在指尖滑过。当我换上新的电脑,准备登陆QQ时,却无法回忆起曾经设置的密码。心急如焚之际,我只好选择申诉找回密码,期望在数字世界中找回失而复得的通行证。 然…

    2023年 9月 10日
  • 如何导出和导入ie收藏夹呢,ie浏览器如何导入和导出收藏夹

    相信很多网友也有收藏网址的习惯吧?反正小编就是其中之一,一看到对自己有帮助有意义的网站我都会动动手指收藏起来方便下次浏览的,因为IE浏览器就有这个功能“添加到收藏夹”,将自己喜欢的…

    2023年 6月 18日
  • 高德地图在武汉推出实时公交服务

    【CNMO新闻】近日,武汉公交集团与百度地图达成官方合作,正式在武汉地区推出“实时公交”服务。百度地图“实时公交”可以精准定位公交车的实时位置,动态计算到站时间。截至目前,已上线武…

    2023年 5月 6日
  • 难用的百度搜索,终于要改了怎么回事

    首先问大家一个问题:你所使用最多的搜索引擎是什么? 不出意外,绝大多数用户的答案肯定是:百度。 百度搜索作为全球最大的中文搜索引擎,并且国内由于无法直接访问 Google 的缘故。…

    2023年 7月 1日
  • 锐捷nbs如何进入管理界面,锐捷有网但是打不开网页

    故障现象: 某些网页无法访问,其他网页正常,如下图,而其他网站正常; 故障可能原因: DNS解析错误 路由选路错误 ACL阻断 如何排查,定位故障点 检查域名解析是否正常: PC上…

    2023年 2月 6日
  • 抖音怎么样去水印无痕迹,抖音水印软件推荐

    分享最实在的玩机技巧,洞察最前沿的科技资讯!大家好,这里是手机科技园! 生活中,有时候想要给视频去水印,很多人都不会,抖音就教会我2个视频去水印的好方法,几乎看不到任何水印痕迹,下…

    2022年 12月 29日
  • 手机上网不用流量是真的吗(怎样使手机随便上网不花钱)

    不可否认,在眼下这个万物互联的时代,互联网已经成为了用户的刚需。 日常的通讯、刷抖音、甚至于订外卖处处都离不开网络。 一般来说网络可分为宽带网络和移动数据网络,宽带网络一般用于家中…

    2023年 4月 19日
  • 谷歌浏览器网页如何调整显示比例

    总有些伤眼的网站 我们在日常浏览网页的时候,经常会碰到一些字超级多,但显示区域又超级小的网页,比如X乎,X瓣. 要是你视力好就算了,但对于一些实力不太好的朋友,直接看简直就是一种折…

    2023年 3月 26日
  • c4dr18安装教程win10

    中文名4D电影,外文名CINEMA 4D ,特点为极高的运算速度和强大的渲染插件,软件界面简洁,容易上手等特点,是自学效果图的好帮手,推荐想学设计的小白设计师。 获取C4D安装包+…

    2023年 6月 20日