爬虫爬取百度搜索结果,python爬虫爬取歌曲

python抓取百度音乐mp3歌曲,目前成功率不是100%,因为我每首歌只抓一遍,没有去判断抓取成功情况和链接速度,

还有我取得歌曲名称的方式也有点不合适,对歌曲名称较长的歌曲来说去搜索来源有时候是搜捕到的,采用准确的歌曲名称后就没有这个问题了。

源代码实现如下:

#-*- coding: UTF-8 -*-

”’

Created on 2012-3-8

@author: tiantian

*** python

”’

import urllib

import re

top500 = ‘***/top/top500.html’

sOngs= []

def main():

divr = ‘<div .*?<ul.*?</ul>.*?<ul.*?</ul>.*?</div>’

mf = urllib.urlopen(top500)

cOntent= mf.read()

cOntent= content.decode(‘gbk’)

cOntent= re.sub(‘n+’,’ ‘,content)

alldiv = re.findall(divr,content)

i =0

for div in alldiv:

ulr = ‘<ul.*?</ul>’

allul = re.findall(ulr,div)

for ul in allul:

lir = ‘<li.*?</li>’

allli = re.findall(lir,ul)

for li in allli:

if i<245:

i = i+1

continue

i = i+1

sOngName= ‘<div >.*?<a.*?>(.*?)</a>.*?</div>’

name = re.findall(songName,li)

sOngAuthor= ‘<div >.*?<a.*?>(.*?)</a>.*?</div>’

author = re.findall(songAuthor,li)

songs.append([name[0],author[0]])

sOngUrl= getSongUrl(name[0],author[0])

try:

urllib.urlretrieve(songUrl,’songs/’+name[0]+’-‘+author[0]+’.mp3′)

# 异常检查并不能判断是否下载成功,需要进行其他判断

print i,name[0],author[0],’下载成功’

except Exception :

print i,name[0],author[0],’没下载成功’

def getSongUrl(songName,authorName):

”’这里由于歌曲名称和作者名称的不完整,可能导致无法得到url,”’

sOngUrl= ‘***/x?op=12&count=1&mtype=1&title=%s$$%s$$$$&url=&listenreelect=0&.r=0.1696378872729838’ % (urllib.quote(songName.encode(‘gbk’)),urllib.quote(authorName.encode(‘gbk’)))

f = urllib.urlopen(songUrl)

c = f.read()

url1 = re.findall(‘<encode>.*?CDATA[(.*?)]].*?</encode>’,c)

url2 = re.findall(‘<decode>.*?CDATA[(.*?)]].*?</decode>’,c)

if len(url1) <1:

return ‘***/unknow.mp3’

try:

return url1[0][:url1[0].rindex(‘/’)+1] + url2[0]

except Exception:

return url1[0]

if __name__ == ‘__main__’:

main()

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023年 3月 18日 下午12:53
下一篇 2023年 3月 18日 下午1:16

相关推荐

  • 防盗版最好的小说平台

    前几天小发看到了一个消息,差点没一个冲动就把电脑里面的游戏平台全都卸掉。 防盗版的D加密升级,可以用在 DLC上了! 相信不少玩家应该跟我的反应差不多,“ 卧槽,为什么又来一个 D…

    2023年 6月 22日
  • qq微视公众号怎么关闭,手机qq微视怎么取消关注

    [闽南网] 不知道大家在玩手机QQ的时候发现没有,最近手机QQ频繁接收来自“微视”服务号的消息,而且没有一个关闭窗口,就算向右滑动删掉了,第二天依旧可以接收到来自微视的消息,可谓演…

    2023年 1月 27日
  • qq音乐网易云音乐酷狗音乐对比

    懂得音乐,懂得生活。用户不再是仅仅局限于对音乐质量的苛求,除了挑剔的耳朵追求高品质的音乐外,他们也追求全方位的用户体验。 1. 行业发展分布 根据2016中国在线音乐行业研究报告显…

    2023年 2月 7日
  • 抖音里的十几种赚钱方式如何

    #头条创作挑战赛# 抖音直播销售:在抖音上直播展示你的产品,并直接进行销售。 合作推广:与品牌或商家合作,进行产品推广并获得佣金。 抖音挑战赛:发起一个挑战赛,邀请用户参与,获奖者…

    互联网 2023年 8月 16日
  • 如何将手机变成音响,怎样将手机变成ktv

    每到傍晚时分,开阔的公园绿地成了中老年人的娱乐健身场所。70多岁的张大伯喜欢唱歌,他最近从网上淘了一套便携式音响设备,晚饭后便来到杭州钱塘江边的六和公园,这里离住宅区比较远,唱歌不…

    互联网 2023年 5月 4日
  • win10桌面分辨率突然变大,有一半被遮住了

    现在电脑分辨率越来越高,随之而来的字体就越来越小。看起来很费劲。我就想着把字体调大。 传统的方法都是在桌面鼠标点击右键》显示设置》缩放与布局 缩放与布局 然后把100%调成125%…

    2023年 6月 13日
  • 怎么提取图片上的文字简单三招(怎么提取图片文字到word文档)

    怎么提取图片上的文字?现在,随着数字化和智能化的发展,我们越来越需要将印刷或手写文字转换成数字信息,以便于存储、查找和处理。而对于一些手写或印刷的文字,我们通常需要通过扫描或拍照的…

    2023年 4月 16日
  • html怎么添加本地音乐(html5音乐播放制作方法)

    运用的技术点:1、音乐播放器:audio2、加载本地音乐:file3、加载音乐名:[]数组、split分割4、音乐地址:blob 5、事件:file的change事件,li的单击事…

    2023年 6月 10日
  • facebook账号自助购买10元

    大家的Facebook账号和公共主页老是被封或限制,很是苦恼,其实当账号被限制了,没有必要花那么多时间去弄回来,能申诉回来当然好,申诉不回来也没必要太闹心,因为就算申诉回来了,也会…

    互联网 2023年 4月 23日
  • cad全套各版本软件安装序列号

    号外!号外!你们心心念念的福利来了~ 本期福利:CAD2006-2020安装包+序列号密钥+教程 获取方式| 私信回复:资料” 就能免费领取 很多朋友都有过以下的经历,在需要某款软…

    2023年 7月 7日