博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python-爬虫-爬取知乎的标题和当页显示的文字
阅读量:7212 次
发布时间:2019-06-29

本文共 850 字,大约阅读时间需要 2 分钟。

# coding:utf-8import requestsfrom bs4 import BeautifulSoupquesNumStr = str(input("请输入搜索关键字:"))url = 'https://www.zhihu.com/search?type=content&q='+quesNumStrheaders = {    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'  # your user-Agent here}data = requests.get(url, headers=headers)soup = BeautifulSoup(data.text, 'lxml')liList = soup.select('li')print(len(liList))for li in liList:    try:        temp1 = li.select('a[class="js-title-link"]')        if temp1:            print('The title is :')            print(temp1[0].get_text())        temp2 = li.select('div[class="summary hidden-expanded"]')        if temp2:            print('The content is:')            print(temp2[0].text)    except:        pass

 

转载于:https://www.cnblogs.com/fredkeke/p/7003923.html

你可能感兴趣的文章
防数据泄密:是否应实施“多重认证”?
查看>>
关于PHP的错误机制总结
查看>>
美国网络司令部133支网络部队已拥有初步作战能力
查看>>
如何看待阿里云加入Linux基金会金牌会员?
查看>>
三大应用需求:5G信道编码技术取得突破
查看>>
实例解读:如何减少Docker中的Java内存消耗
查看>>
测试JavaScript函数的性能
查看>>
TP-Link发布网格路由器Deco M5
查看>>
JP摩根预测:诺基亚2017年净利润将达14.21亿美元
查看>>
CDN行业“三足鼎立”格局已定,谁能代表未来?
查看>>
只“存活”9个月:Ubuntu 15.10今日停止支持
查看>>
淘汰Hyper-V replication 拥抱Storage Replica
查看>>
云服务器 ECS 建站教程:部署Linux主机管理系统WDCP
查看>>
Win10 Edge浏览器续航碾压火狐/Chrome
查看>>
蓄电池知识14问答
查看>>
中国将成为全球 APT 攻击的第一目标国,去年就有36个组织干中国,SOS!
查看>>
丑闻频出,Verizon收购雅虎价格恐缩水10亿美元
查看>>
陌陌看好的移动营销 Criteo表示尚未成为主流
查看>>
科通联手中兴 共同制定未来物联网标准
查看>>
打造智能家居安防系统 七个选购常识你需懂
查看>>