如何获取特定网站的全部内容?

毕业设计客栈 其他问答 1

问题背景

xxxxxxx 如何获取这个网站的内容。

尝试结果

我尝试了使用python 的requests库爬取,但是再获取其blog中的文章时无法保留原有的格式。

明确问题

有什么办法能够在获取内容的时候也保留格式?

回复

共2条回复 我来回复
  • 代码海岸
    这个人很懒,什么都没有留下~
    评论

    requests 获取到的是文本数据啊?怎么会保留格式呢?你获取到的只是 html 数据,你要解析 html 后才能获取数据

    而且,很多网站都是动态加载的,又不是静态网站,即使你获取了js,css这些文件也没用啊,你不可能百分百还原这个网站的

    0条评论
  • 毕设工厂
    这个人很懒,什么都没有留下~
    评论

    “无法保留原有的格式”指的内容的排版吗?排版乱了那应该是没有获取JS、CSS、Image等文件的缘故吧

    所以,要想保持原来的格式的话,应该也需要把 JS、CSS、Image 等文件爬取,按加载路径存储

    0条评论

发表回复

登录后才能评论