如何获取特定网站的全部内容？

毕业设计客栈 2024年04月16日 10:03 其他问答 1

问题背景

xxxxxxx 如何获取这个网站的内容。

尝试结果

我尝试了使用python 的requests库爬取，但是再获取其blog中的文章时无法保留原有的格式。

明确问题

有什么办法能够在获取内容的时候也保留格式？

回复

共2条回复我来回复

代码海岸
这个人很懒，什么都没有留下～
评论

requests 获取到的是文本数据啊？怎么会保留格式呢？你获取到的只是 html 数据，你要解析 html 后才能获取数据

而且，很多网站都是动态加载的，又不是静态网站，即使你获取了js,css这些文件也没用啊，你不可能百分百还原这个网站的

0条评论
毕设工厂
这个人很懒，什么都没有留下～
评论

“无法保留原有的格式”指的内容的排版吗？排版乱了那应该是没有获取JS、CSS、Image等文件的缘故吧

所以，要想保持原来的格式的话，应该也需要把 JS、CSS、Image 等文件爬取，按加载路径存储

0条评论

发表回复

登录后才能评论