列表 第页
我有一个在根(给定的URL)开始下载根页面的HTML然后扫描超链接和抓取他们一个简单的网络爬虫。我目前存储在SQL数据库的HTML页面。我目前面临的两个问题:I have a simple web crawler that starts at root (given url) downloads the html o...阅读全文
我工作的一个网站,通过AJAX加载数据。我也希望,整个网站可通过谷歌和雅虎的搜索引擎抓取。我想使两个版本的网站...[1]当用户谈到的超级链接应该只是如Gmail(#'编辑超链接)[2]当履带而来的超链接应正常工作(AJAX模式关闭)I am working on a website which loads i...阅读全文
我有一个Web应用程序,它大量使用AngularJS / AJAX和我想它由谷歌和其他搜索引擎是抓取。我的理解是,我需要做一些特别的东西,使其工作,如下所述: https://开头developers.google.com/webmasters/ajax-crawling I've got a web app wh...阅读全文
我努力使基于AJAX的网站SEO友好。由于建议在网络上的教程,我添加pretty的的href 属性链接:< A HREF =#!网站=接触数据-ID =接触级=navlink>контакт< / A> ,并在内容加载AJAX在默认情况下,对于爬虫PHP脚本一个div: I'm struggl...阅读全文
我正在抓取一个网站的数据.我能够在一个页面上完整的内容.但是页面上的一些数据是在悬停在一些图标上并显示为工具提示之后出现的.所以我也需要这些数据.是否可以使用任何爬虫.I am crawling one website's data. I am able to whole content on a page. But...阅读全文
您好我想在Java中创建一个网络爬虫中,我希望以检索从网页标题一样的一些数据,描述和存储在数据库中的DATAS Hi i want to create a web crawler in java in which i want to retrive some data like title, description...阅读全文
我试图阻止所有机器人/爬虫/蜘蛛为一个特殊的目录。我怎样才能做到这一点与的htaccess ?我搜索了一点,找到了解决方案通过基于用户代理阻止:的RewriteCond%{HTTP_USER_AGENT} Googlebot的现在,我需要更多的用户代理(适用于所有已知的机器人)和规则应该是仅适用于我的单独的目录。我已经...阅读全文