http://mollikakasaw.de.nr/prime.php?stream=4f2aa6e9f387c459 Die deutsche Info Seite über Scrapebox - Scrapebox Center
 

Alle indexierten Seiten einer Webseite finden mit Scrapebox

Es kommt ja relativ häufig vor (zumindest bei mir), dass man alle Seiten einer Webseite finden möchte die in Suchmaschinen indexiert sind. Z.b. weil man überprüfen will wieviele der eigenen Unterseiten tatsächlich in Google indexiert sind, oder weil man als Seo bei einem Kunden überprüfen will ob alle Unterseiten korrekt indexiert sind. Oder auch weil man Blogs mit hohem Pagerank sucht, auf denen man kommentieren kann um einen Backlink zu erhalten.

In den meisten Suchmaschinen lassen sich alle indexierten Seiten einer Webseite mit der site: Funktion finden. Allerdings müsste man die gefundenen URLs dann einzeln mit der Hand in eine Excel Tabelle oder in ein Textfile kopieren, wenn man sie weiter verarbeiten wollen würde. Und grade bei Webseiten mit sehr vielen Unterseiten wäre das extrem aufwendig.
Viel einfacher geht es da mit Scrapebox.

Um alle indexierten Seiten einer Webseite mit Scrapebox zu finden geht man folgendermaßen vor:

Zuerst einmal schreibt man die URL von der man die indexierten Seiten finden möchte in den Scrapebox Harvester. Ich hab jetzt als Beispiel einfach mal Wikipedia genommen.

Scrapebox Harvester Wikipedia

Danach fügt man die site: Funktion hinzu, in dem man einfach site: vor die URL schreibt. Wenn man mehrere URLs gleichzeitig abfragen wollte, könnte man anstatt vor einzeln vor jede URL site: zu schreiben auch die Merge Funktion von Scrapebox benutzen. Aber bei einer einzigen URL kann man das auch mal schnell per Hand erledigen.

Scrapebox Harvester Site Wikipeda

Dann wählt man die Suchmaschinen aus, die man abfragen will. Je nachdem welche Suchmaschine man abfragen will, z.b. nur Google, oder nur Yahoo, oder alle die möglich sind, macht man dann einen Haken vor die jeweilige Suchmaschine und klickt auf Harvest.

Nach einer Weile hat Scrapebox dann alle indexierten Seiten gefunden und zeigt sie in der URLs Harvested Box an.

Scrapebox Wiki Urls

Wenn man mehrere Suchmaschinen abgefragt hat, sollte man dann noch auf Remove Duplicate URLs klicken um die ganzen doppelten URLs zu entfernen.

Nun hat man alle indexierten Seiten einer Webseite gefunden, kann sie abspeichern und mit der Sitemap abgleichen oder den Pagerank aller Seiten ermitteln, oder was auch immer man damit vorhat.

1 Kommentar - Was denkst Du darüber?
Geschrieben von admin - 16/02/2012 um 14:18

Kategorien: Scrapebox Tutorials   Tags: , , ,

Warum es sinnvoll ist einen Scrapebox VPS zu nutzen

Was ist ein VPS 

VPS ist die Abkürzung für Virtual Private Server. Auf Deutsch also virtueller privater Server. Vereinfacht gesagt ist ein ein VPS ein PC, den man genauso wie einen PC nutzen kann den man zu Hause stehen hat. Man kann auf dem VPS Programme installieren, Scripte laufen lassen, im Internet surfen, Webseiten hosten – eben all das was man auf einem Server den man zu Hause hat, auch machen könnte. Nur das der VPS eben nicht zu Hause im Wohnzimmer steht, sondern möglicherweise in einem anderen Land.

Im Grunde ist ein VPS das gleiche wie ein Dedicated Server. Der einzige Unterschied zwischen VPS und Dedicated Server ist, dass den VPS mehrere User gleichzeitig nutzen und den Dedicated Server immer nur 1 User nutzt. (Natürlich können aber bei einem VPS Server die anderen Benutzer nicht auf die Daten und Programme eines anderen Users zugreifen. Man nutzt zwar zusammen den gleichen Server, aber jeder hat seinen privaten Bereich).
Auf Wikipedia kann man sich weitere Infos über VPS Server durchlesen, leider nur in englischer Sprache Virtual private server

Welche Vorteile bietet es Scrapebox auf einem VPS laufen zu lassen?

Ein VPS Server hat normalerweise eine deutliche schnellere Anbindung an das Internet als der normale User sie zu Hause hat. Wenn man regelmäßig mit Scrapebox arbeitet und insbesondere große Auto Approved Listen erstellt oder mit Scrapebox viel automatisch kommentiert, dann stößt man schnell an die Grenzen der heimischen Internetverbindung.
Als ich Scrapebox noch bei mir zu Hause auf dem PC benutzt habe und noch keinen Scrapebox VPS Server hatte, hat das Programm meine Internetverbindung immer so stark in Anspruch genommen, dass ich kaum noch irgendwas anderes gleichzeitig machen konnte. Und das ist auf Dauer sehr lästig und kein wirklich akzeptabler Zustand. Zusätzlich war Scrapebox auch noch langsam. Damals hab ich gut und gerne 18 Stunden gebraucht um eine Auto Approved Liste mit ca. 60.000 URLs mit dem Fast Poster zu bearbeiten. Da kommt wirklich wenig Freude auf, wenn man seinen PC ca. 18 Stunden blockiert hat und nichts mehr anderes machen kann.
Auf meinem kleineren Scrapebox VPS mit 6 Terabyte Internet Verbindung kann ich die gleiche Auto Approved Liste mit ca. 60.000 URLs in ca. 2 Stunden mit dem Fast Poster komplett kommentieren. 2 Stunden vs 18 Stunden ist schon ein gewaltiger Unterschied. Und ich kann gleichzeitig auch wieder meinen PC zu Hause normal benutzen, ohne das alles extrem langsam ist.

10 Kommentare - Was denkst Du darüber?
Geschrieben von admin - 09/02/2012 um 08:32

Kategorien: Scrapebox VPS   Tags: , , ,

Die richtigen Einstellungen für Scrapebox

Bevor man Scrapebox zum ersten Mal benutzen kann, müssen erst mal allerhand Einstellungen in den Optionen gemacht werden. Einfach die Standard Scrapebox Einstellungen zu übernehmen, ist nicht optimal. Denn viele Scrapebox Einstellungen basieren auf der eigenen Internetverbindung und die ist bekanntlich nicht bei jedem gleich schnell oder langsam.

Scrapebox Settings:

Als erstes sollte man, wie man auf dem Bild erkennen kann, den Reiter Settings öffnen. Falls es nicht der Fall ist, sollte man dort einen Haken bei “Use Multi Thread Harvester” setzen.
Wenn man diese Option nicht anhakt, dann wird Scrapebox beim Harvesten von URLs jede einzelne Abfrage und den benutzten Proxy auflisten und anzeigen. Das ist nur dann notwendig, wenn man z.b. überprüfen will ob die Proxies die man benutzt von den Suchmaschinen gebannt wurden.

Scrapebox Settings

Als nächstes sollte man unbedingt einen Haken bei “Randomize Comment Poster Blogs List” setzen. Diese Scrapebox Einstellung ist vor allen Dingen wichtig, wenn man auf mehreren URLs von ein und derselben Domain automatisch kommentiert. Wählt man diese Option nicht aus, würde Scrapebox die URLs der Reihe nach durcharbeiten und je nachdem wieviele gleiche URLs von einer Domain man in seiner Liste hat, damit durchgehend mehrmals nacheinander auf der gleichen Domain kommentieren. Das könnte für den Inhaber der Domain wie eine DDoS Attacke aussehen. (Eine DDoS Attacke ist ein Angriff, oft von Hackern ausgeführt, auf einen Dienst oder Server um ihm lahmzulegen. Wer mehr darüber erfahren möchte, kann mal bei Wikipedia reinschauen. Dort ist es ganz gut erklärt. Denial of Service )
Automatisches Posten von Kommentaren ist eine Sache, einen Server absichtlich lahmzulegen ist wieder eine ganz andere. Und das wollt ihr bestimmt nicht machen (hoffe ich doch zumindest). Also vergesst diese Einstellung nicht.

Ob man den “Slow Poster Accurate Mode” benutzen möchte oder nicht ist Geschmackssache. Einige benutzen ihn gern, andere nicht. Der Slow Poster hat den Vorteil, dass er auch Captchas umgehen kann (wenn man einen kostenpflichtigen Captcha Bypass Dienst wie z.b. Deathbycaptcha benutzt). Deathbycaptcha kann ich übrigens sehr empfehlen, es ist soweit mir bekannt ist der günstigste dieser Dienste und funktioniert einwandfrei.
Der Nachteil des Slow Poster ist, wie der Name schon sagt, er ist langsam. Und zwar sehr langsam.

Sei der Erste der einen Kommentar schreibt - Was denkst Du darüber?
Geschrieben von admin - 07/02/2012 um 01:46

Kategorien: Scrapebox Tutorials   Tags: , , ,

Next Page »