Hoe u 'n groot webwerf kan deurkruip en data kan uithaal met behulp van Screaming Frog se SEO Spider

Screaming Frog SEO Spider

Ons help tans verskeie kliënte met Marketo-migrasies. Aangesien groot ondernemings ondernemingsoplossings soos hierdie gebruik, is dit soos 'n spinnekopweb wat oor jare heen in prosesse en platforms verweef ... tot op die punt dat maatskappye nie eens bewus is van elke raakpunt nie.

Met 'n ondernemingsbemarkingsautomatiseringsplatform soos Marketo, is vorms die toegangspunt van data op alle webwerwe en bestemmingsbladsye. Ondernemings het dikwels duisende bladsye en honderde vorms op hul webwerwe wat geïdentifiseer moet word vir opdatering.

'N Goeie hulpmiddel hiervoor is Screaming Frog se SEO Spider... miskien die gewildste platform in die mark vir die deurkruip, ouditering en onttrekking van data vanaf 'n webwerf. Die platform is ryk aan funksies en bied honderde opsies vir feitlik elke taak wat u benodig.

Screaming Frog SEO Spider: kruip en uittreksel

'N Belangrike kenmerk van Screaming Frog SEO Spider is dat u persoonlike uittreksels op grond van regex, XPath, of CSSPath besonderhede. Dit is baie nuttig omdat ons die kliënt se webwerwe wil deurkruip en die MunchkinID- en FormId-waardes vanaf bladsye moet hersien en vaslê.

Maak oop met die gereedskap Konfigurasie> Pasgemaak> Onttrekking om elemente te identifiseer wat u wil onttrek.

skreeuwende persoonlike ontginning

Die onttrekkingskerm maak feitlik onbeperkte data-insameling moontlik:

Screaming Frog SEO Spider Extraction Reëls

Regex, XPath en CSSPath Extraction

Vir die MunchkinID is die identifiseerder geleë in die vormskrif wat binne die bladsy is:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Ons pas dan 'n Regex reël om die ID vas te vang uit die script-tag wat op die bladsy ingevoeg is:

Regex: ["']id["']: *["'](.*?)["']

Vir die vorm-ID is die data in 'n invoerplaatjie binne die Marketo-vorm:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Ons pas 'n XPath-reël om die ID vas te vang uit die vorm wat op die bladsy ingevoeg is. Die XPath-navraag soek na 'n vorm met 'n invoer met die naam van gedug, dan stoor die uittreksel die waarde:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript Rendering

Nog 'n wonderlike opsie van Screaming Frog is dat u nie beperk is tot die HTML op die bladsy nie; u kan enige JavaScript wat vorms op u webwerf gaan invoeg, weergee. Binne Konfigurasie> Spinnekop, kan u na die tabblad Rendering gaan en dit aktiveer.

Screaming Frog SEO Spider Javascript Rendering

Dit neem natuurlik 'n bietjie langer om die webwerf te deursoek, maar u kry vorms wat deur JavaScript aan die kliënt se kant weergegee word, sowel as vorms wat op die bedienerskant ingevoeg word.

Alhoewel dit 'n baie spesifieke toepassing is, is dit ongelooflik nuttig as u met groot webwerwe werk. U sal absoluut wil kontroleer waar u vorms regdeur die webwerf ingebed is.

Laai Screaming Frog SEO Spider af

Wat dink jy?

Hierdie webwerf gebruik Akismet om spam te verminder. Leer hoe jou opmerking verwerk is.