Hoe u 'n groot webwerf kan deurkruip en data kan uithaal met behulp van Screaming Frog se SEO Spider
Ons help tans verskeie kliënte met Marketo-migrasies. Aangesien groot maatskappye ondernemingsoplossings soos hierdie gebruik, is dit soos 'n spinnerak wat homself oor jare in prosesse en platforms verweef totdat maatskappye nie eens bewus is van elke raakpunt nie.
Met 'n outomatiseringsplatform vir ondernemingsbemarking soos Marketo, is vorms die toegangspunt van data deur webwerwe en bestemmingsbladsye. Maatskappye het dikwels duisende bladsye en honderde vorms regdeur hul werwe wat geïdentifiseer moet word vir opdatering.
'N Goeie hulpmiddel hiervoor is Screaming Frog se SEO Spider... miskien die gewildste platform in die SEO-mark vir die deurkruip, ouditering en onttrekking van data van 'n webwerf. Die kenmerkryke platform bied honderde opsies vir feitlik elke taak wat jy benodig. Die kenmerke strek egter veel verder as die optimalisering vir soektog, met een ongelooflik nuttige kenmerk om data van jou werf af te onttrek terwyl dit deurkruis word.
Screaming Frog SEO Spider: kruip en uittreksel
'N Belangrike kenmerk van Screaming Frog SEO Spider is dat u persoonlike uittreksels op grond van regex, XPath, of CSSPath besonderhede. Dit is uiters nuttig aangesien ons die kliënt se werwe wil deurkruis en die MunchkinID- en FormId-waardes van bladsye af wil oudit en vaslê.
Maak oop met die gereedskap Konfigurasie> Pasgemaak> Onttrekking om elemente te identifiseer wat u wil onttrek.
Die onttrekkingskerm maak feitlik onbeperkte data-insameling moontlik:
Regex, XPath en CSSPath Extraction
Vir die MunchkinID is die identifiseerder geleë in die vormskrif wat op die bladsy is:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Ons pas dan 'n Regex reël om die ID vas te vang uit die script-tag wat op die bladsy ingevoeg is:
Regex: ["']id["']: *["'](.*?)["']
Vir die vorm-ID is die data in 'n invoerplaatjie binne die Marketo-vorm:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Ons pas 'n XPath-reël om die ID van binne die vorm wat in die bladsy ingevoeg is vas te vang. Die XPath-navraag soek 'n vorm met 'n invoer met 'n naam van gedug, dan stoor die uittreksel die waarde:
XPath: //form/input[@name="formid"]/@value
Onttrek Inline Style Tags
Ons help 'n kliënt om 'n webwerf skoon te maak waar hulle inlynstyle op die Elementor-inprop gebruik het om feitlik elke element met 'n bladsy aan te pas. Om te identifiseer waar inlynstyle gebruik is, het ons die webwerf met verskeie RegEx-reëls vir persoonlike onttrekking geskraap:
- Span inlyn styl:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Ankermerker inlynstyl:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div Tag Inline Style:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Opskrifmerker inlynstyl:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
uitsluitings
At Martech Zone, bedien ons die webwerf in verskeie tale by verskillende subdomeine. Dit is nie nodig om hierdie vertalings te deurkruip nie, aangesien al die bates en inligting op die kernwerf gebaseer is. As gevolg hiervan het ons die Uitsluitlys-konfigurasie geaktiveer en die volgende reël bygevoeg:
.*\.martech.zone
Jy kan dit ook gebruik om die deurkruip van onnodige paaie soos etikette oor te slaan deur by te voeg:
martech.zone/tag/.*
Ons wil ook nie ons AMP-bladsye, wat eindig in, deurkruis nie ?amp=1
, so in die
https?://[^\s]+?\?amp=1
Die platform het selfs 'n goeie metode om sommige te toets URL's teen die reëls om te verseker dat dit behoorlik werk voordat jy jou werf deurkruis.
Skreeuende Padda SEO Spider JavaScript-weergawe
Nog 'n goeie opsie van Screaming Frog is dat jy nie beperk is tot die HTML op die bladsy kan jy enige JavaScript lewer wat vorms binne jou werf gaan invoeg. Binne Konfigurasie> Spinnekop, kan u na die tabblad Rendering gaan en dit aktiveer.
Dit neem natuurlik 'n bietjie langer om die webwerf te deursoek, maar u kry vorms wat deur JavaScript aan die kliënt se kant weergegee word, sowel as vorms wat op die bedienerskant ingevoeg word.
Alhoewel dit 'n baie spesifieke toepassing is, is dit ongelooflik nuttig as u met groot webwerwe werk. U sal absoluut wil kontroleer waar u vorms regdeur die webwerf ingebed is.
Laai Screaming Frog SEO Spider af
Openbaarmaking: Martech Zone gebruik sy geaffilieerde skakels in hierdie artikel.