Mikä on web hosting? Kuinka kerätä verkkosivustoja koskevia tietoja

Mikä on web hosting? Kuinka kerätä verkkosivustoja koskevia tietoja

Mikä on web hosting? Kuinka kerätä verkkosivustoja koskevia tietoja

Verkkokaapimet  keräävät yleensä tietoja, joita voidaan käyttää vain, jos käyt verkkosivustolla selaimessa . Web-skriptit tekevät tämän yksinään, avaamalla mahdollisuuksia tietojen poimintaan, tietojen analysointiin, tilastollisiin analyyseihin ja muihin.

Miksi käyttää verkkoa

Elämme päivän ja ikäisenä, jolloin tiedon saatavuus on helpompaa kuin millään muulla reitillä. Luettujen sanojen välittämiseen käytetty infrastruktuuri on kanava, joka tarjoaa enemmän tietoa, mielipiteitä ja uutisia kuin ihmiset ihmiskunnan historiassa.

Niin, viisaimpien ihmisten aivot ovat parantuneet 100-prosenttiseen tehokkuuteen (heidän on tehtävä elokuva), eivätkä ne pysty kuljettamaan 1/1000 online-tallennettua tietoa pelkästään Yhdysvalloissa. ,

Cisco  : n 2016  Internet-liikenne ylitti 1 Zeta tavua (1000000000000000000000000 tavua) tai tavu sukupuoli Tilly päälle (kikatus tuli Essex Tilly) oli että. Jetta Bytes ilmoittaa Netflixissä noin 4000 ihmistä. Tämä auttaa houkuttelemattomia lukijoita, jotka ovat käyneet toimiston läpi alusta loppuun pysähtymättä puoli miljoonaa kertaa.

Kaikki nämä tiedot ovat erittäin pelottavia. Kaikki ei ole oikein. Suurin osa ei liity arkeen, mutta yhä useammat laitteet lähettävät tätä tietoa silmillemme ja aivoillemme palvelimilta ympäri maailmaa.

Koska silmämme ja aivomme eivät todellakaan pysty käsittelemään kaikkia näitä tietoja, verkon naarmuuntumisesta on tullut hyödyllinen tapa kerätä ohjelmallisia tietoja Internetistä. Web-kaavinta on abstrakti käsite, joka määrittelee käyttäytymisen tietojen noutamisessa verkkosivustolta ja ylläpidon paikallisesti.

Voit miettiä tietotyyppejä ja romuttaa verkon kerätäksesi niitä. Voit kirjoittaa pienen käsikirjoituksen noutaaksesi ja tallentaaksesi kiinteistöjä, urheilutietoja, paikallisten yritysten sähköpostiosoitteita ja suosikkitaiteilijoiden tekstiluetteloita.

Kuinka selain hakee verkkotietoja?

Web-kaavinten ymmärtämiseksi sinun on ymmärrettävä, kuinka web toimii. Päästäksesi tähän sivustoon kirjoita “makeuseof.com” selaimeesi tai napsauta linkkiä toiseen verkkosivustoon (kerro meille, mistä haluamme tietää vakavasti). Seuraavat muutamat vaiheet ovat samat.

Ensin selain etsii kirjoittamasi tai napsauttamasi URL-osoitteen (Professional-vinkki: Jos linkkiä pidetään, URL-osoite näkyy selaimen alareunassa, jotta se ei napsauta) ja luo “Pyyntö” palvelimelle. Tämän jälkeen palvelin käsittelee pyynnön ja lähettää vastauksen.

Palvelimen vastaus sisältää HTML, JavaScript, CSS, JSON ja muut tiedot, joita tarvitaan verkkosivun luomiseen verkkoselaimen katselua varten.

Tarkista verkkoelementti

Nykyaikaiset selaimet tarjoavat tietoja tästä prosessista. Windows Chromessa Ctrl + Shift + I paina   tai napsauta hiiren kakkospainikkeella ja  OK valitaksesi sinut. Näet samanlaisen näytön ikkunassa.

Asetusten välilehti on ikkunan yläreunassa. Verkko- osa on tällä hetkellä mielenkiintoinen  . Yksityiskohdat HTTP-liikenteestä annetaan.

Oikeassa alakulmassa näkyy tietoja HTTP-pyynnöstä. Odotettavissa oleva URL-osoite ja “miten” on HTTP-pyyntö “GET”. Vastauskoodin tilakoodiksi on asetettu 200, mikä tarkoittaa, että palvelin pitää pyyntöä kelvollisena.

Tilakoodin alapuolella on etäosoite, joka on makeuseof.com-palvelimen julkinen IP-osoite. Asiakas vastaanottaa tämän osoitteen  DNS-protokollan kautta .

Seuraavassa osassa luetellaan vastauksen yksityiskohdat. Vastausotsikko sisältää tilakoodin sekä vastauksen sisältämän datan tai sisällön tyypin. Tässä tapauksessa katson “teksti / html” -koodausta vakiona. Hän kertoo minulle, että vastaus on kirjaimellisesti HTML-koodi verkkosivuston esikatseluun.

Muun tyyppiset vastaukset

Palvelin voi myös palauttaa tietoobjekteja vastauksena GET-pyyntöihin sekä HTML: n verkkosivujen renderointiin. Rajapinnat ohjelmointi sivustot  (tai API)  käyttävät tyypillisesti tällaista vaihtoa.

Tarkista Verkko-välilehti yllä esitetyllä tavalla, onko tällaista vaihtoa olemassa. Tutkimukset  CrossFit Open Leaderboardin sinun sallia  täyttää taulukon kanssa tietoihin .

Kun napsautat vastausta, se näyttää JSON-tiedot HTML-koodin sijasta verkkosivuston tuottamiseksi. JSON-data on joukko tarroja ja arvoja monikerroksisesta luettelosta.

HTML-koodin jäsentäminen manuaalisesti tai tuhansien JSON-avain- ja arvopaarien ohittaminen on kuin matriisin lukeminen. Ensi silmäyksellä se näyttää shokilta. Tietoja voi olla liian paljon käsin purkamiseen.

Verkko vierittää rakennetta!

Nyt sinun on tiedettävä, että sinun ei tarvitse purkaa HTML-koodia manuaalisesti ennen sinisten pillereiden pyytämistä päästäksesi helvettiin! Tietämättömyys ei ole tyytyväinen ja tämä pihvi  on  herkullinen.

Web-kaavin voi tehdä kovan työn . Romukehykset ovat saatavana Python-, JavaScript-, Node- ja muilla kielillä. Yksi helpoimmista tavoista aloittaa kaavinta on käyttää Python- ja Beautiful -keittoa.

Raaputaan verkkosivustoa pythonilla

Ensimmäinen vaihe vaatii vain muutaman koodirivin, kunhan Python ja BeautifulSoup on asennettu. Tässä on pieni komentosarja, joka vastaanottaa verkkosivustoresurssin ja pakottaa BeautifulSoupin tarkistamaan sen.

from bs4 import BeautifulSoup
import requests

url = "http://www.athleticvolume.com/programming/"

content = requests.get(url)
soup = BeautifulSoup(content.text)

print(soup)

Hieman, pyydämme GET URL-osoitetta ja vastaamme sitten. Kun objekti tulostetaan, URL-osoitteen HTML-koodi tulee näkyviin. Prosessi on kuin verkkosivuston manuaalinen käyminen ja lähteen napsauttaminen  .

Tämä sivusto on erityisesti verkkosivusto, joka julkaisee CrossFit-harjoituksia päivittäin, mutta vain kerran päivässä. Voit luoda kaapimen suorittamaan päivittäisiä harjoituksia ja lisätä ne sitten harjoitusyhteenvetoon. Yleensä voit luoda tietokannan helposti löydettävien koulutustietueiden pohjalta.

BeaufiulSoup-taikuus on kyky etsiä kaikkia HTML-tiedostoja sisäänrakennetun findAll () -toiminnon avulla. Tässä tapauksessa verkkosivusto käyttää monia neliölohkon sisältötunnisteita. Siksi komentosarjan tulisi tarkastella kaikkia näitä tageja ja selvittää, mitkä ne ovat kiinnostavia.

Tässä osiossa on myös useita <p> -tageja. Skripti voi lisätä kaikkien tekstien jokaisesta näistä tunnisteista paikallisiin muuttujiin. Lisää tämä lisäämällä komentosarjaan yksinkertainen silmukka.

for div_class in soup.findAll('div', {'class': 'sqs-block-content'}):
    recordThis = False
    for p in div_class.findAll('p'):
        if 'PROGRAM' in p.text.upper():
            recordThis = True
        if recordThis:
            program += p.text
            program += '\n'

Se on ohi! Kiinnitysverkko syntyi.

Naarmujen vähentäminen

On olemassa kaksi tapaa siirtyä eteenpäin.

Yksi tapa tutkia verkkokaavinta on käyttää oikeita työkaluja. Web Scraperilla  (hieno nimi!) On 200 000 käyttäjää ja se on helppo käyttää. Lisäksi  Parsing Hub  -sovelluksen avulla voit viedä poistetut tiedot Exceliin ja Google-laskentataulukoihin.

Lisäksi web kaavin  avulla voit tarkkailla miten rakentaa verkkosivuilla , että Chrome plugin on tarjota sinulle  . Mikä parasta, nimen mukaan OctoParse on  tehokas ja intuitiivinen kaavinrajapinta .

Lopuksi tietää tausta naarmuja verkossa, niin indeksoinnin päälle pieni kaavin ja  työ  itsenäisesti on hauskaa työtä.

Leave a Reply

Your email address will not be published. Required fields are marked *