Back to Question Center
0

Príručka pre začiatočníkov od Semaltu na webovej stránke Škrabanie

1 answers:

Údaje a informácie na webe rastie každý deň. V súčasnosti väčšina ľudí používa Google ako prvý zdroj poznatkov, či už hľadajú recenzie o firme alebo sa pokúšajú pochopiť nový termín.

Množstvo údajov, ktoré sú k dispozícii na webe, otvára priestor pre vedcov údajov. Bohužiaľ, väčšina údajov na webe nie je ľahko dostupná. Zobrazuje sa v neštruktúrovanom formáte označenom ako formát HTML, ktorý nie je možné stiahnuť. Vyžaduje si to preto znalosti a odborné znalosti vedeckého pracovníka, aby ho využili.

Škrabanie webu je proces prevodu údajov v HTML formáte do štruktúrovaného formátu, ktorý je ľahko dostupný a používaný. Takmer všetky programovacie jazyky sa dajú použiť na správne spracovanie webových stránok. V tomto článku však budeme používať jazyk R.

Existuje niekoľko spôsobov, ako môžu byť dáta z webu škrabané. Medzi najpopulárnejšie patria:

1. Ľudské kopírovanie

Jedná sa o pomalú, ale veľmi efektívnu techniku ​​zbavovania dát z webu." V tejto technike si osoba analyzuje dáta sám a potom ich skopíruje do lokálneho úložiska. 19) 2. Matching Pattern Matching

Toto je ďalší jednoduchý, ale silný prístup k extrahovaniu informácií z webu, ktorý vyžaduje použitie regulárnych výrazov vyhovujúcich programovacích jazykov

3. API rozhranie (20 )

Veľa webových stránok, ako sú Twitter, Facebook, LinkedIn atď. Vám poskytne verejné alebo súkromné ​​rozhrania API, ktoré môžu byť nazývané štandardnými kódmi na získavanie údajov v predpísanom formáte. 20)

Všimnite si, že niektoré programy môžu načítať dynamický obsah vytvorený skriptmi na strane klienta. Je možné analyzovať stránky do stromu DOM, ktorý je založený na programoch, ktoré môžete použiť na obnovu niektorých častí týchto stránok. )

Pred začatím škrabania webových stránok v R musíte mať základné vedomosti o R. Ak ste začiatočník, existujú veľa skvelých zdrojov, ktoré vám môžu pomôcť. Tiež musíte mať vedomosti o HTML a CSS. Keďže však väčšina vedcov údajov nie je veľmi kvalitná s technickými znalosťami jazyka HTML a CSS, môžete použiť otvorený softvér, ako je napríklad gadget Selector.

Napríklad, ak ste škrabanie údajov na internetovej stránke IMDB pre 100 najpopulárnejších filmov uvoľnených v danom období, musíte skopírovať nasledujúce údaje z lokality: popis, runtime, žáner, hodnotenie, hlasy , hrubý zárobok, režisér a obsadenie. Po zlikvidovaní údajov ju môžete analyzovať rôznymi spôsobmi. Môžete napríklad vytvoriť množstvo zaujímavých vizualizácií. Teraz, keď máte všeobecnú predstavu o tom, čo je šrotovanie údajov, môžete si to urobiť okolo seba!

December 7, 2017
Príručka pre začiatočníkov od Semaltu na webovej stránke Škrabanie
Reply