Skrabning af data med en ESP8266/ESP32: 7 trin

Indholdsfortegnelse:

Trin 1: Tjek videoen
Trin 2: Inden vi starter
Trin 3: Ikke offentlige API'er (Spoiler: Instructables har en!)
Trin 4: Skrab data direkte
Trin 5: Skrabe data ved hjælp af en ekstern server:
Trin 6: Brugsgrænser
Trin 7: Tak fordi du læste

Video: Skrabning af data med en ESP8266/ESP32: 7 trin

2024 Forfatter: John Day | [email protected]. Sidst ændret: 2024-01-30 08:27

Har du nogensinde ønsket at få data til dine Arduino -projekter, men der er ingen offentlig API til det? Eller i tilfælde som Instagram API, hvor installationsprocessen for ikke er særlig praktisk?

I denne instruks vil vi se på 2 forskellige muligheder for at skrabe data fra et websted til dine ESP8266- eller ESP32 -projekter.

Trin 1: Tjek videoen

Jeg har lavet en video, der dækker det samme som dette instruerbare, så hvis du er interesseret, kan du tjekke det!

Trin 2: Inden vi starter

Bare en opskrift på, at de data, jeg vil tale om at skrabe, er offentlige data og ikke kræver nogen godkendelse. Så sig f.eks., At mit nøjagtige antal YouTube -abonnenter kun er tilgængeligt for mig inde i skaberstudiet, så enheden skulle lave en anmodning, der blev godkendt som mig om at indlæse den. Disse typer anmodninger vil være uden for anvendelsesområdet for denne video. En hurtig test for at kontrollere, om det er dækket, er at prøve at indlæse siden i et inkognitovindue, da det ikke automatisk logger dig ind på nogen websteder.

For teknikker, der er omfattet af denne instruks, bliver vi nødt til at bruge nogle af de udviklerværktøjer, der er tilgængelige i browsere. Jeg vil demonstrere dem med Firefox, men jeg ved med sikkerhed, at Chrome har lignende værktøjer, og jeg er sikker på, at andre browsere også har dem.

Trin 3: Ikke offentlige API'er (Spoiler: Instructables har en!)

Den første måde, vi ser på, er at bruge en ikke-offentlig API. Dette vil ikke altid være tilgængeligt, men hvis det er dette, er det bestemt den metode, du skal sigte efter at bruge. Det, jeg kalder en "ikke-offentlig API", er dybest set, hvor et websted bruger en uannonceret API på deres websted bag kulisserne for at hente de data, vi søger at få.

Der er et par grunde til, at dette ville være den foretrukne mulighed at bruge.

Den største fordel er, at det er usandsynligt, at det ændres så ofte som en webside, hvis du skraber data direkte fra websidens HTML, hver gang de foretager en ændring af webstedet, kan din analyse bryde.
Det er normalt mere dataeffektivt. Når du skraber en webside, downloader du dybest set hele HTML -siden for at udtrække oplysninger fra den, API'er vil kun returnere datapunkter, så det ville normalt være meget mindre anmodninger.
Det er normalt lettere at analysere. Normalt returnerer API'er data i JSON -format, som er ligetil at analysere, dette gælder især, hvis du udtrækker flere data.

Vi skal først finde ud af, om websiden bruger et setup som dette. Det største fingerpeg er, om webstedet opdaterer værdien i realtid, som det gør på Kickstarter, men selvom det ikke gør det, er der stadig håb om, at det kan bruge denne opsætning. Instructables bruger en ikke-offentlig API til at hente nogle data til deres websted, selvom det ikke opdateres i realtid.

For at kontrollere, om webstedet bruger denne opsætning, skal du indtaste udviklertilstanden i din browser, jeg finder den nemmeste måde at gøre dette på ved at højreklikke på siden og vælge "inspicer element".

Du vil derefter gå til netværksfanen, dette viser de anmodninger, websiden fremsætter i baggrunden, bemærk, at du muligvis skal genindlæse siden efter at have åbnet denne fane, fordi den kun viser anmodninger fra nu.

Du vil normalt lede efter dem med typen "json". Der kan være mange anmodninger her, så det kan hjælpe at sortere efter type. Du kan se, at det er meget tydeligt på kickstarter -kampagnesiden, at det bruger denne opsætning, da du kan se konstante anmodninger til et "stats.json" slutpunkt. På siden Instructables forfattere (f.eks. Min er "https://www.instructables.com/member/witnessmenow/"), stiller de ikke konstante anmodninger, men du kan se skjult blandt de andre en anmodning om "showAuthorStats" slutpunkt.

Hvis du vil vide mere om denne anmodning, kan du klikke på den. Du bør kunne få alle de oplysninger, du har brug for herfra, for at replikere anmodningen. Men før du gør det, vil du først dobbelttjekke, at den har de data, du ønsker. Klik på fanen svar og se om dataene er der.

Hvis den indeholder de data, du har brug for, er du klar! Du kan derefter bruge de samme fremgangsmåder, der blev diskuteret i min tidligere video om forbindelse til API'er. Den korte version af det er at sikre, at anmodningen fungerer som forventet på et værktøj som Postman først og derefter bruge dette eksempelprojekt til at teste, at den fungerer på din enhed.

For at analysere JSON -data vil jeg anbefale at bruge ArudinoJSON i de fleste scenarier, hvis det er noget, du gerne vil have en instruerbar om, så lad mig bare vide det!

Trin 4: Skrab data direkte

Dernæst vil vi se på at skrabe dataene direkte fra websiden, dette er at anmode om hele websiden på enheden og analysere de data, vi ønsker ud. Jeg nævnte allerede fordelene ved den ikke-offentlige API i forhold til denne metode, men nogle gange skal behov!

En ting, der er vigtig at bemærke her, hvis du er fortrolig med webudvikling, kan du være vant til at bruge funktionen til inspektion af elementer til at finde ud af oplysninger om et bestemt element og hvordan det er opbygget. Dette bør undgås for denne tilgang, fordi moderne websider normalt ændres dynamisk ved hjælp af Javascript, hvilket ikke sker på din enhed. HTML -koden, der er tilgængelig på din enhed, er kun den originale webside, der downloades. Et godt eksempel på dette er TeamTrees -siden, det nuværende donationstal starter som 0 og indlæses senere på siden med denne animation, men i modsætning til de to eksempler, vi har set før, indlæser det ikke dataene i baggrunden, så de korrekte data skal være et andet sted.

For at se den originale webside -kode kan du højreklikke på siden og vælge "Vis kilde". Du vil derefter søge efter de bestemte data, du vil have, så i TeamTrees-eksemplet, når vi søger efter det aktuelle donationstal, kan vi se, at det faktiske antal er gemt i data-count-egenskaben for tælleelementet, det er her, vi skal skrabe dataene fra.

Du skal finde en søgestreng, der fører dig til dine data. Det er meget lettere at finde ud af dette, før du koder for enheden. I dette eksempel bringer søgning efter "datatælling \" "mig helt op til de data, vi ønsker, hvilket er perfekt. Vi behøver ikke bekymre dig om, at den også matcher andre steder på siden, for den rammer først den øverste. Hvis du havde brug for at ramme den tredje, kunne du bare programmere den til at ignorere de første 2, du ramte.

Hvis vi tager et kig på TeamTrees -eksemplet, som før, har vi hoppet over svaroverskrifterne og ser nu på svarets brødtekst (som er websiden). Det, der kommer tilbage fra klienten, er en datastrøm. Vi er ligeglade med noget op til vores søgeforespørgsel, så vi laver en client.find. Hvis den finder søgeforespørgslen, returnerer den sandt, og den flytter strømmen til slutningen af forespørgslen. Den næste ting, der er tilgængelig fra strømmen, er data, vi leder efter, men i dette tilfælde er vi usikre på, hvor lange dataene vil være, men vi ved, at det er alle oplysninger mellem vores nuværende sted i strømmen og det næste omvendte komma. Vi kan opnå dette ved at bruge "client.readBytesUntil", som gør hvad den siger, den læser bytes ind i en buffer, indtil den rammer den angivne forespørgsel. Bare sørg for, at bufferen, du læser ind, er stor nok til at indeholde alle data, jeg tror, vi er ret sikre her med 32!

Hvis du har alle de data, du har brug for, behøver du ikke længere læse data. Jeg lukkede ikke forbindelsen her, fordi det ikke syntes at forårsage et problem på ESP8266, det syntes at forårsage problemer med ESP32, så jeg tilføjede en client.stop (). For at være helt ærlig, er jeg ikke sikker på, hvorfor jeg satte det øverst på metoden, jeg ville tro, at det ville være mere fornuftigt at lukke det, når du har de data, du ønsker.

Trin 5: Skrabe data ved hjælp af en ekstern server:

Blot et andet emne at røre ved, der er meget bedre værktøjer til analyse af almindelige computerbaserede miljøer som NodeJS end på en mikrocontroller, så nogle gange kan det være fornuftigt at lave en tjeneste, der henter data fra en webside og giver en enklere endepunkt for din ESP8266 eller ESP32. Et eksempel på dette var at skrabe CrowdSupply -siden for at få en live telling af, hvor mange TinyPICO der blev solgt. Det kan have været muligt at opnå det direkte på en ESP8266 eller ESP32, men da det var at analysere flere forskellige datapunkter på flere forskellige elementer, så ville det have været kompliceret.

Jeg endte med at oprette et NodeJS -projekt og analyserede dataene ved hjælp af et bibliotek kaldet cheerio, og det fungerede meget godt. Jeg var vært for dette projekt på en cloud -server, jeg allerede havde, men du kunne køre denne form for projekt på en pi, hvis du ikke havde sådan noget setup.

Trin 6: Brugsgrænser

En ting, der potentielt kan påvirke alle disse fremgangsmåder, er at ramme grænserne for brug af websteder. I almindelige API'er er det normalt ret veldokumenteret, hvor mange anmodninger du kan komme med i minuttet eller om dagen, og du kan begrænse dine projektanmodninger baseret på dette. Når du skraber, ved du ikke, hvad disse grænser er, så du risikerer at ramme dem og potentielt blive blokeret. Jeg kan ikke give nogen præcise råd om at begrænse det, så du bliver i deres gode bøger, men jeg ville tro, at alt under hvert minut ville være for ofte, bortset fra måske tilfælde som kickstarter, hvor de ser ud til at stille anmodninger hvert par sekunder selv.

Trin 7: Tak fordi du læste

Forhåbentlig hjalp denne video, hvis du er interesseret i at analysere data direkte fra websider på din ESP8266 eller ESP32. Har du andre spørgsmål om emnet, som jeg ikke dækkede? Lad mig vide i kommentarerne herunder, eller slut mig til mig og en flok andre producenter på min Discord -server, hvor vi kan diskutere dette emne eller enhver anden makerrelateret, du har, folk er virkelig hjælpsomme der, så det er et godt sted at hænge ud

Jeg vil også gerne sige en kæmpe tak til mine Github -sponsorer, der hjælper med at støtte det, jeg gør, jeg sætter virkelig pris på det. Hvis du ikke ved det, matcher Github sponsorater for det første år, så hvis du laver et sponsorat, matcher de det 100% i de næste par måneder.

Tak fordi du læste!

Anbefalede:

Sådan laver du Coronavirus COVID 19 Live Data Tracker med ESP8266, E-paper Display: 7 trin

Sådan laver du Coronavirus COVID 19 Live Data Tracker med ESP8266, E-paper Display: 1

ESP32 Xiaomi Hack - Få data trådløst: 6 trin (med billeder)

ESP32 Xiaomi Hack - Få data trådløst: Kære venner velkommen til en anden Instructable! I dag skal vi lære at få de data, som denne Xiaomi temperatur- og luftfugtighedsmonitor overfører ved hjælp af Bluetooth -funktionaliteten på ESP32 -kortet. Som du kan se, bruger jeg et ESP32 -kort

Sådan udgives ESP32 -data med NTP -tidsstempel til IoT Cloud: 5 trin

Sådan offentliggøres ESP32 -data med NTP -tidsstempel til IoT Cloud: I mange applikationer skal brugere sende deres data sammen med det lokale tidsstempel for de værdier, der skal sendes i nyttelasten til AskSensors IoT -skyen. Tidsstempelformatet er UNIX -epoketid: antallet af millisekunder, der er gået siden januar

Kom godt i gang med ESP32 - Installation af ESP32 -plader i Arduino IDE - ESP32 Blink -kode: 3 trin

Kom godt i gang med ESP32 | Installation af ESP32 -plader i Arduino IDE | ESP32 Blink -kode: I denne instruks kan vi se, hvordan man begynder at arbejde med esp32, og hvordan man installerer esp32 -kort i Arduino IDE, og vi vil programmere esp 32 til at køre blinkkode ved hjælp af arduino ide

IoT Data Science PiNet til data i realtid Smart Screen, nemlig: 4 trin

IoT Data Science PiNet til real-time smartskærmdata Viz: Du kan nemt sammensætte et IoT-netværk af smarte displays til datavisualisering for at overbelaste din forskningsindsats inden for Data Science eller et hvilket som helst kvantitativt felt. Du kan kalde " push " af dine plots til kunderne lige inde fra din

Skrabning af data med en ESP8266/ESP32: 7 trin

Indholdsfortegnelse:

Video: Skrabning af data med en ESP8266/ESP32: 7 trin

Trin 1: Tjek videoen

Trin 2: Inden vi starter

Trin 3: Ikke offentlige API'er (Spoiler: Instructables har en!)

Trin 4: Skrab data direkte

Trin 5: Skrabe data ved hjælp af en ekstern server:

Trin 6: Brugsgrænser

Trin 7: Tak fordi du læste

Anbefalede:

Sådan laver du Coronavirus COVID 19 Live Data Tracker med ESP8266, E-paper Display: 7 trin

ESP32 Xiaomi Hack - Få data trådløst: 6 trin (med billeder)

Sådan udgives ESP32 -data med NTP -tidsstempel til IoT Cloud: 5 trin

Kom godt i gang med ESP32 - Installation af ESP32 -plader i Arduino IDE - ESP32 Blink -kode: 3 trin

IoT Data Science PiNet til data i realtid Smart Screen, nemlig: 4 trin

Domotique Bluetooth 3: 4 trin

Solar Weather Station: 5 trin

Raspberry Pi Playstation Mod: 5 trin

Alexa-kontrolleret Adam Savage Pumpkin: 5 trin (med billeder)

Autonom drone med infrarødt kamera til at hjælpe førstehjælpere: 7 trin

Wire Maze: 6 trin

Arduino Light Up Sweater: 9 trin

Barista Express trinløs kværn Mod: 21 trin

Kom godt i gang med M5StickV AI + IOT -kameraet: 6 trin (med billeder)

DIY vejrstation med Nextion Display og Arduino: 11 trin

Introduktion: Rocola; Fernando Lavarreda; Diego Hernández: 5 trin

Jukebox (proyecto2): 5 trin

Usando CircuitPython En MeowMeow De ElectronicCats: 4 trin

MATRIX Voice og MATRIX Creator, der kører Alexa (C ++ version): 7 trin

Pi Buggy: 4 trin

PiAware Radar Kiosk: 19 trin (med billeder)