Weboldal tartalmának megszerzése

Weboldal tartalmának megszerzése
2022-04-01T16:49:14+02:00
2022-04-02T11:55:39+02:00
2022-08-12T08:15:31+02:00
SulliPod
Sziasztok, egy külső oldalt, amihez nincs hozzáférésem, pontosabban a Farmasi oldalnak a html forrását szeretném saját oldalamról látni (pontosabban scrappelni szeretnék majd róla termék adatokat, árakat), viszont semmilyen formában nem látom az oldalt.

Ha iframe-t használok, nem tölti be a kért oldalt

Curl-el is próbálkoztam, 302-es status dob és azt írja, hogy:

<html><head><title>Object moved</title></head><body> <h2>Object moved to <a href="/error/error">here</a>.</h2> </body></html>
Az /error/error oldalt betudja húzni tartalmilag, 200-as status-t is dob rá, de ugye ezzel az oldallal sokra nem mentem.

Php-val filegetcontents-el ha bármelyik létező oldalt próbálom behúzni, az /error/error oldalt húzza be

Javascript-el is próbálkoztam, hogy .load() -al betöltöm az url-t, szintén nem jártam sikerrel.

Van még esetleg valamilyen másik mód?

Pl: ez az oldal a google-nek egy tároló oldala, ő pl látja az oldal forrását (linkre kattintva fehér oldal jön be, mert az egyik div rejtve van, de az oldal forrás kódja jelen van):
Error 404 (Not Found)!!1
Mutasd a teljes hozzászólást!
Úgy néz ki az oldal hibaoldalra irányít át, ha nincs User-Agent header a kérésben. Lehet, hogy ezzel a tartalmat akarják védeni, de mivel elfogadja a curl alapértelmezett User-Agentjét és egy teljesen kamu értéket is, inkább arra tippelek hogy valami félrement a kódjukban, nem számít rá hogy nem lesz jelen ez az opcionális header.

Szóval innentől arra kell rájönnöd, hogyan veheted rá a file_get_contents-et, hogy ezt az extra headert is elküldje.

A teljesség kedvéért megemlíteném, hogy ennek a szép módja nem az embereknek szánt weboldal matatása lenne, hanem az, hogy felveszed a tulajdonossal a kapcsolatot és valamilyen API-t biztosít neked, ami géppel olvasható.
Mutasd a teljes hozzászólást!

abcd