Webes látható tartalom mentése és analizálása!
2010-10-05T23:54:10+02:00
2011-10-23T19:21:27+02:00
2022-07-24T09:42:37+02:00
  • Miről beszéltek pontosan?

    Ennyi erővel google keresőrobotját is kifogásolni lehet, mert adatokat gyűjt a webes tartalmakról.

    Sőt még az a fránya felhasználó is ezt teszi, mikor böngészi az oldalakat.

    Legfeljebb az lehet kérdés, hogy nyilvánosságra hozható-e az eredmény.

    Mutasd a teljes hozzászólást!
  • pl: az alábbi kód kinyeri egy oldalból a dolcsi / forint aktuális árfolyamát:

    <?php class gcc { function __construct() { } function get_ccy($ccy1, $ccy2, $value=1){ $query = $ccy1."to".$ccy2; $result = file_get_contents("http://www.xe.com/ucc/convert.cgi?Amount=1&From=$ccy1&To=$ccy2"); //echo $result; preg_match_all("/ = (.*?) /i",$result,$matches); if (isset($matches[1][0])){ $val = (float) $matches[1][0]; //echo $val; $ret = $val * $value; // echo $ret; } else { $ret = 0; } return $val; } } $ccy = new gcc(); $usdhuf=$ccy->get_ccy("USD", "HUF", 30); $template->assign_vars(array( 'USD_HUF' =>$usdhuf )); echo $usdhuf; ?>
    Mutasd a teljes hozzászólást!
  • Mondjuk vegyük az olcsobbat.hu-t vagy az árgép.hu-t vagy a liligo-t. Most akkor nekik engedélyt kell kérni minden egyes cégtől adatbázis másolás miatt, vagy sem?

    Nem, hogy engedélyt kér, de csak annak a cégnek a termékei és árai vannak benne, ami direkt elérhetővé teszi nekik az árlistáját. Ezt még a Google termékkeresőre is így csinálja, ti. magától nem szedi ki sehonnan az árakat, függetlenül attól, hogy ugye millió szabványos webshopból simán ki lehetne.

    A másik kérdésem, hogy egy online rss reader-re milyen szabályok vonatkoznak? (Ha jól tudom az rss csatornák tartalmát szabadon lehet másolni.)

    Semmi olyan jogszabály nincs ami ezt így tételesen megengedné. Ugyanakkor ez az a tipikus szürketerület, ahol jellemzően a szokásjog érvényesül. Ez alapján pedig híreket listázó RSS-eknél tipikusan megtűrt az RSS forrásból újrapublikálás mondjuk egy hírgyűjtő oldal keretén belül; ugyanakkor legkésőbb amikor az RSS forrás tulajdonosa reklamál érte el kell távolítani azt, mert igazából törvény adta jogod az ő engedélye hiányában ennek felhasználására sincs.

    Ha tutira akarsz menni, akkor itt is érdemes az engedélyt előre kikérni. Pl. a komoly magyar hírgyűjtő oldalak is mind ezt csinálják, ti. csak azoktól listáznak híreket, akiktől tételesen engedélyt kértek és kaptak erre.
    Mutasd a teljes hozzászólást!
  • Mondjuk vegyük az olcsobbat.hu-t vagy az árgép.hu-t vagy a liligo-t. Most akkor nekik engedélyt kell kérni minden egyes cégtől adatbázis másolás miatt, vagy sem?

    A másik kérdésem, hogy egy online rss reader-re milyen szabályok vonatkoznak? (Ha jól tudom az rss csatornák tartalmát szabadon lehet másolni.)
    Mutasd a teljes hozzászólást!
  • Hát igen, ezeken a jogi dolgokon már az ötlet felvetése előtt el kezdtünk gondolkozni, nekem anno az volt az ötletem, hogy nem menteni kellene az oldalak tartalmát, hanem változásokat követni. Így előtérbe került az RSS és társai....

    Mivel a megbízásom még nem lépett érvénybe - amíg jópár függő dolgot meg nem tárgyalunk- , addig csak jegeljük ( nem elvetjük ) az ügyet.

    Köszönöm az értékes hozzászólásokat, sokat segítetek a témában...
    Mutasd a teljes hozzászólást!
  • Pl. egy ár összehasonlítás esetén jogos az a válasz, hogy az adatbázis (árjegyzék publikálás) céljának megfelelő a felhasználás, hiszen ugyanazon célt valósítja meg (a vevő tudjon róla, hogy kinél kapható ilyen árú és mennyiért). Vagyis az újrafelhasználó valójában a publikáló céljainak megfelelően használta fel az adatot.

    Ez abszolút nincs így, hiszen gyakorlatilag kizárólag a legolcsóbb árat kínáló cég érdeke az, hogy mindenki mással egyszerűen összehasonlítható legyen; minden más - de különösen az ugyanazt a terméket a drágább árfekvésben kínáló - cég számára ez nem feltétlenül előny, hanem csak hátrány.

    Ha nagyon szigorúan vennéd, akkor még az is tiltott lenne, hogy az egyik boltban felírd egy papírra a kifüggesztett árat, hogy összehasonlíthasd egy másikkal. Ezzel sérted a bolt érdekeit!

    De ez önmagában nem valósítja meg az adatbázis (gyűjteményes mű) másolását (amit a törvény tilt engedély hiányában), így teljesen irreleváns, hogy a bolt érdekei számára előnyös -e vagy sem.

    Lényeg a lényeg: adatbázist (gyűjteményes műt) nem másolunk sem nyers formában, sem scrapinggel a tulajdonos kifejezett engedélye nélkül, mert komolyan megüthetjük a bokánk, büntető- és polgári jogi vonatkozásban is.
    Mutasd a teljes hozzászólást!
  • Igazad van, nem olvastam el eddig:

    "nem hasznosítható újra az adatbázis tartalmának jelentéktelen része sem, ha ez sérelmes az adatbázis rendes felhasználására, vagy indokolatlanul károsítja az adatbázis előállítójának jogos érdekeit."


    ami jelentősen finomítja az értelmezést.
    De ez azért eléggé szubjektíven értelmezhető szöveg.

    Pl. egy ár összehasonlítás esetén jogos az a válasz, hogy az adatbázis (árjegyzék publikálás) céljának megfelelő a felhasználás, hiszen ugyanazon célt valósítja meg (a vevő tudjon róla, hogy kinél kapható ilyen árú és mennyiért). Vagyis az újrafelhasználó valójában a publikáló céljainak megfelelően használta fel az adatot.

    Másrészt:
    Ha nagyon szigorúan vennéd, akkor még az is tiltott lenne, hogy az egyik boltban felírd egy papírra a kifüggesztett árat, hogy összehasonlíthasd egy másikkal. Ezzel sérted a bolt érdekeit!
    Mutasd a teljes hozzászólást!
  • A jogszabály nincs ellentétben a kolléga "kutatás" meghatározásával.

    Akkor olvasd el újból. Tök mindegy, hogy te "kutatás"-nak, vagy "bikkamakka"-nak hívod azt amit csinálsz, mert addig amíg ahhoz az adatbázis nem jelentéktelen részének kimásolása (vagy jelentéktelen részének, de rendszeres és az adatbázis készítőjének érdekeit sértő kimásolása) szükséges, addig ehhez engedély szükséges, annak hiányában pedig illegális lesz a tevékenységed.

    De mondom nem kell nekem hinni - lehet majd magyarázkodni a bírónak. Nekem aztán tökmindegy.

    "az adatbázis tartalmának egészét vagy jelentős részét"
    ...vagyis ha egy adatbázisban célirányosan keres és a kinyert/feldolgozott eredményt használja az nem jogsértő.

    Ha tovább is olvastad volna, akkor feltűnt volna, hogy van egy olyan alpont, ahol azt írja, hogy még a jelentéktelen rész kimásolása is tilos, ha "ez sérelmes az adatbázis rendes felhasználására, vagy indokolatlanul károsítja az adatbázis előállítójának jogos érdekeit". Ez meg ugye különösen webes szolgáltatások esetében nagyon kézenfekvő lehet (ti. hogy sérti az előállító érdekeit). Gyakorlatilag szinte készpénznek vehető, hogy ahol bizonyítható, hogy (engedély nélkül) másoltál, ott bizonyítható az is, hogy sértetted az eredeti publikáló érdekeit is.

    Az adatbázis elérési joga egy másik kérdés. Mondjuk nyílt netes tartalom esetén ez kevéssé kérdéses.

    Az, hogy elérheted nem jelenti azt, hogy kimásolhatod, pláne nem azt, hogy újrapublikálhatod. A tévét is bárki nézheti, mégsem teheti közzé az ott leadott műsort saját weboldalán.
    Mutasd a teljes hozzászólást!
  • A jogszabály nincs ellentétben a kolléga "kutatás" meghatározásával.

    "az adatbázis tartalmának egészét vagy jelentős részét"

    ...vagyis ha egy adatbázisban célirányosan keres és a kinyert/feldolgozott eredményt használja az nem jogsértő.
    Az adatbázis elérési joga egy másik kérdés. Mondjuk nyílt netes tartalom esetén ez kevéssé kérdéses.
    Mutasd a teljes hozzászólást!
  • Aki egy adatbázisból másol az lop, aki többől az kutat. Az adott feltevésed akkor lenne teljes, ha azt 1:1 arányban további értékesítésre kerülne a tartalom.

    Nézd, nem nekem kell okoskodnod, hanem majd a bírónak aki az ügyedet tárgyalja:

    "84/A. § (1) Ha a törvény eltérően nem rendelkezik, az adatbázis (60/A. §) előállítójának
    hozzájárulása szükséges ahhoz, hogy az adatbázis tartalmának egészét vagy jelentős részét
    a) másolat készítése útján [18. § (1) bek. b) pont] többszörözzék (a továbbiakban: kimásolás);
    b) a nyilvánosság számára hozzáférhetővé tegyék az adatbázis példányainak terjesztésével vagy - a 26. § (8) bekezdésében szabályozott módon - a nyilvánossághoz való közvetítéssel (a továbbiakban: újrahasznosítás).
    (2) Az (1) bekezdés b) pontjában említett terjesztésen a terjesztés következő eseteit kell érteni: adásvétellel vagy a tulajdonjog más módon történő átruházásával való forgalomba hozatal, az
    országba forgalomba hozatali céllal történő behozatal és bérbeadás. A 23. § (5) bekezdését
    megfelelően alkalmazni kell az adatbázis előállítójának jogaira is.
    (3) Az adatbázis előállítójának hozzájárulása nélkül ismételten és rendszeresen nem másolható ki, illetve nem hasznosítható újra az adatbázis tartalmának jelentéktelen része sem, ha ez sérelmes az adatbázis rendes felhasználására, vagy indokolatlanul károsítja az adatbázis előállítójának jogos érdekeit.
    (4) Az (1)-(3) bekezdésben szabályozott felhasználásokért - ha a törvény eltérően nem rendelkezik - díjazás jár.
    (5) Az adatbázis előállítóját akkor illetik meg az (1)-(3) bekezdésben szabályozott jogok, ha az adatbázis tartalmának megszerzése, ellenőrzése vagy megjelenítése jelentős ráfordítást igényelt.
    (6) Az (1)-(3) bekezdésben szabályozott jogok az adatbázis előállítójaként azt a természetes személyt, jogi személyt vagy jogi személyiséggel nem rendelkező gazdasági társaságot illetik meg, aki vagy amely saját nevében és kockázatára kezdeményezte az adatbázis előállítását, gondoskodva az ehhez szükséges ráfordításokról.
    (7) Az adatbázis előállítóját az (1)-(3) bekezdésben szabályozott jogok attól függetlenül illetik meg, hogy az adatbázis szerzői jogi vagy bármilyen más jogi védelemben részesül-e. E jogok az adatbázis előállítóját megilletik akkor is, ha az adatbázis részei, tartalmi elemei nem részesülnek, illetve nem részesülhetnek szerzői jogi - vagy bármilyen más jogi - védelemben.
    (8) Az adatbázis előállítójának jogai nem érintik az adatbázisba felvett egyes mővek szerzőinek jogait, illetve az adatbázis tartalmának egyes elemeire vonatkozó egyéb jogokat.
    ..."

    1999. évi LXXVI. törvény a szerzői jogról

    Esetleg összehasonlítok pár technikai eszközt és áraik továbbitása harmadik fél részérére már jogsértő??? Példa

    Az általad linkelt oldal - és az összes többi hasonló is - nem maga gyűjti össze az adatokat a forrás tudta nélkül és esetleg rovására, hanem pont fordítva: a kereskedők önszántukból tápláljak azokat az áraikat abba egy szerződés alapján.
    Mutasd a teljes hozzászólást!
  • Az adott feltevésed akkor lenne teljes, ha azt 1:1 arányban további értékesítésre kerülne a tartalom.


    Ez tévedés. Mégpedig hatalmas.

    Esetleg összehasonlítok pár technikai eszközt és áraik továbbitása harmadik fél részérére már jogsértő???


    Nem, amennyiben az adatok publikus forrásból származnak. Egy neten korlátozás nélkül közzétett árlista annak számít. De a legtöbb árösszehasonlító oldal (legalábbis az igazán komolyak) szerződés alapján, jól definiált csatornákon keresztül kapják az adatokat az összehasonlításba bevont cégektől. Így kevesebb a félreértés és a pontatlanság.

    Viszont, ha valaki mondjuk már az árösszehasonlító oldalakról szedi le az adatokat, az bizony megsérti a szerzői jogokról szóló törvényt (gyüjteményes mű).
    Mutasd a teljes hozzászólást!
  • Szia!

    Nana!
    Aki egy adatbázisból másol az lop, aki többől az kutat.

    Az adott feltevésed akkor lenne teljes, ha azt 1:1 arányban további értékesítésre kerülne a tartalom.

    Esetleg összehasonlítok pár technikai eszközt és áraik továbbitása harmadik fél részérére már jogsértő??? Példa
    Mutasd a teljes hozzászólást!
  • Ha csak olvasni akarod a DOM-ot, akkor simple_html_dom. Persze érdemes előtte a forrásra ráengedni egy htmltidy-t vagy HTMLSax-ot is nem túl szigorú módban, hogy ne az invalid kódon hasaljon el a parse-olás.

    Ugyanakkor DOM-manipulálásra a simple_html_dom-ot csak óvatosan szabad használni, mert szegénykém ezen vonatkozásban bugos. (Tehát ha nem teljes újraépítéssel dolgozol, hanem pl. simple_html_dom-ban akarod megkeresni a tartalmi blokkot és abból kitörölni a számodra haszontalan blokkokat - pl. reklámkódok, képek, stb. - , akkor készülj fel arra, hogy nem mindig az fog történni amit szeretnél.)

    Amit egyébként még itt a téma kapcsán érdemes megemlíteni és nem elfelejteni az az ilyen feldolgozás esetleges büntető- és polgári jogi vonatkozásai. A scraping ugyanis gyakorlatilag minden esetben jogvédett tartalmat másol le, amelyet a szerzői jogi és kapcsolódó törvények tiltanak, számítógépes adatbázisok esetében ráadásul kifejezetten és minősített esetként is. Tehát az ilyen módon megszerzett, kinyert tartalmak és adatok felhasználása a szerző kifejezett engedélye nélkül igen komolyan büntethető lehet, a károsult pedig maga is perelhet kártérítésért. A másolást pedig rendkívül könnyű lehet bizonyítani, akkor is, ha ugyanaz az adathalmaz elvileg száz másik forrásból is származhat.
    Mutasd a teljes hozzászólást!
  • Köszönöm a tippeket!

    Ma megpróbálom gyakorlatba ültetni az elveket lehet, valahogy ezek harmonikus ötvözetét próbálom megvalósítani.
    Mutasd a teljes hozzászólást!
  • php alatt milyen html parsert érdemes használni?
    Mutasd a teljes hozzászólást!
  • Ezek jó ötletek. Az reklámok kiszűrésénél további jó módszer, hogy megnézzük, hogy honnan jön a tartalom: ad siteok fekete listájával. (az adblock is így működik alapvetően.)

    Hosszú egybefüggő szövegnek lehet tekinteni az olyan szöveget, amit max olyan html tagek zavarnak meg mint 'a' 'b' 'i' stb. Az ilyenek minél hosszabbak annál valószínűbb, hogy tartalmak. Szerintem már ilyen egyszerű elemzéssel messzire lehet jutni, pláne ha az ember ismeri a tipikus siteok jellegét. Lehet, hogy komoly adatbányász módszerek a szövegre nem is kellenek. Ha mégis, akkor el lehet indulni egy Bayes classifier-el, amit pl. spamszűrésre is használtak.
    Mutasd a teljes hozzászólást!
  • Szia!

    Távol álljon tőlem, hogy tanácsot adjak neked, inkább csak ötletelni próbálok.

    Talán a legegyszerűbb feltételezni, hogy normálisan szerkesztett weboldalakra lesz ráeresztve a scripted, ahol vannak id-k, class-ok és name-ek. Szerintem ebből kellene kiindulnod.

    Fekete és fehér listát kellene késíteni a tutira haszontalan adatokról, és a hasznosokról egyaránt.

    Pl. advertisement, ad, ads, banner id-jű, nevű, vagy class-ú blokk szintű elemek fekete listán, container, content, text elnevezésű blokk szintűek fehér listán.

    Ha nem eldönthető, pl. advertisement_container a neve (persze azért ez még egyértelmű eset), akkor második lépcsős tartalmi elemzés kellene, ebből kiderülne, hogy az is haszontalan. (Pl. egy flash van-e benne, mert akkor ad.)

    Ha a fekete és fehér lista kész, az első szűrési lépcső kiterjesztett változatát, bonyolultabb tartalmi elemzést kellene végezned. Egyfajta DOM-alapú vizsgálattal eldönthetnéd, hogy a sok #-t, h1, h2, h3 tageket tartalmazó blokkszintű elemek valószínüleg a tényleges container div-ek az oldalon.

    Negyedik lépésként a hasznos tartalom csoportba került adatokat kellene selejtezni, pl. share bar, felső és alsó szerkesztő funkciók (pl. híroldal esetén betűméret csökkentés/nővelés gombok container-e, nyomtatás gomb, értékelés, blogok esetén kommentek).

    Mégegyszer mondom, nem segíteni akartam (), csak megtetszett a probléma és úgy éreztem hozzá kellett szólnom.

    Amúgy létezik ilyen téren nyílt forráskódú próbálkozás?

    András
    Mutasd a teljes hozzászólást!
  • Szerintem nem elég az infó amit adtál ahhoz, hogy az ember jó ötleteket adjon.
    Ha ilyemivel bíznának meg, érdekelne az információk jellege, a meglátogatott weboldalak jellege. Pl. jellemzően táblázatos adatokról van szó, vagy híroldalakról? Mindkettőre lennének módszerim, de és és föld, hogy milyen módszereket használnék a kettő esetében.
    Érdekes lenne a pontos use case. Kik és pontosan mire hasznánák ezt? Ebből lehetne látni, hogy milyen hibázások megengedettek, milyenek nem.
    Fontos infó, hogy mennyi pénz van rá? Ha Jóska Pista Kft.-ben Jucika gőzös ötletéről van szó, amire van 50.000Ft, akkor két nap alatt össze kell valamit igénytelenkedni PHP-ben, vagy le kell beszélni Jucikát. Ha viszont valamely cég többmillió forintot szánna erre, akkor nagyobb eséllyel be lehet vetni azokat a módszereket, amik már inkább a 'nehéztüzérség' kategóriába sorolhatóak.

    Amúgy a témakör neve web scraping. De ez egy nagyon tág témakör, konkrét infók nélkül nem sokat lehet mondani.
    Mutasd a teljes hozzászólást!
  • igen, ez a megoldás nekem is eszembe jutott! vgayis ilyesmi! A felhasználó kijelölné az adott területet és pl jobbklikkel elküldené feldolgozásra vagy valami ilyesmi.

    Abban igazad van, hogy egy mezei felhasználónak ez kicsit sok lenne, hogy neki kelljen eldönteni mely tag-eget engedi át, de ezt a feladatot csak az arra jogosultak használnák. ( magyarán azok, akiknek konkrétan ez lenne a feladatuk. ) hülyén hangzik, de ez a megoldás a munkavégzés könnyítését szolgálná.

    persze nem létezik 100%-osan jó megoldás, nem is várom el... a script, ahogy említettem csak könnyítene a dolgokon. Minden megoldás érdekelhet, ami a helyzetet előlendíti

    Amit említettél, annak utána fogok nézni! köszönöm!


    te szedted ki a php-s témakörből ezt a topicot? :D csak azért raktam bele, mert phpban íródna, máshova már nem tuudtam volna sorolni XD de ok, nem kötexem
    Mutasd a teljes hozzászólást!
  • igen, szép kis munka

    Mielőtt hozzákezdenék a definiálásokhoz és a program írásához, felmérem a terepet, hátha akad jobb megoldás is és nem kell azzal szenvedjek , ami nem is olyan hatékony, mint amit összeagyal a közösség

    Köszönöm az építő jellegű hozzászólásodat, így más szemszögből is nézhetem a dolgokat!

    ha érdekli a közösséget persze majd közlöm, hogy miként csinálom és hol tartok a "projectben"
    Mutasd a teljes hozzászólást!
  • Én nem foglalkoznék azzal, hogy automatikusan meg tudjam határozni mi hasznos és mi nem. Ha ezt egy ember meg tudná záros határidőn belül oldali, akkor olyan mammut cégenek, mint a gugli vagy az ms miért nem sikerült eddig több 100 fejlesztővel és több 100 milla dollár elköltésével?

    Én egyszerűen a felhasználóra bíznám, hogy döntse el, mely része egy oldalnak releváns.

    Azonkívül a felhasználónak szvsz ne ajánld fel, hogy válasszon, mely html elemeket szeretné figyelni, mert Mari néni azt sem tudja, hogy mi fán terem az a html, nemhogy mondjuk a td jelentésével tisztában lenne. Arról nem is beszélve, hogy a releváns tartalom simán lehet egy oldal formázására használt táblázatban, miközben ebből az átlag felhasználó túl sokat nem vesz észre.

    Annó az indexen láttam egy cikket (de most sehogysem találom persze), amiben egy olyan ajax-os webalkalmazást mutattak be, amely megjelenítette a figyelni kívánt weboldalt, érzékelte benne az összefüggő részeket (div, td, table, stb.) és egérrel a felhasználó tudta kiválasztani, hogy mi számára az érdekes tartalom (az egér alatti egységet szépen bekeretezte a progi).

    Na, ez már érne valamit!
    Mutasd a teljes hozzászólást!
  • Legyen a hasznos infó pl az oldalon található szöveg, ami nem hírdetés és nem az oldalhoz tartozó fix elem.

    Persze nem tudja, mert nincs inteligenciája eldönteni, h hasznos vagy sem


    Ezzel még mindig nem definiáltad, hogy mi a hasznos.
    Nem akarsz mesterséges intelligenciát írni a "hasznos tartalom" eldöntésére, ehelyett írhatsz mesterséges intelligenciát annak eldöntésére, hogy mi a menü, és mi a hirdetés.

    Még mindig nem jutottál algoritmizálható állapotra.

    Vagy ismerned kell a cél-oldalakat, ez esetben elég egyszerű string műveletekkel megtalálod a keresett tartalmat (vagy dom fa elemzéssel), vagy azt kell definiálnod, hogy miből jöhet rá a program, hogy az a valami egy reklám/menü/fölösleges elem.

    Pl. szórakozhatsz azzal, hogy azok a tartalmak, amik különböző aloldalakon változatlanok, azok valószínűleg lényegtelenek...

    Szép kis munka ez.
    Mutasd a teljes hozzászólást!
  • Igen, sok probléma merült fel a scripttel kapcsolatban, ezért várom a gondolatokat és a kérdéseket.

    A megvalósítás az igazából már az én feladatom, tudom, h nem egyszerű, igazából ezért is kérem a segítségeteket, milyen gondolatok jutnak eszetekbe, az ellenérvekkel is előrébb vagyok :P :)

    A hasznos infó kiszűrése egy HTMLkódból feladja a leckét, szerintem úgy fogok hozzá kezdeni, hogy a kitisztított ( tag-ektől mentesített szöveget építgetem úgy, hogy a felhasználó döntse el milyen tag-eget enged az oldalról, majd ezt később még módosíthatja, illetve szűrőfeltételeket alkalmazva korlátozza majd milyen szöveg jöhet át és milyen nem. A megvalósítástól még távol állok

    Frostech0 hozzászólásából is egyértelműen kiderül, hogy az emberi faktort muszáj belekalkulálni, sztem eléggé humánus megoldás az, ha a user dönti el miket hozhat át a script az adott oldalról és mit nem. Az inteligencia ilyen téren jelen van, csak más formában XD

    Pár nap agyalás és ötlet után jelenleg itt állok, még csak ötlet szinten, ezért van arra szükségem, h ötleteket és kritikákat írjatok, hátha valami jobb megoldást a programozó közösség össze tud hozni! :)

    Köszönöm a hozzászólásokat! :)

    Mutasd a teljes hozzászólást!
  • Legyen a hasznos infó pl az oldalon található szöveg, ami nem hírdetés és nem az oldalhoz tartozó fix elem.


    Ilyenre példát itt aligha fogsz kapni, mert egy ilyen algoritmus elég sokat érne...

    A script ellátogat egy felhasználó által megadott oldalra. ( Link alapján...) majd az ott látottakat lementi és a hasznos információkat kiszűri belőle.


    Az ellátogatás az oké, de mit fogsz kezdeni az ajax-os oldalakkal vagy azokkal, amelyek intenzív js-t használnak szövegek megjelenítésére / eltüntetésére? Netán a flash-es (és egyéb nem html alapú kiegészítőkkel készített)tartalmakkal mihez kezdesz?

    Mutasd a teljes hozzászólást!
  • Legyen a hasznos infó pl az oldalon található szöveg, ami nem hírdetés és nem az oldalhoz tartozó fix elem.

    Persze nem tudja, mert nincs inteligenciája eldönteni, h hasznos vagy sem

    A html tag-ekkel variáláson pedig azt értem, hogy pl a Hx-eket és a linkeket átengedem, stb... stb.. ráhúzhatnék egy strip_tags()-et is, csak nem mindegy, hogy mi marad :)

    Tudom, hogy ez kicsit húzós probléma, ezért vetettem fel a kérdést :)
    Mutasd a teljes hozzászólást!
  • hasznos információkat kiszűri belőle


    hacsak nem valami mesterséges intelligencia, ami valahogy eldönti, hogy az adott oldalon mi hasznos és mi nem, akkor ez egy sima tartalomlekérés url-ből és szűrés (string műveletek, reguális kifejezések stb).

    Bár nem teljesen értem mit értesz azon, hogy:
    html tag-ekkel variálni
    .
    Mutasd a teljes hozzászólást!
  • Sziasztok!

    A feladat kicsit összetett és sok megoldás van rá, ezért teszem fel a kérdésemet, biztos vagyok benne, hogy tudtok újat mondani! :)

    A kód PHP-ban íródna.

    Gyakorlatilag infók mentéséről lenne szó. A script ellátogat egy felhasználó által megadott oldalra. ( Link alapján...) majd az ott látottakat lementi és a hasznos információkat kiszűri belőle. Hasznos alatt értem azt a szöveget, ami miatt pl a felhasználó odalátogatna és szeretné, hogy a script odalátogasson néha és nézze meg milyen változások történtek. Tehát kizárom a a hirdetéseket, a menürendszert az oldal fejlécét stb... szerintetek van jobb megoldás, mint a html tag-ekkel variálni,h mi kell és mi nem?

    Köszönöm!
    Mutasd a teljes hozzászólást!
Címkék
abcd