Biblioteka do zczytywania danych z HTML

LolikZabójca · 7 Grudnia 2019

Jaką polecacie bibliotekę którą otworzę jakąś stronkę internetową i na podstawie XPath zczytam np. cenę produktu na stronie?

Język: C#. Kompatybilność musi być tylko z Windowsem, więc nie musi być zgodna z Mono.

gnysek · 9 Grudnia 2019

Podobno fajne jest to: https://html-agility-pack.net/

LolikZabójca · 10 Grudnia 2019

Dnia 9.12.2019 o 11:23, gnysek napisał:

Podobno fajne jest to: https://html-agility-pack.net/

Działa super tylko pojawił się problem. Potrzebuję sprawdzić atrybut CSS jednego z obiektów DOM. Niestety ta biblioteka tego nie oferuję. Nie chciałbym teraz całego projektu przepisywać na inną. Jest jakaś alternatywa?

cysior · 10 Grudnia 2019

3 godziny temu, LolikZabójca napisał:

Działa super tylko pojawił się problem. Potrzebuję sprawdzić atrybut CSS jednego z obiektów DOM. Niestety ta biblioteka tego nie oferuję. Nie chciałbym teraz całego projektu przepisywać na inną. Jest jakaś alternatywa?

Co rozumiesz przez atrybut css?

gnysek · 11 Grudnia 2019

Mówiłeś, że chcesz odczytać dokument HTML, a nie parsować i sprawdzać zaaplikowane CSSy. To jest zupełnie inna sprawa, od tego jest cały silnik renderujący w przeglądarce i poza użyciem embedded chromium nic mi więcej nie przychodzi do głowy. Bo sparsowanie samemu i szukanie czy klasa jest do zaaplikowania na danym elemencie to za dużo zabawy przy wszystkich możliwych kombinacjach cssów.

LolikZabójca · 11 Grudnia 2019

7 godzin temu, gnysek napisał:

Mówiłeś, że chcesz odczytać dokument HTML, a nie parsować i sprawdzać zaaplikowane CSSy. To jest zupełnie inna sprawa, od tego jest cały silnik renderujący w przeglądarce i poza użyciem embedded chromium nic mi więcej nie przychodzi do głowy. Bo sparsowanie samemu i szukanie czy klasa jest do zaaplikowania na danym elemencie to za dużo zabawy przy wszystkich możliwych kombinacjach cssów.

Jest też chociażby selenium ale wolałbym unikać zaprzęgania całej przeglądarki do tego. Myślałem, ze HTML Agility Pack to ogarnie, że też renderuje wstępnie kod. Swoją drogą pojawił się poważniejszy problem. Jedna ze stron przez przeglądarkę inaczej się wczytuje niż w HTML Agility Pack. Zupełnie inaczej. Jak to załatwić?

gnysek · 12 Grudnia 2019

Nie no, HTML to jest meta dokument, coś jak XML, dlaczego miałoby to renderować ? Wiadomo, ze tylko parsuje (o ile kod jest poprawny - niedomknięte tagi też mogą popsuć sprawę).

Co do wczytywania inaczej - musisz "udać" przeglądarkę, wysłać w nagłówkach user-agenta jakiejś znanej przeglądarki. Np. google zwraca inną stronę jak tego brakuje, uznając, że wchodzisz z jakiejś archaicznej komórki i ograniczając javascript.

Zaloguj się

Biblioteka do zczytywania danych z HTML

Rekomendowane odpowiedzi

LolikZabójca

Odnośnik do komentarza

Udostępnij na innych stronach

gnysek

Odnośnik do komentarza

Udostępnij na innych stronach

LolikZabójca

Odnośnik do komentarza

Udostępnij na innych stronach

cysior

Odnośnik do komentarza

Udostępnij na innych stronach

gnysek

Odnośnik do komentarza

Udostępnij na innych stronach

LolikZabójca

Odnośnik do komentarza

Udostępnij na innych stronach

gnysek

Odnośnik do komentarza

Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Zarejestruj nowe konto

Zaloguj się

Ostatnio przeglądający 0 użytkowników

Przeglądaj

GMCLAN.ORG

Cała aktywność

Ranking

Discord