Skocz do zawartości

Biblioteka do zczytywania danych z HTML


Rekomendowane odpowiedzi

Dnia 9.12.2019 o 11:23, gnysek napisał:

Podobno fajne jest to: https://html-agility-pack.net/

Działa super tylko pojawił się problem. Potrzebuję sprawdzić atrybut CSS jednego z obiektów DOM. Niestety ta biblioteka tego nie oferuję. Nie chciałbym teraz całego projektu przepisywać na inną. Jest jakaś alternatywa?

Odnośnik do komentarza
Udostępnij na innych stronach

3 godziny temu, LolikZabójca napisał:

Działa super tylko pojawił się problem. Potrzebuję sprawdzić atrybut CSS jednego z obiektów DOM. Niestety ta biblioteka tego nie oferuję. Nie chciałbym teraz całego projektu przepisywać na inną. Jest jakaś alternatywa?


Co rozumiesz przez atrybut css?

Odnośnik do komentarza
Udostępnij na innych stronach

  • Administratorzy

Mówiłeś, że chcesz odczytać dokument HTML, a nie parsować i sprawdzać zaaplikowane CSSy. To jest zupełnie inna sprawa, od tego jest cały silnik renderujący w przeglądarce i poza użyciem embedded chromium nic mi więcej nie przychodzi do głowy. Bo sparsowanie samemu i szukanie czy klasa jest do zaaplikowania na danym elemencie to za dużo zabawy przy wszystkich możliwych kombinacjach cssów.

Odnośnik do komentarza
Udostępnij na innych stronach

7 godzin temu, gnysek napisał:

Mówiłeś, że chcesz odczytać dokument HTML, a nie parsować i sprawdzać zaaplikowane CSSy. To jest zupełnie inna sprawa, od tego jest cały silnik renderujący w przeglądarce i poza użyciem embedded chromium nic mi więcej nie przychodzi do głowy. Bo sparsowanie samemu i szukanie czy klasa jest do zaaplikowania na danym elemencie to za dużo zabawy przy wszystkich możliwych kombinacjach cssów.

Jest też chociażby selenium ale wolałbym unikać zaprzęgania całej przeglądarki do tego. Myślałem, ze HTML Agility Pack to ogarnie, że też renderuje wstępnie kod. Swoją drogą pojawił się poważniejszy problem. Jedna ze stron przez przeglądarkę inaczej się wczytuje niż w HTML Agility Pack. Zupełnie inaczej. Jak to załatwić?

Odnośnik do komentarza
Udostępnij na innych stronach

  • Administratorzy

Nie no, HTML to jest meta dokument, coś jak XML, dlaczego miałoby to renderować ? Wiadomo, ze tylko parsuje (o ile kod jest poprawny - niedomknięte tagi też mogą popsuć sprawę).

 

Co do wczytywania inaczej - musisz "udać" przeglądarkę, wysłać w nagłówkach user-agenta jakiejś znanej przeglądarki. Np. google zwraca inną stronę jak tego brakuje, uznając, że wchodzisz z jakiejś archaicznej komórki i ograniczając javascript.

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...