|
|
|
|
|
|
|
rabby Fachmann

Anmeldungsdatum: 14.07.2004 Beiträge: 408
|
Verfasst am: Fr 30 März, 2007 17:29 Titel: robots.txt: Endungen... |
|
|
|
Hallo,
dass man eine Endung wie .txt mit den Pattern Matches ausschließen kann.
Nun will ich folgendes ausschließen:
| Zitat: | User-agent: *
Disallow: /*_s2.html$ |
Bevor ich das nun online stelle, frage ich lieber nochmal hier nach, nicht, dass Google vor lauter Verboten gar nicht mehr kommt bzw. nicht, dass ich die Zeile falsch geschrieben habe...
Danke für Verbesserungsvorschläge.
mfg rabby _________________ Kleidung günstig einkaufen Zune-Baby Shop |
|
| Nach oben |
|
|
Estigy Mitglied


Anmeldungsdatum: 03.03.2006 Beiträge: 27 Wohnort: Königstetten, Österreich
|
Verfasst am: Di 03 Apr, 2007 10:40 Titel: |
|
|
|
Der Standard (http://www.robotstxt.org/wc/norobots.html) sagt:
| Zitat: | Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. |
Da les ich schon nicht mal das mit der Endung heraus. Wo hast du die Info her, dass das überhaupt geht?
LG, Estigy. _________________ Begeistertes Mitglied der Blasmusik Königstetten im Tullnerfeld.
Wie schreibt man einen Webcrawler in Java? |
|
| Nach oben |
|
|
Yury R. Fachmann


Anmeldungsdatum: 21.09.2004 Beiträge: 368 Wohnort: Göttingen
|
Verfasst am: Di 03 Apr, 2007 10:52 Titel: |
|
|
|
habe in einer robots stehen
User-agent: *
Disallow: /out.php
Disallow: /news/*.pdf
out.php wird immer mit out.php?bla=123
angelinkt und ist nicht im index..
ebenfalls ist auch keine einzige pdf datei aus dem ordner news indexiert... _________________ übersetzer
chat anleitung
techno party
kostenloser counter |
|
| Nach oben |
|
|
rabby Fachmann

Anmeldungsdatum: 14.07.2004 Beiträge: 408
|
Verfasst am: Di 03 Apr, 2007 12:24 Titel: |
|
|
|
| Estigy: das steht in den Google Hinweisen für Webmaster => robots.txt ... |
|
| Nach oben |
|
|
Estigy Mitglied


Anmeldungsdatum: 03.03.2006 Beiträge: 27 Wohnort: Königstetten, Österreich
|
Verfasst am: Do 05 Apr, 2007 12:33 Titel: |
|
|
|
@rabby: Hättest du einen Link dazu vielleicht?
In den "Technical Guidelines" von Google (http://www.google.com/support/webmasters/bin/answer.py?answer=35769) fand ich nur den Link zu http://www.robotstxt.org/wc/faq.html, was nur das englische Original zu meinem vorher geposteten Link ist.
Wenn Google tatsächlich Patterns akzeptiert, dann ist das ja fein - aber zum einen würde ich dem nicht trauen (sie könnten es jederzeit unter Berufung auf den Standard wieder wegnehmen), und zum anderen wird das dadurch nicht zum Standard.
Ich bin grad am Programmieren einer eigenen kleinen Search-Engine, und würde mich natürlich über Input in diese Richtung freuen. Dass hier auch Patterns (und nicht nur URL-Anfänge) möglich sind, höre ich jedenfalls hier zum ersten Mal...
(Ganz im Gegenteil: Dort steht unter "Common Errors": "Wildcards are _not_ supported"!)
LG, Estigy. _________________ Begeistertes Mitglied der Blasmusik Königstetten im Tullnerfeld.
Wie schreibt man einen Webcrawler in Java? |
|
| Nach oben |
|
|
rabby Fachmann

Anmeldungsdatum: 14.07.2004 Beiträge: 408
|
|
| Nach oben |
|
|
Estigy Mitglied


Anmeldungsdatum: 03.03.2006 Beiträge: 27 Wohnort: Königstetten, Österreich
|
Verfasst am: Do 05 Apr, 2007 14:03 Titel: |
|
|
|
Danke für den raschen Link.
Dann kann ich ja beruhigt sein: "This is an extension of the standard, so not all bots may follow it."
Nach der Lektüre der Seite würde ich sagen: Ja, mit
Disallow: /*_s2.html$
machst du genau das, was du willst: Alles sperren, was mit "_s2.html" aufhört. Auf das "User-agent: *" würde ich aber nicht verlassen - wer weiß, ob das außer dem Google-Bot sonst noch wer richtig interpretiert... _________________ Begeistertes Mitglied der Blasmusik Königstetten im Tullnerfeld.
Wie schreibt man einen Webcrawler in Java? |
|
| Nach oben |
|
|
|
Du kannst keine Beiträge in dieses Forum schreiben. Du kannst auf Beiträge in diesem Forum nicht antworten. Du kannst deine Beiträge in diesem Forum nicht bearbeiten. Du kannst deine Beiträge in diesem Forum nicht löschen. Du kannst an Umfragen in diesem Forum nicht mitmachen.
|
|
|