diff --git a/README.md b/README.md new file mode 100644 index 0000000..bd873a3 --- /dev/null +++ b/README.md @@ -0,0 +1,11 @@ +Pár mých skriptů na scrapování map Správy železnic. + +Dokumentace: spuštění `aio.sh` v nějaké dočasné složce udělá tu správnou věc, jinak vizte zdrojáky. + +Napsal jsem to pro sebe, takže to má asi někde hardcodované cesty. Asi se +nechystám to opravovat, ale jestli to někdo opraví, tak mi klidně pošlete patch +:-) + +Licence: MIT + +Autor: `LEdoian ` (dosaďte do template pro MIT licenci :-)) diff --git a/aio.sh b/aio.sh new file mode 100755 index 0000000..47851b2 --- /dev/null +++ b/aio.sh @@ -0,0 +1,24 @@ +#!/bin/sh + +scripts="$(dirname "$0")" + +set -e + +tmp=$(mktemp --tmpdir=/tmp tmp_szmapy_XXXXXXXXX) +trap "rm $tmp" EXIT + +"$scripts"/stahni.sh +rename 'Show.aspx?path=%2FData%2FMapy%2F' '' *.pdf +"$scripts"/smaz_duplikaty > "$tmp" +echo "Will remove following files:" +cat "$tmp" +if grep -q --invert-match -E '^\./' "$tmp"; then + # Some file is elsewhere + echo "Please confirm (^C to kill)" + read +else + echo "All files are in this directory, removing." +fi +< "$tmp" xargs rm -fv + +#TODO: porovnání diff --git a/porovnani b/porovnani new file mode 100644 index 0000000..a8f8d80 --- /dev/null +++ b/porovnani @@ -0,0 +1 @@ +for f in *; do diffpdf "$f" "/home/ledoian/SZDC/JR2020/Mapy/$f"; read -p'> ' ; done diff --git a/smaz_duplikaty b/smaz_duplikaty new file mode 100755 index 0000000..12337f3 --- /dev/null +++ b/smaz_duplikaty @@ -0,0 +1,21 @@ +#!/bin/bash + +set -eo pipefail + +in_tmp() { + local tmp="$(mktemp)" + trap "rm $tmp" EXIT + cat > "$tmp" + (< "$tmp" xargs realpath -e | grep -v '^/tmp/') && exit 1 + # All good + cat "$tmp" + rm "$tmp" + trap - EXIT +} + +najdi_duplikaty() { + fdupes . ~/SZDC/Mapy/ -1 | cut -f2 -d' ' | in_tmp +} + +# Tohle neni bezpecne spoustet bez rozmyslu!! +najdi_duplikaty # | xargs rm -v diff --git a/stahni.sh b/stahni.sh new file mode 100755 index 0000000..a9daac8 --- /dev/null +++ b/stahni.sh @@ -0,0 +1,3 @@ +#!/bin/bash + +curl -L 'https://provoz.spravazeleznic.cz/PORTAL/ViewArticle.aspx?oid=133' | grep -oE 'href="[^"]*"' | sed 's/^href="//g; s/"$//g' | grep 'pdf$' | sed 's#^#https://provoz.spravazeleznic.cz/PORTAL/#' | xargs wget