sedでhtmlのタグを除去する

sedでhtmlのタグを除去する

Linux(FreeBSD)sedでhtmlのタグを除去する

文字列の置換に sed はよく利用していますが、複雑な正規表現が少し苦手です。今回は html のタグを除去する正規表現を試してみましたが、果たしてこれで問題ないのかどうか・・・。

[saratoga.txtの中身]
<a href="http://www.dollpaper.com/">http://www.dollpaper.com/</a>

$ cat saratoga.txt | sed -e 's/<[^>]*>//g'

http://www.dollpaper.com/

最初は、<.*> でやっていましたが、これだとリンクタグで挟んでいる文字列も除去されてしまったので考え直してみました。

最終更新日:

関連記事

人気記事

新着情報