函数url_parse
非常快,大多数时候都可以正常工作。但是最近,域名可能包含UTF-8个字符,例如
url <- "www.cordes-tiefkühlprodukte.de"
现在如果我在这个url上应用url_parse
,我得到一个特殊的字符"
url_parse(url)
scheme domain port path parameter fragment
1 <NA> www.cordes-tiefk<fc>hlprodukte.de <NA> <NA> <NA> <NA>
我的问题是:如何将此条目“修复”为UTF-8?我尝试了icon v
和stringi
包中的一些函数,但没有成功。
(我知道httr::parse_url
,它没有这个问题。所以一种方法是检测不是ascii的网址,并在这些网址上使用url_parse
,在少数特殊情况下使用parse_url
。然而,这导致了(有效地)检测非ascii URL的问题。)
编辑:不幸的是,url1
robotstxt::paths_allowed(
url1,
domain=urltools::suffix_extract(urltools::domain(url1))
)
我得到一个错误无法解析主机
。但是,手动插入原始URL和二级域,paths_allowed可以工作。
> sessionInfo()
R版本3.6.1(2019-07-05)平台:x86_64-w64-mingw32/x64(64-bit)运行于:Windows 10 x64(build 17134)
矩阵产品:默认
LC_COLLATE=German_Germany.1252LC_CTYPE=German_Germany.1252
[3]LC_MONETARY=German_Germany.1252LC_NUMERIC=C
[5]LC_TIME=German_Germany.1252
附加的基础包:[1]stats图形grDevices utils数据集方法基础
其他附包:[1]urltools_1.7.3fortunes_1.5-4
通过命名空间加载(且未附加):[1]compiler_3.6.1Rcpp_1.0.1triebeard_0.3.0
我可以重现这个问题。我可以将列domain
转换为UTF-8,方法是使用readr::
和latin1
编码读取它:
library(urltools)
library(tidyverse)
url <- "www.cordes-tiefkühlprodukte.de"
parts <-
url_parse(url) %>%
mutate(domain = parse_character(domain, locale = locale(encoding = "latin1")))
parts
scheme domain port path parameter fragment
1 <NA> www.cordes-tiefkühlprodukte.de <NA> <NA> <NA> <NA>
我猜您必须指定的编码(此处latin1
)仅取决于您的语言环境,而不取决于url的特殊字符,但我不能100%确定。
仅供参考,另一种适合我的方法是:
library(stringi)
url <- "www.cordes-tiefkühlprodukte.de"
url <- stri_escape_unicode(url)
dat <- urltools::parse_url(url)
for(cn in colnames(dat)) dat[,cn] <- stri_unescape_unicode(dat[,cn])