Как извлечь гиперссылки из текста

Мой xml имеет следующий элемент:

<output_citation>C. T. Pan, R. R. Nair, U. Bangert, Q. Ramasse, R. Jalil, R. Zan, C. R. Seabourne, and A. J. Scott. (2012). Nanoscale electron diffraction and plasmon spectroscopy of single- and few-layer boron nitride. <em>Physical Review B</em>, 85(4), 045440.  eScholarID:<a class="escholarid"
        href="http://www.blah.ac.uk/escholar/uk-ac-blah-scw:205189">205189</a> | DOI:<a class="doi" href="http://dx.doi.org/10.1103/PhysRevB.85.045440">10.1103/PhysRevB.85.045440</a></output_citation>

Используя XSLT 1.0, мне нужно извлечь две гиперссылки и отобразить их как интерактивные ссылки. Мне удалось извлечь первый, используя:

<xsl:variable name="urlEscholarId" select="output_citation/a/@href"> </xsl:variable>
<xsl:variable name="labelEscholarId" select="substring-after($urlEscholarId,'scw:')">       </xsl:variable>
 <a>
<xsl:attribute name="href"> 
<xsl:value-of select="$urlEscholarId"/>
</xsl:attribute>
<xsl:value-of select="$labelDoiId"/>
</a>

Что дает мне:

<a href="http://www.blah.ac.uk/escholar/uk-ac-blah-scw:205189">205189</a>

Я не могу извлечь второй, а также как вывести приведенный выше текст, ИСКЛЮЧАЯ th eurls?

Огромное спасибо


person kevmull    schedule 14.10.2014    source источник
comment
Можете ли вы показать результат, который вы на самом деле ожидаете в этом случае? Похоже, вы могли бы просто сделать <xsl:copy-of select="output_citation/node()" /> в этом случае...   -  person Tim C    schedule 14.10.2014
comment
@TimC Возможно, атрибут class больше не должен быть в выводе?   -  person Mathias Müller    schedule 14.10.2014


Ответы (1)


Примечание. В этих решениях показано, как выполнять задачи изолированно. Это может работать или не работать с вашей существующей таблицей стилей XSLT. Если это не так, вам придется раскрыть больше кода.

1 Вывод HTML-ссылок

Возможно, в for-each циклах или переменных вообще нет необходимости (в любом случае они в какой-то степени противоречат функциональной природе XSLT). Чтобы найти обе ссылки, просто напишите шаблон, соответствующий элементам a, создайте новый элемент a (или скопируйте существующий) и скопируйте атрибут href и текстовое содержимое исходного элемента a.

Я предполагаю, что атрибут class не должен отображаться в выводе.

Таблица стилей

<?xml version="1.0" encoding="UTF-8" ?>
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:output method="xml" indent="yes" />

    <xsl:template match="a">
        <a>
            <xsl:copy-of select="@href|text()"/>
        </a>   
    </xsl:template>

    <xsl:template match="text()"/>

</xsl:transform>

Вывод XML

<?xml version="1.0" encoding="utf-8"?>
<a href="http://www.blah.ac.uk/escholar/uk-ac-blah-scw:205189">205189</a>
<a href="http://dx.doi.org/10.1103/PhysRevB.85.045440">10.1103/PhysRevB.85.045440</a>

2 Вывод только текстового содержимого

а также как вывести приведенный выше текст ИСКЛЮЧАЯ URL-адреса?

Это уже другая задача, но тоже легко решаемая сама по себе. Это выводит весь текст, за исключением текстовых узлов, которые являются дочерними элементами элемента a.

Таблица стилей

<?xml version="1.0" encoding="UTF-8" ?>
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:output method="xml" omit-xml-declaration="yes" indent="yes" /> 

    <xsl:template match="a/text()"/>

</xsl:transform>

Вывод текста

CT Pan, RR Nair, U. Bangert, Q. Ramasse, R. Jalil, R. Zan, CR Seabourne и AJ Scott. (2012). Нанодифракция электронов и плазмонная спектроскопия одно- и малослойного нитрида бора. Physical Review B, 85(4), 045440. eScholarID: | DOI:

person Mathias Müller    schedule 14.10.2014