帮助提取段落的最后一个句子

armstrong

高级会员
<p> <s>At this point Zhang Jue had his trusted follower Ma Yuanyi bribe the eunuch Feng Xu to work inside the court on behalf of the rebels.</s> <s>Then Zhang Jue made a proposal to his two brothers: "Popular support is the hardest thing to win.</s> <s>Today the people favor us.</s> <s>Why waste this chance to seize the realm for ourselves?"</s> </p>
<p> <s>Instead, Tang Zhou reported the imminent insurrection to the palace.</s> <s>The Emperor summoned Regent He Jin to arrest and behead Ma Yuanyi.</s> <s>This done, Feng Xu and his group were seized and jailed.</s> </p>

有一很长但标注有规律的语料,随机抽取两个段落如上,段落的开始和结束分别以<p>和</p>为标志,请问如何将上面两个段落的最后一句即<s>Why waste this chance to seize the realm for ourselves?"</s> </p>”和“<s>This done, Feng Xu and his group were seized and jailed.</s> </p>”两句提取出来?尝试了好多办法,都不行,请各位帮忙,谢谢!
 
回复: 帮助提取段落的最后一个句子

解决的方法应该有两种:
1.用正则非贪婪式提取"<s>.....</s> </p>+段落符"(我没有试)

2.用word高级查询方法(选中'使用通配符'),可分三步:
a.查找"(\<\/s\>) (\<s\>)" 替换为"\1^p\2",即在"</s> <s>"其中间加入段落标记(硬回车);
b.再查找"\<s\>[!§-¥^13]@\</p\>^13",替换为"^&"(字体红色).
c.查找并删除"非红色"任意字符,留下即是你要提取的内容.

word确实很强大,三言两语说不清楚.结果见附件吧.
 

附件

  • 第二步后的结果.doc
    29 KB · 浏览: 1
  • 第一步.jpg
    第一步.jpg
    52.2 KB · 浏览: 0
  • 第二步.jpg
    第二步.jpg
    47.2 KB · 浏览: 0
回复: 帮助提取段落的最后一个句子

谢谢孙老师,word确实很强大。我的语料都是文本文件,如果能用正则表达式提取出来就再好不过了。
 
回复: 帮助提取段落的最后一个句子

我写了一个小程序,可以按您提供的格式批量提取首句或尾句,并把结果保存在程序根部录下的“句子提取结果.txt”文件中,希望对您有帮助。:)

注意:语料文件应该是txt格式
 

附件

  • 句子提取.rar
    322.3 KB · 浏览: 44
回复: 帮助提取段落的最后一个句子

谢谢贾老师!这正是我所想要的,我自己用正则表达式可以提出首句,就是提不出尾句,这下好了。再次谢谢贾教师!
 
回复: 帮助提取段落的最后一个句子

在PowerGrep用Regex似乎能够完成你的要求!

步骤:
1.在PowerGrep选中要提取句子的文件。
2.在PowerGrep的Action Type选项卡中选择"Collect Data"项。
3.在Search文本框中输入正则表达式<s>([^<]*)</s>\s*</p>
4.在Collect文本框中输入\1。
5.单击【Search】按钮。
6.在Results的面板中可以得到每一个段落的最后一句。
 

附件

  • 1.jpg
    1.jpg
    102.8 KB · 浏览: 7
  • 2.jpg
    2.jpg
    77.1 KB · 浏览: 6
Back
顶部