<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Chinese word segmentation &#8211; 编码无悔 /  Intent &amp; Focused</title>
	<atom:link href="https://www.codelast.com/tag/chinese-word-segmentation/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.codelast.com</link>
	<description>最优化之路</description>
	<lastBuildDate>Sun, 03 May 2020 11:42:44 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>
	<item>
		<title>[原创]中文分词器分词效果的评测方法</title>
		<link>https://www.codelast.com/%e5%8e%9f%e5%88%9b%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%99%a8%e5%88%86%e8%af%8d%e6%95%88%e6%9e%9c%e7%9a%84%e8%af%84%e6%b5%8b%e6%96%b9%e6%b3%95/</link>
					<comments>https://www.codelast.com/%e5%8e%9f%e5%88%9b%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%99%a8%e5%88%86%e8%af%8d%e6%95%88%e6%9e%9c%e7%9a%84%e8%af%84%e6%b5%8b%e6%96%b9%e6%b3%95/#comments</comments>
		
		<dc:creator><![CDATA[learnhard]]></dc:creator>
		<pubDate>Mon, 26 Aug 2013 16:28:28 +0000</pubDate>
				<category><![CDATA[Algorithm]]></category>
		<category><![CDATA[Math]]></category>
		<category><![CDATA[原创]]></category>
		<category><![CDATA[Chinese word segmentation]]></category>
		<category><![CDATA[Chinese word segmentation effect evaluation]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[中文分词效果评测]]></category>
		<category><![CDATA[分词器效果怎么评测]]></category>
		<guid isPermaLink="false">http://www.codelast.com/?p=7042</guid>

					<description><![CDATA[<p>
现在有很多开源的中文分词器库，如果你的项目要选择其一来实现中文分词功能，必然要先评测它们的分词效果。如何评测？下面详细叙述。<br />
<span id="more-7042"></span><br />
<span style="background-color:#00ff00;">【1】</span>黄金标准/Golden standard</p>
<div>
	所谓的黄金标准是指：评价一个分词器分词结果的好坏，必然要有一份&#8220;公认正确&#8221;的分词结果数据来作为参照。</div>
<div>
	通常，我们使用一份人工标注的数据作为黄金标准。但是，就算是人工标注的数据，每个人对同一句话的分词结果恐怕也持有不同的意见，例如，有一句话&#8220;科学技术是第一生产力&#8221;，有人说应该这样分词：&#8220;科学技术 是 第一 生产力&#8221;，又有人说应该这样分词：&#8220;科学 技术 是 第一 生产力&#8221;。那么，到底哪种才是对的呢？<br />
	因此，要找有权威的分词数据来做为黄金标准。<br />
	大家可以使用SIGHAN（国际计算语言学会（ACL）中文语言处理小组）举办的国际中文语言处理竞赛Second International Chinese Word Segmentation Bakeoff（<a href="http://sighan.cs.uchicago.edu/bakeoff2005/">http://sighan.cs.uchicago.edu/bakeoff2005/</a>）所提供的公开数据来评测，它包含了多个测试集以及对应的黄金标准分词结果。<br />
	<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a><br />
	<span style="background-color:#00ff00;">【2】</span>评价指标<br />
	精度（Precision）、召回率（Recall）、F值（F-mesure）是用于评价一个信息检索系统的质量的3个主要指标，以下分别简记为P，R和F。同时，还可以把错误率（Error Rate）作为分词效果的评价标准之一（以下简记为ER）。<br />
	直观地说，精度表明了分词器分词的准确程度；召回率也可认为是&#8220;查全率&#8221;，表明了分词器切分正确的词有多么全；F值综合反映整体的指标；错误率表明了分词器分词的错误程度。<br />
	P、R、F越大越好，ER越小越好。一个完美的分词器的P、R、F值均为1，ER值为0。<br />
	通常，召回率和精度这两个指标会相互制约。
<p>	例如，还是拿上面那句话作为例子：&#8220;科学技术是第一生产力&#8221;（黄金标准为&#8220;科学技术 是 第一 生产力&#8221;），假设有一个分词器很极端，把几乎所有前后相连的词的组合都作为分词结果，就像这个样子：&#8220;科学 技术 科学技术 是 是第一 第一生产力 生产力&#8221;，那么毫无疑问，它切分正确的词已经覆盖了黄金标准中的所有词，即它的召回率（Recall）很高。但是由于它分错了很多词，因此，它的精度（Precision）很低。</p>
<p>	因此，召回率和精度这二者有一个平衡点，我们希望它们都是越大越好，但通常不容易做到都大。<br />
	<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a></p></div>&#8230; <a href="https://www.codelast.com/%e5%8e%9f%e5%88%9b%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%99%a8%e5%88%86%e8%af%8d%e6%95%88%e6%9e%9c%e7%9a%84%e8%af%84%e6%b5%8b%e6%96%b9%e6%b3%95/" class="read-more">Read More </a>]]></description>
										<content:encoded><![CDATA[<p>
现在有很多开源的中文分词器库，如果你的项目要选择其一来实现中文分词功能，必然要先评测它们的分词效果。如何评测？下面详细叙述。<br />
<span id="more-7042"></span><br />
<span style="background-color:#00ff00;">【1】</span>黄金标准/Golden standard</p>
<div>
	所谓的黄金标准是指：评价一个分词器分词结果的好坏，必然要有一份&ldquo;公认正确&rdquo;的分词结果数据来作为参照。</div>
<div>
	通常，我们使用一份人工标注的数据作为黄金标准。但是，就算是人工标注的数据，每个人对同一句话的分词结果恐怕也持有不同的意见，例如，有一句话&ldquo;科学技术是第一生产力&rdquo;，有人说应该这样分词：&ldquo;科学技术 是 第一 生产力&rdquo;，又有人说应该这样分词：&ldquo;科学 技术 是 第一 生产力&rdquo;。那么，到底哪种才是对的呢？<br />
	因此，要找有权威的分词数据来做为黄金标准。<br />
	大家可以使用SIGHAN（国际计算语言学会（ACL）中文语言处理小组）举办的国际中文语言处理竞赛Second International Chinese Word Segmentation Bakeoff（<a href="http://sighan.cs.uchicago.edu/bakeoff2005/">http://sighan.cs.uchicago.edu/bakeoff2005/</a>）所提供的公开数据来评测，它包含了多个测试集以及对应的黄金标准分词结果。<br />
	<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a><br />
	<span style="background-color:#00ff00;">【2】</span>评价指标<br />
	精度（Precision）、召回率（Recall）、F值（F-mesure）是用于评价一个信息检索系统的质量的3个主要指标，以下分别简记为P，R和F。同时，还可以把错误率（Error Rate）作为分词效果的评价标准之一（以下简记为ER）。<br />
	直观地说，精度表明了分词器分词的准确程度；召回率也可认为是&ldquo;查全率&rdquo;，表明了分词器切分正确的词有多么全；F值综合反映整体的指标；错误率表明了分词器分词的错误程度。<br />
	P、R、F越大越好，ER越小越好。一个完美的分词器的P、R、F值均为1，ER值为0。<br />
	通常，召回率和精度这两个指标会相互制约。</p>
<p>	例如，还是拿上面那句话作为例子：&ldquo;科学技术是第一生产力&rdquo;（黄金标准为&ldquo;科学技术 是 第一 生产力&rdquo;），假设有一个分词器很极端，把几乎所有前后相连的词的组合都作为分词结果，就像这个样子：&ldquo;科学 技术 科学技术 是 是第一 第一生产力 生产力&rdquo;，那么毫无疑问，它切分正确的词已经覆盖了黄金标准中的所有词，即它的召回率（Recall）很高。但是由于它分错了很多词，因此，它的精度（Precision）很低。</p>
<p>	因此，召回率和精度这二者有一个平衡点，我们希望它们都是越大越好，但通常不容易做到都大。<br />
	<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a><br />
	为了陈述上述指标的计算方法，先定义如下数据：<br />
	 <span class='MathJax_Preview'><img src='https://www.codelast.com/wp-content/plugins/latex/cache/tex_8d9c307cb7f3c4a32822a51922d1ceaa.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="N" /></span><script type='math/tex'>N</script> ：黄金标准分割的单词数<br />
	 <span class='MathJax_Preview'><img src='https://www.codelast.com/wp-content/plugins/latex/cache/tex_e1671797c52e15f763380b45e841ec32.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="e" /></span><script type='math/tex'>e</script> ：分词器错误标注的单词数<br />
	 <span class='MathJax_Preview'><img src='https://www.codelast.com/wp-content/plugins/latex/cache/tex_4a8a08f09d37b73795649038408b5f33.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="c" /></span><script type='math/tex'>c</script> ：分词器正确标注的单词数</p>
<p>	则以上各指标的计算公式如下：</p></div>
<div style="text-align: center;">
	<img decoding="async" alt="segmentation evaluation formula" src="http://www.codelast.com/wp-content/uploads/ckfinder/images/segment_evaluation_formula.png" style="width: 140px; height: 260px;" /></div>
<div>
	<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a><br />
	<span style="background-color:#00ff00;">【3】</span>正确及错误标注的计数算法</p>
<div>
		如上所述，我们要先计算出e和c，才能计算出各指标值。 <span class='MathJax_Preview'><img src='https://www.codelast.com/wp-content/plugins/latex/cache/tex_e1671797c52e15f763380b45e841ec32.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="e" /></span><script type='math/tex'>e</script> 和 <span class='MathJax_Preview'><img src='https://www.codelast.com/wp-content/plugins/latex/cache/tex_4a8a08f09d37b73795649038408b5f33.gif' style='vertical-align: middle; border: none; padding-bottom:2px;' class='tex' alt="c" /></span><script type='math/tex'>c</script> 是按如下算法来统计的：</div>
<div>
		在&ldquo;黄金标准&rdquo;和&ldquo;待评测的结果&rdquo;中，理论上，除了分词后添加的空格之外，它们所有的文字都是相同的；唯一的不同就在于那些有差异的分词结果的位置上。例如，&ldquo;计算机 是个 好东西&rdquo;（黄金标准）与&ldquo;计算机 是 个 好东西&rdquo;（待评测的结果）的差异就在于&ldquo;是个&rdquo;与&ldquo;是 个&rdquo;的差异，其余分词结果都是相同的。因此，只需要找到这种差异的个数，就可以统计出分词器正确标注了多少个词、错误标注了多少个词。<br />
		&nbsp;</div>
<div>
		以下面的分词结果为例：</div>
<div>
		&ldquo;计算机 总是 有问题&rdquo;&mdash;&mdash;黄金标准</div>
<div>
		&ldquo;计算机 总 是 有问题&rdquo;&mdash;&mdash;待评测的结果<br />
		&nbsp;</div>
<div>
		给分出来的每个词都做位置的标记（位置从1开始）：</div>
<div>
		(1,4)，(4,6)，(6,9) &mdash;&mdash;黄金标准</div>
<div>
		(1,4)，(4,5)，(5,6)，(6,9) &mdash;&mdash;待评测的结果<br />
		<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a></div>
<div>
		那么我们会发现，(1,4)和(6,9)这两个词是相同的（即&ldquo;计算机&rdquo;和&ldquo;有问题&rdquo;），而差异在于(4,6)和(4,5)，(5,6)（即&ldquo;总是&rdquo;和&ldquo;总 是&rdquo;），因此，我们只需要比较这两个标注结果中的差异数，就可以知道分词器正确、错误地标注了多少个单词。在此例中，正确的标注的单词数为2，错误标注的单词数为2。<br />
		&nbsp;</div>
<div>
		需要说明的是：在此例中，也可以认为错误标注的单词数为1（即&ldquo;总是&rdquo;与&ldquo;总 是&rdquo;的差异），按照最大错误数来算会使错误率升高（在分词精度很差的情况下，可能会导致ER&gt;100%），不过，在所有分词器都使用同一标准来评测的情况下，也就会很公平，并不会影响到最终的结论。</p>
<p>		有了上面的算法，就很容易写出一个评测程序了。这里就不把程序放上来了。<br />
		<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="http://www.codelast.com/" target="_blank" rel="noopener noreferrer"><span style="color: rgb(255, 255, 255);">http://www.codelast.com/</span></a><br />
		<span style="background-color: rgb(0, 255, 0);">【4】</span>参考文献<br />
		<span style="color:#0000ff;">①</span> Word Segmentation: Quick but not Dirty.</p>
<div>
			Timothy Gambell 1814 Clover Lane Fort Worth, TX 76107, timothy.gambell@aya.yale.edu</div>
<div>
			Charles Yang* Department of Linguistics, Yale University New Haven, CT 06511, charles.yang@yale.edu</div>
<p>		<span style="color:#0000ff;">②</span>&nbsp;Chinese Segmentation and New Word Detection using Conditional Random Fields<br />
		Fuchun Peng, Fangfang Feng, Andrew McCallum, Computer Science Department, University of Massachusetts Amherst, 140 Governors Drive, Amherst, MA, U.S.A. 01003, {fuchun, feng, mccallum}@cs.umass.edu<br />
		<span style="color:#0000ff;">③</span>&nbsp;A Compression-based Algorithm for Chinese Word Segmentation</p>
<div>
			W. J. Teahan,&nbsp;The Robert Gordon University</div>
<div>
			Rodger McNab,&nbsp;University of Waikato</div>
<div>
			Yingying Wen,&nbsp;University of Waikato</div>
<div>
			Ian H. Witten,&nbsp;University of Waikato</p>
<p>			<span style="color: rgb(255, 255, 255);">文章来源：</span><a href="https://www.codelast.com/" rel="noopener noreferrer" target="_blank"><span style="color: rgb(255, 255, 255);">https://www.codelast.com/</span></a><br />
			<span style="color: rgb(255, 0, 0);">➤➤</span>&nbsp;版权声明&nbsp;<span style="color: rgb(255, 0, 0);">➤➤</span>&nbsp;<br />
			转载需注明出处：<u><a href="https://www.codelast.com/" rel="noopener noreferrer" target="_blank"><em><span style="color: rgb(0, 0, 255);"><strong style="font-size: 16px;"><span style="font-family: arial, helvetica, sans-serif;">codelast.com</span></strong></span></em></a></u>&nbsp;<br />
			感谢关注我的微信公众号（微信扫一扫）：</p>
<p style="border: 0px; font-size: 13px; margin: 0px 0px 9px; outline: 0px; padding: 0px; color: rgb(77, 77, 77);">
				<img decoding="async" alt="wechat qrcode of codelast" src="https://www.codelast.com/codelast_wechat_qr_code.jpg" style="width: 200px; height: 200px;" /></p>
</p></div>
</p></div>
</div>
]]></content:encoded>
					
					<wfw:commentRss>https://www.codelast.com/%e5%8e%9f%e5%88%9b%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%99%a8%e5%88%86%e8%af%8d%e6%95%88%e6%9e%9c%e7%9a%84%e8%af%84%e6%b5%8b%e6%96%b9%e6%b3%95/feed/</wfw:commentRss>
			<slash:comments>3</slash:comments>
		
		
			</item>
	</channel>
</rss>
